openbmb
/

MiniCPM-Llama3-V-2_5

@@ -1,13 +1,10 @@
 import math
-from typing import List, Optional
 import json
 import torch
-import torchvision
 from threading import Thread
 from copy import deepcopy
-from PIL import Image
 from torchvision import transforms
-from transformers import LlamaTokenizer, LlamaPreTrainedModel, LlamaForCausalLM, AutoModel, PreTrainedTokenizerFast, TextIteratorStreamer
 from transformers.models.idefics2.modeling_idefics2 import Idefics2VisionTransformer
 from transformers import AutoProcessor
@@ -91,7 +88,9 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             img_cnt = []
             for pixel_values in pixel_values_list:
                 img_cnt.append(len(pixel_values))
-                all_pixel_values.extend([i.flatten(end_dim=1).permute(1, 0) for i in pixel_values])            # exist image
             if all_pixel_values:
                 tgt_sizes = torch.vstack(tgt_sizes).type(torch.int32)
@@ -290,17 +289,18 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             processor = AutoProcessor.from_pretrained(self.config._name_or_path, trust_remote_code=True)
         if isinstance(msgs, str):
             msgs = json.loads(msgs)
         assert len(msgs) > 0, 'msgs is empty'
         assert sampling or not stream, 'if use stream mode, make sure sampling=True'
         if image is not None and isinstance(msgs[0]['content'], str):
-            msgs[0]['content'] = '(<image>./</image>)\n' + msgs[0]['content']
         if system_prompt:
             sys_msg = {'role': 'system', 'content': system_prompt}
             copy_msgs = [sys_msg] + copy_msgs
-        prompt = processor.tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=True)
         inputs = processor(prompt, [image], return_tensors="pt", max_length=max_inp_length).to(self.device)
         if sampling:

 import math
 import json
 import torch
 from threading import Thread
 from copy import deepcopy
 from torchvision import transforms
+from transformers import LlamaPreTrainedModel, LlamaForCausalLM, TextIteratorStreamer
 from transformers.models.idefics2.modeling_idefics2 import Idefics2VisionTransformer
 from transformers import AutoProcessor
             img_cnt = []
             for pixel_values in pixel_values_list:
                 img_cnt.append(len(pixel_values))
+                all_pixel_values.extend([i.flatten(end_dim=1).permute(1, 0) for i in pixel_values])
+            # exist image
             if all_pixel_values:
                 tgt_sizes = torch.vstack(tgt_sizes).type(torch.int32)
             processor = AutoProcessor.from_pretrained(self.config._name_or_path, trust_remote_code=True)
         if isinstance(msgs, str):
             msgs = json.loads(msgs)
+        copy_msgs = deepcopy(msgs)
         assert len(msgs) > 0, 'msgs is empty'
         assert sampling or not stream, 'if use stream mode, make sure sampling=True'
         if image is not None and isinstance(msgs[0]['content'], str):
+            copy_msgs[0]['content'] = '(<image>./</image>)\n' + copy_msgs[0]['content']
         if system_prompt:
             sys_msg = {'role': 'system', 'content': system_prompt}
             copy_msgs = [sys_msg] + copy_msgs
+        prompt = processor.tokenizer.apply_chat_template(copy_msgs, tokenize=False, add_generation_prompt=True)
         inputs = processor(prompt, [image], return_tensors="pt", max_length=max_inp_length).to(self.device)
         if sampling: