ByteDance
/

Sa2VA-4B

Image-Text-to-Text

feature-extraction

Model card Files Files and versions

bitersun commited on Sep 7

Commit

0604e3c

·

1 Parent(s): b5ffed2

fix

Files changed (1) hide show

modeling_sa2va_chat.py +2 -2

modeling_sa2va_chat.py CHANGED Viewed

@@ -545,7 +545,7 @@ class Sa2VAChatModel(PreTrainedModel):
         self.gen_config = GenerationConfig(**default_generation_kwargs)
         self.init_prediction_config = True
         self.torch_dtype = torch_dtype
-        self.to(torch_dtype)
         self.extra_image_processor = DirectResize(target_length=1024, )
         # for multi image process
         self.min_dynamic_patch = 1
@@ -623,7 +623,7 @@ class Sa2VAChatModel(PreTrainedModel):
                 extra_pixel_values = []
                 ori_image_size = video[0].size
                 for frame_idx, frame_image in enumerate(video):
-                    assert ori_image_size == frame_image.size
                     g_image = np.array(frame_image)  # for grounding
                     g_image = self.extra_image_processor.apply_image(g_image)
                     g_image = torch.from_numpy(g_image).permute(2, 0, 1).contiguous()

         self.gen_config = GenerationConfig(**default_generation_kwargs)
         self.init_prediction_config = True
         self.torch_dtype = torch_dtype
+        # self.to(torch_dtype)
         self.extra_image_processor = DirectResize(target_length=1024, )
         # for multi image process
         self.min_dynamic_patch = 1
                 extra_pixel_values = []
                 ori_image_size = video[0].size
                 for frame_idx, frame_image in enumerate(video):
+                    # assert ori_image_size == frame_image.size
                     g_image = np.array(frame_image)  # for grounding
                     g_image = self.extra_image_processor.apply_image(g_image)
                     g_image = torch.from_numpy(g_image).permute(2, 0, 1).contiguous()