ByteDance
/

Sa2VA-4B

Image-Text-to-Text

feature-extraction

Model card Files Files and versions

root commited on Sep 8

Commit

3fee777

·

1 Parent(s): 0604e3c

fix

Files changed (1) hide show

configuration_sa2va_chat.py +6 -10

configuration_sa2va_chat.py CHANGED Viewed

@@ -19,7 +19,6 @@ logger = logging.get_logger(__name__)
 class Sa2VAChatConfig(PretrainedConfig):
     model_type = 'sa2va_chat'
-    is_composition = True
     def __init__(
             self,
@@ -40,25 +39,22 @@ class Sa2VAChatConfig(PretrainedConfig):
             **kwargs):
         super().__init__(**kwargs)
         if vision_config is None:
-            vision_config = {}
             logger.info('vision_config is None. Initializing the InternVisionConfig with default values.')
         if llm_config is None:
-            llm_config = {}
             logger.info('llm_config is None. Initializing the LlamaConfig config with default values (`LlamaConfig`).')
         self.vision_config = InternVisionConfig(**vision_config)
-        if llm_config['architectures'][0] == 'LlamaForCausalLM':
             self.llm_config = LlamaConfig(**llm_config)
-        elif llm_config['architectures'][0] == 'InternLM2ForCausalLM':
             self.llm_config = InternLM2Config(**llm_config)
-        elif llm_config['architectures'][0] == 'Phi3ForCausalLM':
-            self.llm_config = Phi3Config(**llm_config)
-        elif llm_config['architectures'][0] == 'Qwen2ForCausalLM':
             self.llm_config = Qwen2Config(**llm_config)
         else:
-            raise ValueError('Unsupported architecture: {}'.format(llm_config['architectures'][0]))
         self.use_backbone_lora = use_backbone_lora
         self.use_llm_lora = use_llm_lora
         self.pad2square = pad2square

 class Sa2VAChatConfig(PretrainedConfig):
     model_type = 'sa2va_chat'
     def __init__(
             self,
             **kwargs):
         super().__init__(**kwargs)
         if vision_config is None:
+            vision_config = {'architectures': ['InternVisionModel']}
             logger.info('vision_config is None. Initializing the InternVisionConfig with default values.')
         if llm_config is None:
+            llm_config = {'architectures': ['InternLM2ForCausalLM']}
             logger.info('llm_config is None. Initializing the LlamaConfig config with default values (`LlamaConfig`).')
         self.vision_config = InternVisionConfig(**vision_config)
+        if llm_config.get('architectures')[0] == 'LlamaForCausalLM':
             self.llm_config = LlamaConfig(**llm_config)
+        elif llm_config.get('architectures')[0] == 'InternLM2ForCausalLM':
             self.llm_config = InternLM2Config(**llm_config)
+        elif llm_config.get('architectures')[0] == 'Qwen2ForCausalLM':
             self.llm_config = Qwen2Config(**llm_config)
         else:
+            raise ValueError('Unsupported architecture: {}'.format(llm_config.get('architectures')[0]))
         self.use_backbone_lora = use_backbone_lora
         self.use_llm_lora = use_llm_lora
         self.pad2square = pad2square