starvector
/

starvector-8b-im2svg

@@ -2,7 +2,7 @@ from transformers import (
     PretrainedConfig,
     PreTrainedModel
 )
 class StarVectorConfig(PretrainedConfig):
     model_type = "starvector"
@@ -18,9 +18,10 @@ class StarVectorConfig(PretrainedConfig):
         use_cache: bool = True,
         num_attention_heads: int = 16,
         num_hidden_layers: int = 24,
-        vocab_size: int = 32000,
-        hidden_size: int = 1024,
         num_kv_heads: int = 4,
         **kwargs,
     ):
         self.starcoder_model_name = starcoder_model_name
@@ -36,7 +37,7 @@ class StarVectorConfig(PretrainedConfig):
         self.vocab_size = vocab_size
         self.hidden_size = hidden_size
         self.num_kv_heads = num_kv_heads
         super().__init__(**kwargs)
 class StarVectorForCausalLM(PreTrainedModel):

     PretrainedConfig,
     PreTrainedModel
 )
+import torch
 class StarVectorConfig(PretrainedConfig):
     model_type = "starvector"
         use_cache: bool = True,
         num_attention_heads: int = 16,
         num_hidden_layers: int = 24,
+        vocab_size: int = 49152,
+        hidden_size: int = 2048,
         num_kv_heads: int = 4,
+        torch_dtype: str = "bfloat16",
         **kwargs,
     ):
         self.starcoder_model_name = starcoder_model_name
         self.vocab_size = vocab_size
         self.hidden_size = hidden_size
         self.num_kv_heads = num_kv_heads
+        self.torch_dtype = torch_dtype
         super().__init__(**kwargs)
 class StarVectorForCausalLM(PreTrainedModel):