Jackmin108
/

gpt-oss-0.5B

Text Generation

Model card Files Files and versions

Jackmin108 commited on 13 days ago

Commit

53d1022

·

1 Parent(s): 45a6ce4

.5B config

Files changed (1) hide show

config.json +11 -6

config.json CHANGED Viewed

@@ -2,16 +2,21 @@
   "architectures": [
     "GptOssForCausalLM"
   ],
   "attention_bias": true,
   "attention_dropout": 0.0,
   "eos_token_id": 200002,
   "experts_per_token": 4,
   "head_dim": 64,
   "hidden_act": "silu",
-  "hidden_size": 2880,
   "initial_context_length": 4096,
   "initializer_range": 0.02,
-  "intermediate_size": 2880,
   "layer_types": [
     "sliding_attention",
     "full_attention",
@@ -40,11 +45,11 @@
   ],
   "max_position_embeddings": 131072,
   "model_type": "gpt_oss",
-  "num_attention_heads": 64,
   "num_experts_per_tok": 4,
-  "num_hidden_layers": 24,
-  "num_key_value_heads": 8,
-  "num_local_experts": 32,
   "output_router_logits": false,
   "pad_token_id": 199999,
   "quantization_config": {

   "architectures": [
     "GptOssForCausalLM"
   ],
+  "auto_map": {
+    "AutoConfig": "configuration_gpt_oss.GptOssConfig",
+    "AutoModelForCausalLM": "modeling_gpt_oss.GptOssForCausalLM",
+    "AutoModel": "modeling_gpt_oss.GptOssModel"
+  },
   "attention_bias": true,
   "attention_dropout": 0.0,
   "eos_token_id": 200002,
   "experts_per_token": 4,
   "head_dim": 64,
   "hidden_act": "silu",
+  "hidden_size": 1024,
   "initial_context_length": 4096,
   "initializer_range": 0.02,
+  "intermediate_size": 256,
   "layer_types": [
     "sliding_attention",
     "full_attention",
   ],
   "max_position_embeddings": 131072,
   "model_type": "gpt_oss",
+  "num_attention_heads": 12,
   "num_experts_per_tok": 4,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 4,
+  "num_local_experts": 8,
   "output_router_logits": false,
   "pad_token_id": 199999,
   "quantization_config": {