jumelet
/

gptbert-jpn-250steps-base

feature-extraction

Model card Files Files and versions

jumelet commited on 11 days ago

Commit

1dde150

·

verified ·

1 Parent(s): c3f7d71

Add main & ema weights for jpn

Files changed (3) hide show

README.md +5 -5
config.json +4 -4
original_project_config.json +4 -4

README.md CHANGED Viewed

@@ -27,13 +27,13 @@ ema, main
 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
-  "vocab_size": 8192,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,
@@ -68,6 +68,6 @@ print(outputs.logits)
 ```
 ## Notes
-- Converted on 2025-10-07T00:19:03.971199+00:00
 - Weights are the exact trained parameters; no new layers were initialized.
 - Requires `trust_remote_code=True` due to custom architecture.

 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "vocab_size": 16384,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,
 ```
 ## Notes
+- Converted on 2025-10-07T01:14:06.712805+00:00
 - Weights are the exact trained parameters; no new layers were initialized.
 - Requires `trust_remote_code=True` due to custom architecture.

config.json CHANGED Viewed

@@ -18,16 +18,16 @@
   "eos_token_id": 2,
   "force_causal_mask": true,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "layer_norm_eps": 1e-05,
   "mask_token_id": 4,
   "max_position_embeddings": 512,
   "model_type": "gpt_bert",
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
   "num_labels": 2,
   "pad_token_id": 3,
   "position_bucket_size": 32,
-  "vocab_size": 8192
 }

   "eos_token_id": 2,
   "force_causal_mask": true,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "layer_norm_eps": 1e-05,
   "mask_token_id": 4,
   "max_position_embeddings": 512,
   "model_type": "gpt_bert",
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "num_labels": 2,
   "pad_token_id": 3,
   "position_bucket_size": 32,
+  "vocab_size": 16384
 }

original_project_config.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
-  "vocab_size": 8192,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,

 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "vocab_size": 16384,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,