fine tuned model of my own general answer question for STEM MCQAs with aqua-rat and SciQ

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 library_name: transformers
 license: apache-2.0
-base_model: Jukess/MNLP_M2_mcqa_model
 tags:
 - generated_from_trainer
 model-index:
@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 # qwen_mcqa
-This model is a fine-tuned version of [Jukess/MNLP_M2_mcqa_model](https://huggingface.co/Jukess/MNLP_M2_mcqa_model) on the None dataset.
 ## Model description
@@ -50,6 +50,6 @@ The following hyperparameters were used during training:
 ### Framework versions
 - Transformers 4.51.3
-- Pytorch 2.6.0+cu126
-- Datasets 3.2.0
 - Tokenizers 0.21.0

 ---
 library_name: transformers
 license: apache-2.0
+base_model: Jukess/mcqa_initial_ft
 tags:
 - generated_from_trainer
 model-index:
 # qwen_mcqa
+This model is a fine-tuned version of [Jukess/mcqa_initial_ft](https://huggingface.co/Jukess/mcqa_initial_ft) on the None dataset.
 ## Model description
 ### Framework versions
 - Transformers 4.51.3
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
 - Tokenizers 0.21.0

config.json CHANGED Viewed

@@ -17,6 +17,7 @@
   "num_attention_heads": 16,
   "num_hidden_layers": 28,
   "num_key_value_heads": 8,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "rope_theta": 1000000,

   "num_attention_heads": 16,
   "num_hidden_layers": 28,
   "num_key_value_heads": 8,
+  "pad_token_id": 151643,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "rope_theta": 1000000,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e473306f5e14f8c736a1a389c6939c3f55c45185be44824142debee56eae14e
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ad4ebace401168598e41528314eb80b61cb9ee5ac336e7ab7060f391aeaa323
 size 2384234968

tokenizer_config.json CHANGED Viewed

@@ -232,9 +232,13 @@
   "eos_token": "<|endoftext|>",
   "errors": "replace",
   "extra_special_tokens": {},
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null
 }

   "eos_token": "<|endoftext|>",
   "errors": "replace",
   "extra_special_tokens": {},
+  "max_length": 512,
   "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
+  "stride": 0,
   "tokenizer_class": "Qwen2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd65eeca27c63a023425a56824053962332097ff279ae869c8dc337701691684
-size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:577deaea493431b64c3ff3e87a29de273a0fa13d10e1f0fd6519e61dfbf3b9c8
+size 5649