chloeli
/

qwen-2.5-0.5B-instruct-sft-lora-countdown-search-1k

@@ -1,19 +1,17 @@
 ---
 base_model: Qwen/Qwen2.5-0.5B-Instruct
-datasets: MelinaLaimon/stream-of-search
 library_name: transformers
-model_name: Qwen/Qwen2.5-0.5B-Instruct
 tags:
 - generated_from_trainer
-- alignment-handbook
 - trl
 - sft
 licence: license
 ---
-# Model Card for Qwen/Qwen2.5-0.5B-Instruct
-This model is a fine-tuned version of [Qwen/Qwen2.5-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct) on the [MelinaLaimon/stream-of-search](https://huggingface.co/datasets/MelinaLaimon/stream-of-search) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chloeli/huggingface/runs/g1ot5omk)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-0.5B-Instruct
 library_name: transformers
+model_name: qwen-2.5-0.5B-instruct-sft-lora-countdown-search-1k
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 ---
+# Model Card for qwen-2.5-0.5B-instruct-sft-lora-countdown-search-1k
+This model is a fine-tuned version of [Qwen/Qwen2.5-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chloeli/huggingface/runs/fi2orchz)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "eval_loss": 0.042979925870895386,
-    "eval_runtime": 84.0981,
-    "eval_samples": 1000,
-    "eval_samples_per_second": 11.891,
-    "eval_steps_per_second": 1.486,
     "total_flos": 4505964279496704.0,
-    "train_loss": 0.10702498173713684,
-    "train_runtime": 369.1598,
     "train_samples": 1000,
-    "train_samples_per_second": 2.709,
-    "train_steps_per_second": 0.339
 }

 {
     "total_flos": 4505964279496704.0,
+    "train_loss": 0.1011103401184082,
+    "train_runtime": 450.8333,
     "train_samples": 1000,
+    "train_samples_per_second": 2.218,
+    "train_steps_per_second": 0.277
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 4505964279496704.0,
-    "train_loss": 0.10702498173713684,
-    "train_runtime": 369.1598,
     "train_samples": 1000,
-    "train_samples_per_second": 2.709,
-    "train_steps_per_second": 0.339
 }

 {
     "total_flos": 4505964279496704.0,
+    "train_loss": 0.1011103401184082,
+    "train_runtime": 450.8333,
     "train_samples": 1000,
+    "train_samples_per_second": 2.218,
+    "train_steps_per_second": 0.277
 }

trainer_state.json CHANGED Viewed

@@ -10,229 +10,229 @@
   "log_history": [
     {
       "epoch": 0.008,
-      "grad_norm": 1.0538341999053955,
       "learning_rate": 1.5384615384615387e-05,
-      "loss": 0.5183,
-      "mean_token_accuracy": 0.8873351514339447,
       "step": 1
     },
     {
       "epoch": 0.04,
-      "grad_norm": 0.8182336091995239,
       "learning_rate": 7.692307692307693e-05,
-      "loss": 0.5607,
-      "mean_token_accuracy": 0.8784972950816154,
       "step": 5
     },
     {
       "epoch": 0.08,
-      "grad_norm": 0.36211511492729187,
       "learning_rate": 0.00015384615384615385,
-      "loss": 0.4512,
-      "mean_token_accuracy": 0.8926618993282318,
       "step": 10
     },
     {
       "epoch": 0.12,
-      "grad_norm": 0.2841012179851532,
       "learning_rate": 0.00019984268150178167,
-      "loss": 0.3501,
-      "mean_token_accuracy": 0.9094601750373841,
       "step": 15
     },
     {
       "epoch": 0.16,
-      "grad_norm": 0.21819071471691132,
       "learning_rate": 0.00019807852804032305,
-      "loss": 0.2307,
-      "mean_token_accuracy": 0.9370548307895661,
       "step": 20
     },
     {
       "epoch": 0.2,
-      "grad_norm": 0.1616477072238922,
       "learning_rate": 0.00019438833303083678,
-      "loss": 0.1308,
-      "mean_token_accuracy": 0.9601739048957825,
       "step": 25
     },
     {
       "epoch": 0.24,
-      "grad_norm": 0.15014736354351044,
       "learning_rate": 0.00018884456359788724,
-      "loss": 0.0893,
-      "mean_token_accuracy": 0.9702124178409577,
       "step": 30
     },
     {
       "epoch": 0.28,
-      "grad_norm": 0.11667617410421371,
       "learning_rate": 0.00018155608689592604,
-      "loss": 0.07,
-      "mean_token_accuracy": 0.9737478196620941,
       "step": 35
     },
     {
       "epoch": 0.32,
-      "grad_norm": 0.1287766844034195,
       "learning_rate": 0.0001726660322034027,
-      "loss": 0.0599,
-      "mean_token_accuracy": 0.9765061557292938,
       "step": 40
     },
     {
       "epoch": 0.36,
-      "grad_norm": 0.15566693246364594,
       "learning_rate": 0.00016234898018587337,
-      "loss": 0.0552,
-      "mean_token_accuracy": 0.9771042406558991,
       "step": 45
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.10337762534618378,
       "learning_rate": 0.00015080753452465296,
-      "loss": 0.0524,
-      "mean_token_accuracy": 0.977786386013031,
       "step": 50
     },
     {
       "epoch": 0.44,
-      "grad_norm": 0.10235860198736191,
       "learning_rate": 0.000138268343236509,
-      "loss": 0.046,
-      "mean_token_accuracy": 0.9806892037391662,
       "step": 55
     },
     {
       "epoch": 0.48,
-      "grad_norm": 0.08626584708690643,
       "learning_rate": 0.0001249776478167227,
-      "loss": 0.0448,
-      "mean_token_accuracy": 0.9810592472553253,
       "step": 60
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.09696436673402786,
       "learning_rate": 0.00011119644761033078,
-      "loss": 0.0404,
-      "mean_token_accuracy": 0.9841841220855713,
       "step": 65
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.10338141024112701,
       "learning_rate": 9.719537437241312e-05,
-      "loss": 0.0444,
-      "mean_token_accuracy": 0.9812480449676514,
       "step": 70
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.08246627449989319,
       "learning_rate": 8.324937766952638e-05,
-      "loss": 0.0419,
-      "mean_token_accuracy": 0.9823121666908264,
       "step": 75
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.1194208487868309,
       "learning_rate": 6.963232548903853e-05,
-      "loss": 0.0423,
-      "mean_token_accuracy": 0.9828369557857514,
       "step": 80
     },
     {
       "epoch": 0.68,
-      "grad_norm": 0.08132021129131317,
       "learning_rate": 5.6611626088244194e-05,
-      "loss": 0.0414,
-      "mean_token_accuracy": 0.9829596102237701,
       "step": 85
     },
     {
       "epoch": 0.72,
-      "grad_norm": 0.07309089601039886,
       "learning_rate": 4.444297669803981e-05,
-      "loss": 0.0439,
-      "mean_token_accuracy": 0.9817502200603485,
       "step": 90
     },
     {
       "epoch": 0.76,
-      "grad_norm": 0.07271327078342438,
       "learning_rate": 3.336534220479961e-05,
-      "loss": 0.0389,
-      "mean_token_accuracy": 0.9838515996932984,
       "step": 95
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.08715524524450302,
       "learning_rate": 2.3596262417839255e-05,
-      "loss": 0.0416,
-      "mean_token_accuracy": 0.9820100963115692,
       "step": 100
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.07210730016231537,
       "learning_rate": 1.5327580077171587e-05,
-      "loss": 0.0436,
-      "mean_token_accuracy": 0.9812193930149078,
       "step": 105
     },
     {
       "epoch": 0.88,
-      "grad_norm": 0.07659150660037994,
       "learning_rate": 8.72167349386811e-06,
-      "loss": 0.0415,
-      "mean_token_accuracy": 0.9827143549919128,
       "step": 110
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.06774768978357315,
       "learning_rate": 3.908267805490051e-06,
-      "loss": 0.0417,
-      "mean_token_accuracy": 0.9826048791408539,
       "step": 115
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.0939616933465004,
       "learning_rate": 9.818874663554357e-07,
-      "loss": 0.0411,
-      "mean_token_accuracy": 0.98243528008461,
       "step": 120
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.07217985391616821,
       "learning_rate": 0.0,
-      "loss": 0.0404,
-      "mean_token_accuracy": 0.9828806817531586,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04066629707813263,
-      "eval_mean_token_accuracy": 0.9829456944465638,
-      "eval_runtime": 84.041,
-      "eval_samples_per_second": 11.899,
-      "eval_steps_per_second": 1.487,
       "step": 125
     },
     {
       "epoch": 1.0,
       "step": 125,
       "total_flos": 4505964279496704.0,
-      "train_loss": 0.10702498173713684,
-      "train_runtime": 369.1598,
-      "train_samples_per_second": 2.709,
-      "train_steps_per_second": 0.339
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.008,
+      "grad_norm": 1.0864604711532593,
       "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.4927,
+      "mean_token_accuracy": 0.8949072062969208,
       "step": 1
     },
     {
       "epoch": 0.04,
+      "grad_norm": 0.8317855596542358,
       "learning_rate": 7.692307692307693e-05,
+      "loss": 0.5321,
+      "mean_token_accuracy": 0.8870031237602234,
       "step": 5
     },
     {
       "epoch": 0.08,
+      "grad_norm": 0.35360249876976013,
       "learning_rate": 0.00015384615384615385,
+      "loss": 0.4318,
+      "mean_token_accuracy": 0.8946158409118652,
       "step": 10
     },
     {
       "epoch": 0.12,
+      "grad_norm": 0.26475989818573,
       "learning_rate": 0.00019984268150178167,
+      "loss": 0.3243,
+      "mean_token_accuracy": 0.9152041494846344,
       "step": 15
     },
     {
       "epoch": 0.16,
+      "grad_norm": 0.21459443867206573,
       "learning_rate": 0.00019807852804032305,
+      "loss": 0.2103,
+      "mean_token_accuracy": 0.941685950756073,
       "step": 20
     },
     {
       "epoch": 0.2,
+      "grad_norm": 0.15868614614009857,
       "learning_rate": 0.00019438833303083678,
+      "loss": 0.1155,
+      "mean_token_accuracy": 0.9637313485145569,
       "step": 25
     },
     {
       "epoch": 0.24,
+      "grad_norm": 0.15498687326908112,
       "learning_rate": 0.00018884456359788724,
+      "loss": 0.0816,
+      "mean_token_accuracy": 0.9711011052131653,
       "step": 30
     },
     {
       "epoch": 0.28,
+      "grad_norm": 0.11740818619728088,
       "learning_rate": 0.00018155608689592604,
+      "loss": 0.0622,
+      "mean_token_accuracy": 0.9760455787181854,
       "step": 35
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.10971173644065857,
       "learning_rate": 0.0001726660322034027,
+      "loss": 0.0545,
+      "mean_token_accuracy": 0.9776363372802734,
       "step": 40
     },
     {
       "epoch": 0.36,
+      "grad_norm": 0.08847042918205261,
       "learning_rate": 0.00016234898018587337,
+      "loss": 0.0519,
+      "mean_token_accuracy": 0.977908480167389,
       "step": 45
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.09057971835136414,
       "learning_rate": 0.00015080753452465296,
+      "loss": 0.0497,
+      "mean_token_accuracy": 0.9789802670478821,
       "step": 50
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.08262317627668381,
       "learning_rate": 0.000138268343236509,
+      "loss": 0.0434,
+      "mean_token_accuracy": 0.9816033959388732,
       "step": 55
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.08489084988832474,
       "learning_rate": 0.0001249776478167227,
+      "loss": 0.043,
+      "mean_token_accuracy": 0.9817807137966156,
       "step": 60
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.07146206498146057,
       "learning_rate": 0.00011119644761033078,
+      "loss": 0.0397,
+      "mean_token_accuracy": 0.9835689246654511,
       "step": 65
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.08493078500032425,
       "learning_rate": 9.719537437241312e-05,
+      "loss": 0.0432,
+      "mean_token_accuracy": 0.981769073009491,
       "step": 70
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.06853792816400528,
       "learning_rate": 8.324937766952638e-05,
+      "loss": 0.0416,
+      "mean_token_accuracy": 0.9825034320354462,
       "step": 75
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.07850378751754761,
       "learning_rate": 6.963232548903853e-05,
+      "loss": 0.0416,
+      "mean_token_accuracy": 0.9826254367828369,
       "step": 80
     },
     {
       "epoch": 0.68,
+      "grad_norm": 0.10064064711332321,
       "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.0411,
+      "mean_token_accuracy": 0.9827791035175324,
       "step": 85
     },
     {
       "epoch": 0.72,
+      "grad_norm": 0.07430274784564972,
       "learning_rate": 4.444297669803981e-05,
+      "loss": 0.0432,
+      "mean_token_accuracy": 0.9819111526012421,
       "step": 90
     },
     {
       "epoch": 0.76,
+      "grad_norm": 0.05630122497677803,
       "learning_rate": 3.336534220479961e-05,
+      "loss": 0.0381,
+      "mean_token_accuracy": 0.984023529291153,
       "step": 95
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.07422107458114624,
       "learning_rate": 2.3596262417839255e-05,
+      "loss": 0.041,
+      "mean_token_accuracy": 0.9828759372234345,
       "step": 100
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.06742699444293976,
       "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.0435,
+      "mean_token_accuracy": 0.9813436925411224,
       "step": 105
     },
     {
       "epoch": 0.88,
+      "grad_norm": 0.07175164669752121,
       "learning_rate": 8.72167349386811e-06,
+      "loss": 0.0406,
+      "mean_token_accuracy": 0.9831586062908173,
       "step": 110
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.06535231322050095,
       "learning_rate": 3.908267805490051e-06,
+      "loss": 0.0411,
+      "mean_token_accuracy": 0.9826524317264557,
       "step": 115
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.07355163991451263,
       "learning_rate": 9.818874663554357e-07,
+      "loss": 0.0407,
+      "mean_token_accuracy": 0.9827761054039001,
       "step": 120
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.07261276245117188,
       "learning_rate": 0.0,
+      "loss": 0.04,
+      "mean_token_accuracy": 0.9830402076244354,
       "step": 125
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.0398690365254879,
+      "eval_mean_token_accuracy": 0.9831665050983429,
+      "eval_runtime": 167.2529,
+      "eval_samples_per_second": 11.958,
+      "eval_steps_per_second": 1.495,
       "step": 125
     },
     {
       "epoch": 1.0,
       "step": 125,
       "total_flos": 4505964279496704.0,
+      "train_loss": 0.1011103401184082,
+      "train_runtime": 450.8333,
+      "train_samples_per_second": 2.218,
+      "train_steps_per_second": 0.277
     }
   ],
   "logging_steps": 5,