Model save

Browse files

Files changed (6) hide show

README.md +2 -4
all_results.json +5 -5
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +317 -356

README.md CHANGED Viewed

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-3B-Instruct
-datasets: Lansechen/om220k_collection_filtered_easy_maxlength32768
 library_name: transformers
 model_name: Qwen2.5-3B-Instruct-Distill-om220k-fem32768-batch32-epoch3-8192-SORTED
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for Qwen2.5-3B-Instruct-Distill-om220k-fem32768-batch32-epoch3-8192-SORTED
-This model is a fine-tuned version of [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) on the [Lansechen/om220k_collection_filtered_easy_maxlength32768](https://huggingface.co/datasets/Lansechen/om220k_collection_filtered_easy_maxlength32768) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenran1995-the-chinese-university-of-hong-kong/huggingface/runs/lctnu2ca)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-3B-Instruct
 library_name: transformers
 model_name: Qwen2.5-3B-Instruct-Distill-om220k-fem32768-batch32-epoch3-8192-SORTED
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen2.5-3B-Instruct-Distill-om220k-fem32768-batch32-epoch3-8192-SORTED
+This model is a fine-tuned version of [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenran1995-the-chinese-university-of-hong-kong/huggingface/runs/rk7o4un1)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 487266319859712.0,
-    "train_loss": 0.4755451946547537,
-    "train_runtime": 8692.0512,
     "train_samples": 14090,
-    "train_samples_per_second": 4.863,
-    "train_steps_per_second": 0.038
 }

 {
+    "total_flos": 462777357434880.0,
+    "train_loss": 0.5179573546827229,
+    "train_runtime": 8239.8327,
     "train_samples": 14090,
+    "train_samples_per_second": 4.764,
+    "train_steps_per_second": 0.037
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2012204f22afb8d3fff387d7aea0393e487cee227a595908f641521dd8d1b68a
 size 4957560304

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad833d57d0b1eb76651d5b858ae2d07e6c8b91a3f4c34caebd88f76814a8350f
 size 4957560304

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5dac48cba186c8391cdf5567f226f16b298eac1f67ea0b8bd2405207d8b76a8
 size 1214366696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9bc9d2ff8756128c2da47bcb02eb188a1f70654f5018f9b492f5b022e845a2a
 size 1214366696

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 487266319859712.0,
-    "train_loss": 0.4755451946547537,
-    "train_runtime": 8692.0512,
     "train_samples": 14090,
-    "train_samples_per_second": 4.863,
-    "train_steps_per_second": 0.038
 }

 {
+    "total_flos": 462777357434880.0,
+    "train_loss": 0.5179573546827229,
+    "train_runtime": 8239.8327,
     "train_samples": 14090,
+    "train_samples_per_second": 4.764,
+    "train_steps_per_second": 0.037
 }

trainer_state.json CHANGED Viewed

@@ -1,553 +1,514 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9807037457434733,
   "eval_steps": 500,
-  "global_step": 330,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04540295119182747,
-      "grad_norm": 2.2832868099212646,
-      "learning_rate": 1.4705882352941177e-05,
-      "loss": 0.8501,
-      "mean_token_accuracy": 0.7685548841953278,
       "step": 5
     },
     {
-      "epoch": 0.09080590238365494,
-      "grad_norm": 1.0126409530639648,
-      "learning_rate": 2.9411764705882354e-05,
-      "loss": 0.737,
-      "mean_token_accuracy": 0.7846408411860466,
       "step": 10
     },
     {
-      "epoch": 0.1362088535754824,
-      "grad_norm": 0.6942329406738281,
-      "learning_rate": 4.411764705882353e-05,
-      "loss": 0.6464,
-      "mean_token_accuracy": 0.803183613717556,
       "step": 15
     },
     {
-      "epoch": 0.18161180476730987,
-      "grad_norm": 0.43081212043762207,
-      "learning_rate": 4.9989800631379443e-05,
-      "loss": 0.6263,
-      "mean_token_accuracy": 0.8069212257862091,
       "step": 20
     },
     {
-      "epoch": 0.22701475595913734,
-      "grad_norm": 0.3860848844051361,
-      "learning_rate": 4.992750463988114e-05,
-      "loss": 0.5918,
-      "mean_token_accuracy": 0.8146931797266006,
       "step": 25
     },
     {
-      "epoch": 0.2724177071509648,
-      "grad_norm": 0.3675363063812256,
-      "learning_rate": 4.9808735645324125e-05,
-      "loss": 0.5639,
-      "mean_token_accuracy": 0.8224288642406463,
       "step": 30
     },
     {
-      "epoch": 0.3178206583427923,
-      "grad_norm": 0.3828999698162079,
-      "learning_rate": 4.963379271093012e-05,
-      "loss": 0.5616,
-      "mean_token_accuracy": 0.8219838857650756,
       "step": 35
     },
     {
-      "epoch": 0.36322360953461974,
-      "grad_norm": 0.3435409665107727,
-      "learning_rate": 4.9403116347269866e-05,
-      "loss": 0.5552,
-      "mean_token_accuracy": 0.8231068581342698,
       "step": 40
     },
     {
-      "epoch": 0.4086265607264472,
-      "grad_norm": 0.34848248958587646,
-      "learning_rate": 4.9117287403046766e-05,
-      "loss": 0.5448,
-      "mean_token_accuracy": 0.8261528626084328,
       "step": 45
     },
     {
-      "epoch": 0.4540295119182747,
-      "grad_norm": 0.3018947243690491,
-      "learning_rate": 4.87770256025057e-05,
-      "loss": 0.5387,
-      "mean_token_accuracy": 0.8274358585476875,
       "step": 50
     },
     {
-      "epoch": 0.49943246311010214,
-      "grad_norm": 0.29304125905036926,
-      "learning_rate": 4.8383187733149814e-05,
-      "loss": 0.5286,
-      "mean_token_accuracy": 0.8303813666105271,
       "step": 55
     },
     {
-      "epoch": 0.5448354143019296,
-      "grad_norm": 0.3363098204135895,
-      "learning_rate": 4.7936765488328794e-05,
-      "loss": 0.5338,
-      "mean_token_accuracy": 0.8282567322254181,
       "step": 60
     },
     {
-      "epoch": 0.5902383654937571,
-      "grad_norm": 0.3552097678184509,
-      "learning_rate": 4.7438882970130756e-05,
-      "loss": 0.5262,
-      "mean_token_accuracy": 0.8306325897574425,
       "step": 65
     },
     {
-      "epoch": 0.6356413166855845,
-      "grad_norm": 0.3871628940105438,
-      "learning_rate": 4.6890793858865865e-05,
-      "loss": 0.5315,
-      "mean_token_accuracy": 0.8285770401358604,
       "step": 70
     },
     {
-      "epoch": 0.681044267877412,
-      "grad_norm": 0.3822765350341797,
-      "learning_rate": 4.629387825626875e-05,
-      "loss": 0.5281,
-      "mean_token_accuracy": 0.8299038335680962,
       "step": 75
     },
     {
-      "epoch": 0.7264472190692395,
-      "grad_norm": 0.4144015312194824,
-      "learning_rate": 4.5649639210368714e-05,
-      "loss": 0.5234,
-      "mean_token_accuracy": 0.8312319874763489,
       "step": 80
     },
     {
-      "epoch": 0.771850170261067,
-      "grad_norm": 0.3905055820941925,
-      "learning_rate": 4.4959698930778184e-05,
-      "loss": 0.5214,
-      "mean_token_accuracy": 0.8313256472349166,
       "step": 85
     },
     {
-      "epoch": 0.8172531214528944,
-      "grad_norm": 0.34477153420448303,
-      "learning_rate": 4.422579470392941e-05,
-      "loss": 0.5219,
-      "mean_token_accuracy": 0.8311609581112862,
       "step": 90
     },
     {
-      "epoch": 0.8626560726447219,
-      "grad_norm": 0.3220530152320862,
-      "learning_rate": 4.3449774518544837e-05,
-      "loss": 0.5187,
-      "mean_token_accuracy": 0.8318586707115173,
       "step": 95
     },
     {
-      "epoch": 0.9080590238365494,
-      "grad_norm": 0.36191967129707336,
-      "learning_rate": 4.263359241235657e-05,
-      "loss": 0.5095,
-      "mean_token_accuracy": 0.8344970971345902,
       "step": 100
     },
     {
-      "epoch": 0.9534619750283768,
-      "grad_norm": 0.333427369594574,
-      "learning_rate": 4.1779303551791695e-05,
-      "loss": 0.5083,
-      "mean_token_accuracy": 0.8353533893823624,
       "step": 105
     },
     {
-      "epoch": 0.9988649262202043,
-      "grad_norm": 0.35690993070602417,
-      "learning_rate": 4.088905905701316e-05,
-      "loss": 0.5166,
-      "mean_token_accuracy": 0.8316411137580871,
       "step": 110
     },
     {
-      "epoch": 1.036322360953462,
-      "grad_norm": 0.5551149845123291,
-      "learning_rate": 3.996510058534682e-05,
-      "loss": 0.5007,
-      "mean_token_accuracy": 0.8440239573969985,
       "step": 115
     },
     {
-      "epoch": 1.0817253121452894,
-      "grad_norm": 0.47316232323646545,
-      "learning_rate": 3.900975468673368e-05,
-      "loss": 0.4582,
-      "mean_token_accuracy": 0.8475249111652374,
       "step": 120
     },
     {
-      "epoch": 1.127128263337117,
-      "grad_norm": 0.416748583316803,
-      "learning_rate": 3.8025426945420426e-05,
-      "loss": 0.4556,
-      "mean_token_accuracy": 0.848306542634964,
       "step": 125
     },
     {
-      "epoch": 1.1725312145289444,
-      "grad_norm": 0.3407842218875885,
-      "learning_rate": 3.701459592263974e-05,
-      "loss": 0.4654,
-      "mean_token_accuracy": 0.8451288223266602,
       "step": 130
     },
     {
-      "epoch": 1.2179341657207718,
-      "grad_norm": 0.319158673286438,
-      "learning_rate": 3.59798069155327e-05,
-      "loss": 0.4574,
-      "mean_token_accuracy": 0.8477920219302177,
       "step": 135
     },
     {
-      "epoch": 1.2633371169125993,
-      "grad_norm": 0.3241802155971527,
-      "learning_rate": 3.492366554802856e-05,
-      "loss": 0.4583,
-      "mean_token_accuracy": 0.8482500284910202,
       "step": 140
     },
     {
-      "epoch": 1.3087400681044268,
-      "grad_norm": 0.31475913524627686,
-      "learning_rate": 3.384883120982027e-05,
-      "loss": 0.4611,
-      "mean_token_accuracy": 0.8468337655067444,
       "step": 145
     },
     {
-      "epoch": 1.3541430192962542,
-      "grad_norm": 0.2913879454135895,
-      "learning_rate": 3.2758010359956376e-05,
-      "loss": 0.4507,
-      "mean_token_accuracy": 0.8497300013899803,
       "step": 150
     },
     {
-      "epoch": 1.3995459704880817,
-      "grad_norm": 0.32135486602783203,
-      "learning_rate": 3.165394971191125e-05,
-      "loss": 0.4553,
-      "mean_token_accuracy": 0.8484074637293816,
       "step": 155
     },
     {
-      "epoch": 1.4449489216799092,
-      "grad_norm": 0.3051537871360779,
-      "learning_rate": 3.053942931729365e-05,
-      "loss": 0.4649,
-      "mean_token_accuracy": 0.8455980613827705,
       "step": 160
     },
     {
-      "epoch": 1.4903518728717366,
-      "grad_norm": 0.31487956643104553,
-      "learning_rate": 2.9417255565608982e-05,
-      "loss": 0.4579,
-      "mean_token_accuracy": 0.8473424926400185,
       "step": 165
     },
     {
-      "epoch": 1.5357548240635641,
-      "grad_norm": 0.29999110102653503,
-      "learning_rate": 2.8290254117702204e-05,
-      "loss": 0.4505,
-      "mean_token_accuracy": 0.8498715803027153,
       "step": 170
     },
     {
-      "epoch": 1.5811577752553916,
-      "grad_norm": 0.33342310786247253,
-      "learning_rate": 2.7161262790675013e-05,
-      "loss": 0.4557,
-      "mean_token_accuracy": 0.8481177806854248,
       "step": 175
     },
     {
-      "epoch": 1.626560726447219,
-      "grad_norm": 0.31186771392822266,
-      "learning_rate": 2.6033124412193167e-05,
-      "loss": 0.4561,
-      "mean_token_accuracy": 0.8478582665324211,
       "step": 180
     },
     {
-      "epoch": 1.6719636776390465,
-      "grad_norm": 0.3249659538269043,
-      "learning_rate": 2.4908679662177216e-05,
-      "loss": 0.4579,
-      "mean_token_accuracy": 0.8474476784467697,
       "step": 185
     },
     {
-      "epoch": 1.717366628830874,
-      "grad_norm": 0.26083502173423767,
-      "learning_rate": 2.379075991990126e-05,
-      "loss": 0.4556,
-      "mean_token_accuracy": 0.8481593802571297,
       "step": 190
     },
     {
-      "epoch": 1.7627695800227015,
-      "grad_norm": 0.29590320587158203,
-      "learning_rate": 2.2682180134510943e-05,
-      "loss": 0.4574,
-      "mean_token_accuracy": 0.8473795130848885,
       "step": 195
     },
     {
-      "epoch": 1.808172531214529,
-      "grad_norm": 0.2711656391620636,
-      "learning_rate": 2.1585731736912922e-05,
-      "loss": 0.4514,
-      "mean_token_accuracy": 0.8492301076650619,
       "step": 200
     },
     {
-      "epoch": 1.8535754824063564,
-      "grad_norm": 0.26013004779815674,
-      "learning_rate": 2.0504175610883876e-05,
-      "loss": 0.4496,
-      "mean_token_accuracy": 0.8500913769006729,
       "step": 205
     },
     {
-      "epoch": 1.8989784335981839,
-      "grad_norm": 0.2390243411064148,
-      "learning_rate": 1.944023514109784e-05,
-      "loss": 0.4454,
-      "mean_token_accuracy": 0.8509305417537689,
       "step": 210
     },
     {
-      "epoch": 1.9443813847900113,
-      "grad_norm": 0.23900045454502106,
-      "learning_rate": 1.83965893555773e-05,
-      "loss": 0.4527,
-      "mean_token_accuracy": 0.8493241637945175,
       "step": 215
     },
     {
-      "epoch": 1.9897843359818388,
-      "grad_norm": 0.237857386469841,
-      "learning_rate": 1.737586617983534e-05,
-      "loss": 0.453,
-      "mean_token_accuracy": 0.8486923798918724,
       "step": 220
     },
     {
-      "epoch": 2.0272417707150963,
-      "grad_norm": 0.32961711287498474,
-      "learning_rate": 1.6380635819695172e-05,
-      "loss": 0.4169,
-      "mean_token_accuracy": 0.8589759830272559,
       "step": 225
     },
     {
-      "epoch": 2.072644721906924,
-      "grad_norm": 0.3402288556098938,
-      "learning_rate": 1.541340428944929e-05,
-      "loss": 0.4057,
-      "mean_token_accuracy": 0.861960718035698,
       "step": 230
     },
     {
-      "epoch": 2.1180476730987516,
-      "grad_norm": 0.31487351655960083,
-      "learning_rate": 1.44766071016544e-05,
-      "loss": 0.3978,
-      "mean_token_accuracy": 0.8647524937987328,
       "step": 235
     },
     {
-      "epoch": 2.163450624290579,
-      "grad_norm": 0.27213922142982483,
-      "learning_rate": 1.3572603134451479e-05,
-      "loss": 0.4021,
-      "mean_token_accuracy": 0.8630986794829368,
       "step": 240
     },
     {
-      "epoch": 2.208853575482406,
-      "grad_norm": 0.28667008876800537,
-      "learning_rate": 1.2703668691853155e-05,
-      "loss": 0.4033,
-      "mean_token_accuracy": 0.862886956334114,
       "step": 245
     },
     {
-      "epoch": 2.254256526674234,
-      "grad_norm": 0.2372172772884369,
-      "learning_rate": 1.1871991771954748e-05,
-      "loss": 0.3977,
-      "mean_token_accuracy": 0.8642744541168212,
       "step": 250
     },
     {
-      "epoch": 2.2996594778660615,
-      "grad_norm": 0.23380817472934723,
-      "learning_rate": 1.1079666557501736e-05,
-      "loss": 0.3989,
-      "mean_token_accuracy": 0.8641743138432503,
       "step": 255
     },
     {
-      "epoch": 2.3450624290578888,
-      "grad_norm": 0.24048562347888947,
-      "learning_rate": 1.0328688142686627e-05,
-      "loss": 0.402,
-      "mean_token_accuracy": 0.8630986511707306,
       "step": 260
     },
     {
-      "epoch": 2.390465380249716,
-      "grad_norm": 0.2319810539484024,
-      "learning_rate": 9.620947509453155e-06,
-      "loss": 0.3917,
-      "mean_token_accuracy": 0.866476172208786,
       "step": 265
     },
     {
-      "epoch": 2.4358683314415437,
-      "grad_norm": 0.23446470499038696,
-      "learning_rate": 8.958226765957655e-06,
-      "loss": 0.3991,
-      "mean_token_accuracy": 0.8653428852558136,
       "step": 270
     },
     {
-      "epoch": 2.4812712826333714,
-      "grad_norm": 0.23361656069755554,
-      "learning_rate": 8.342194659177358e-06,
-      "loss": 0.3973,
-      "mean_token_accuracy": 0.864533805847168,
       "step": 275
     },
     {
-      "epoch": 2.5266742338251986,
-      "grad_norm": 0.24215641617774963,
-      "learning_rate": 7.774402372964833e-06,
-      "loss": 0.4069,
-      "mean_token_accuracy": 0.8616099029779434,
       "step": 280
     },
     {
-      "epoch": 2.572077185017026,
-      "grad_norm": 0.23187781870365143,
-      "learning_rate": 7.256279622129215e-06,
-      "loss": 0.4077,
-      "mean_token_accuracy": 0.8610607802867889,
       "step": 285
     },
     {
-      "epoch": 2.6174801362088536,
-      "grad_norm": 0.2463005632162094,
-      "learning_rate": 6.789131052379549e-06,
-      "loss": 0.3955,
-      "mean_token_accuracy": 0.8653189897537231,
       "step": 290
     },
     {
-      "epoch": 2.6628830874006812,
-      "grad_norm": 0.25329700112342834,
-      "learning_rate": 6.374132955195062e-06,
-      "loss": 0.399,
-      "mean_token_accuracy": 0.8640432074666023,
       "step": 295
     },
     {
-      "epoch": 2.7082860385925085,
-      "grad_norm": 0.23303279280662537,
-      "learning_rate": 6.012330305894584e-06,
-      "loss": 0.4019,
-      "mean_token_accuracy": 0.8630045488476753,
       "step": 300
     },
     {
-      "epoch": 2.7536889897843357,
-      "grad_norm": 0.23156684637069702,
-      "learning_rate": 5.704634132363239e-06,
-      "loss": 0.3993,
-      "mean_token_accuracy": 0.8640620157122612,
       "step": 305
     },
     {
-      "epoch": 2.7990919409761634,
-      "grad_norm": 0.2185850739479065,
-      "learning_rate": 5.451819221062024e-06,
-      "loss": 0.4009,
-      "mean_token_accuracy": 0.863526065647602,
-      "step": 310
-    },
-    {
-      "epoch": 2.844494892167991,
-      "grad_norm": 0.22054985165596008,
-      "learning_rate": 5.254522166096635e-06,
-      "loss": 0.4016,
-      "mean_token_accuracy": 0.8630533397197724,
-      "step": 315
-    },
-    {
-      "epoch": 2.8898978433598184,
-      "grad_norm": 0.23411568999290466,
-      "learning_rate": 5.113239766257999e-06,
-      "loss": 0.398,
-      "mean_token_accuracy": 0.8644332170486451,
-      "step": 320
-    },
-    {
-      "epoch": 2.9353007945516456,
-      "grad_norm": 0.24771377444267273,
-      "learning_rate": 5.028327774070807e-06,
-      "loss": 0.4119,
-      "mean_token_accuracy": 0.8622763112187386,
-      "step": 325
-    },
-    {
-      "epoch": 2.9807037457434733,
-      "grad_norm": 0.21957579255104065,
-      "learning_rate": 5e-06,
-      "loss": 0.3961,
-      "mean_token_accuracy": 0.8651398867368698,
-      "step": 330
-    },
-    {
-      "epoch": 2.9807037457434733,
-      "step": 330,
-      "total_flos": 487266319859712.0,
-      "train_loss": 0.4755451946547537,
-      "train_runtime": 8692.0512,
-      "train_samples_per_second": 4.863,
-      "train_steps_per_second": 0.038
     }
   ],
   "logging_steps": 5,
-  "max_steps": 330,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
@@ -563,7 +524,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 487266319859712.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.97799511002445,
   "eval_steps": 500,
+  "global_step": 306,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0488997555012225,
+      "grad_norm": 2.0351288318634033,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.8708,
+      "mean_token_accuracy": 0.7660431817173958,
       "step": 5
     },
     {
+      "epoch": 0.097799511002445,
+      "grad_norm": 0.9313664436340332,
+      "learning_rate": 3.125e-05,
+      "loss": 0.7742,
+      "mean_token_accuracy": 0.777975857257843,
       "step": 10
     },
     {
+      "epoch": 0.1466992665036675,
+      "grad_norm": 0.6834899187088013,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.6951,
+      "mean_token_accuracy": 0.7929965913295746,
       "step": 15
     },
     {
+      "epoch": 0.19559902200489,
+      "grad_norm": 0.4830226004123688,
+      "learning_rate": 4.997887930048948e-05,
+      "loss": 0.6486,
+      "mean_token_accuracy": 0.8033514261245728,
       "step": 20
     },
     {
+      "epoch": 0.24449877750611246,
+      "grad_norm": 0.3558278977870941,
+      "learning_rate": 4.989314441231019e-05,
+      "loss": 0.6276,
+      "mean_token_accuracy": 0.8075312823057175,
       "step": 25
     },
     {
+      "epoch": 0.293398533007335,
+      "grad_norm": 0.29995062947273254,
+      "learning_rate": 4.9741726573281165e-05,
+      "loss": 0.6126,
+      "mean_token_accuracy": 0.8111417979001999,
       "step": 30
     },
     {
+      "epoch": 0.3422982885085575,
+      "grad_norm": 0.3162994980812073,
+      "learning_rate": 4.95250699180132e-05,
+      "loss": 0.6036,
+      "mean_token_accuracy": 0.8128530994057656,
       "step": 35
     },
     {
+      "epoch": 0.39119804400978,
+      "grad_norm": 0.25494644045829773,
+      "learning_rate": 4.9243809937805656e-05,
+      "loss": 0.59,
+      "mean_token_accuracy": 0.8160383135080338,
       "step": 40
     },
     {
+      "epoch": 0.4400977995110024,
+      "grad_norm": 0.34374159574508667,
+      "learning_rate": 4.889877161664096e-05,
+      "loss": 0.586,
+      "mean_token_accuracy": 0.8166863277554512,
       "step": 45
     },
     {
+      "epoch": 0.4889975550122249,
+      "grad_norm": 0.34626278281211853,
+      "learning_rate": 4.8490967011364394e-05,
+      "loss": 0.5791,
+      "mean_token_accuracy": 0.818395821750164,
       "step": 50
     },
     {
+      "epoch": 0.5378973105134475,
+      "grad_norm": 0.27951428294181824,
+      "learning_rate": 4.8021592283147074e-05,
+      "loss": 0.5784,
+      "mean_token_accuracy": 0.8185736656188964,
       "step": 55
     },
     {
+      "epoch": 0.58679706601467,
+      "grad_norm": 0.31336385011672974,
+      "learning_rate": 4.749202418893905e-05,
+      "loss": 0.5667,
+      "mean_token_accuracy": 0.8213964581489563,
       "step": 60
     },
     {
+      "epoch": 0.6356968215158925,
+      "grad_norm": 0.3097311556339264,
+      "learning_rate": 4.690381604320405e-05,
+      "loss": 0.5616,
+      "mean_token_accuracy": 0.822909340262413,
       "step": 65
     },
     {
+      "epoch": 0.684596577017115,
+      "grad_norm": 0.3286179304122925,
+      "learning_rate": 4.625869316178043e-05,
+      "loss": 0.5609,
+      "mean_token_accuracy": 0.8229187726974487,
       "step": 70
     },
     {
+      "epoch": 0.7334963325183375,
+      "grad_norm": 0.32643210887908936,
+      "learning_rate": 4.5558547801232645e-05,
+      "loss": 0.5575,
+      "mean_token_accuracy": 0.8237524956464768,
       "step": 75
     },
     {
+      "epoch": 0.78239608801956,
+      "grad_norm": 0.30941641330718994,
+      "learning_rate": 4.480543360853665e-05,
+      "loss": 0.5633,
+      "mean_token_accuracy": 0.8215603858232499,
       "step": 80
     },
     {
+      "epoch": 0.8312958435207825,
+      "grad_norm": 0.31723615527153015,
+      "learning_rate": 4.4001559597379503e-05,
+      "loss": 0.5534,
+      "mean_token_accuracy": 0.8242628321051597,
       "step": 85
     },
     {
+      "epoch": 0.8801955990220048,
+      "grad_norm": 0.37186378240585327,
+      "learning_rate": 4.3149283668741616e-05,
+      "loss": 0.5611,
+      "mean_token_accuracy": 0.8221262007951736,
       "step": 90
     },
     {
+      "epoch": 0.9290953545232273,
+      "grad_norm": 0.3594883978366852,
+      "learning_rate": 4.225110569476691e-05,
+      "loss": 0.5532,
+      "mean_token_accuracy": 0.824306620657444,
       "step": 95
     },
     {
+      "epoch": 0.9779951100244498,
+      "grad_norm": 0.34556683897972107,
+      "learning_rate": 4.1309660186207094e-05,
+      "loss": 0.5511,
+      "mean_token_accuracy": 0.8247394233942031,
       "step": 100
     },
     {
+      "epoch": 1.019559902200489,
+      "grad_norm": 0.47831159830093384,
+      "learning_rate": 4.0327708564947725e-05,
+      "loss": 0.5286,
+      "mean_token_accuracy": 0.8304704760803896,
       "step": 105
     },
     {
+      "epoch": 1.0684596577017116,
+      "grad_norm": 0.38634800910949707,
+      "learning_rate": 3.930813106428202e-05,
+      "loss": 0.511,
+      "mean_token_accuracy": 0.8345152765512467,
       "step": 110
     },
     {
+      "epoch": 1.117359413202934,
+      "grad_norm": 0.32826101779937744,
+      "learning_rate": 3.825391828069032e-05,
+      "loss": 0.5022,
+      "mean_token_accuracy": 0.8373170182108879,
       "step": 115
     },
     {
+      "epoch": 1.1662591687041566,
+      "grad_norm": 0.32246339321136475,
+      "learning_rate": 3.7168162401905414e-05,
+      "loss": 0.5074,
+      "mean_token_accuracy": 0.8353763505816459,
       "step": 120
     },
     {
+      "epoch": 1.215158924205379,
+      "grad_norm": 0.2942683696746826,
+      "learning_rate": 3.605404813699307e-05,
+      "loss": 0.4969,
+      "mean_token_accuracy": 0.8387214556336403,
       "step": 125
     },
     {
+      "epoch": 1.2640586797066016,
+      "grad_norm": 0.32895198464393616,
+      "learning_rate": 3.491484337505166e-05,
+      "loss": 0.4994,
+      "mean_token_accuracy": 0.837771400809288,
       "step": 130
     },
     {
+      "epoch": 1.312958435207824,
+      "grad_norm": 0.3600136339664459,
+      "learning_rate": 3.375388959993037e-05,
+      "loss": 0.4996,
+      "mean_token_accuracy": 0.8377428948879242,
       "step": 135
     },
     {
+      "epoch": 1.3618581907090466,
+      "grad_norm": 0.27240756154060364,
+      "learning_rate": 3.2574592089081374e-05,
+      "loss": 0.5001,
+      "mean_token_accuracy": 0.8374892711639405,
       "step": 140
     },
     {
+      "epoch": 1.410757946210269,
+      "grad_norm": 0.2881303131580353,
+      "learning_rate": 3.1380409925294285e-05,
+      "loss": 0.4915,
+      "mean_token_accuracy": 0.8399991437792778,
       "step": 145
     },
     {
+      "epoch": 1.4596577017114916,
+      "grad_norm": 0.2721833884716034,
+      "learning_rate": 3.0174845850610395e-05,
+      "loss": 0.495,
+      "mean_token_accuracy": 0.8390778675675392,
       "step": 150
     },
     {
+      "epoch": 1.508557457212714,
+      "grad_norm": 0.25566068291664124,
+      "learning_rate": 2.8961435992176745e-05,
+      "loss": 0.5031,
+      "mean_token_accuracy": 0.8365625068545341,
       "step": 155
     },
     {
+      "epoch": 1.5574572127139366,
+      "grad_norm": 0.2996728718280792,
+      "learning_rate": 2.7743739490175903e-05,
+      "loss": 0.5002,
+      "mean_token_accuracy": 0.8372272953391076,
       "step": 160
     },
     {
+      "epoch": 1.606356968215159,
+      "grad_norm": 0.38631442189216614,
+      "learning_rate": 2.6525328058254604e-05,
+      "loss": 0.4926,
+      "mean_token_accuracy": 0.8397956892848015,
       "step": 165
     },
     {
+      "epoch": 1.6552567237163816,
+      "grad_norm": 0.2722865045070648,
+      "learning_rate": 2.5309775507072236e-05,
+      "loss": 0.5055,
+      "mean_token_accuracy": 0.8355408251285553,
       "step": 170
     },
     {
+      "epoch": 1.704156479217604,
+      "grad_norm": 0.24514281749725342,
+      "learning_rate": 2.4100647261698377e-05,
+      "loss": 0.4891,
+      "mean_token_accuracy": 0.840637344121933,
       "step": 175
     },
     {
+      "epoch": 1.7530562347188265,
+      "grad_norm": 0.24317032098770142,
+      "learning_rate": 2.2901489903606794e-05,
+      "loss": 0.5004,
+      "mean_token_accuracy": 0.8374736487865448,
       "step": 180
     },
     {
+      "epoch": 1.801955990220049,
+      "grad_norm": 0.2663393020629883,
+      "learning_rate": 2.171582076794088e-05,
+      "loss": 0.4871,
+      "mean_token_accuracy": 0.8413556531071663,
       "step": 185
     },
     {
+      "epoch": 1.8508557457212715,
+      "grad_norm": 0.24300876259803772,
+      "learning_rate": 2.054711762656369e-05,
+      "loss": 0.4951,
+      "mean_token_accuracy": 0.8386538654565812,
       "step": 190
     },
     {
+      "epoch": 1.899755501222494,
+      "grad_norm": 0.23298484086990356,
+      "learning_rate": 1.939880848715378e-05,
+      "loss": 0.4961,
+      "mean_token_accuracy": 0.8383206754922867,
       "step": 195
     },
     {
+      "epoch": 1.9486552567237165,
+      "grad_norm": 0.2504541873931885,
+      "learning_rate": 1.827426153826814e-05,
+      "loss": 0.4834,
+      "mean_token_accuracy": 0.842043687403202,
       "step": 200
     },
     {
+      "epoch": 1.997555012224939,
+      "grad_norm": 0.2542346119880676,
+      "learning_rate": 1.7176775269864764e-05,
+      "loss": 0.4956,
+      "mean_token_accuracy": 0.8383987873792649,
       "step": 205
     },
     {
+      "epoch": 2.039119804400978,
+      "grad_norm": 0.2872137725353241,
+      "learning_rate": 1.6109568798263285e-05,
+      "loss": 0.4561,
+      "mean_token_accuracy": 0.8502998352050781,
       "step": 210
     },
     {
+      "epoch": 2.0880195599022007,
+      "grad_norm": 0.28450778126716614,
+      "learning_rate": 1.5075772423922191e-05,
+      "loss": 0.4526,
+      "mean_token_accuracy": 0.8503674760460853,
       "step": 215
     },
     {
+      "epoch": 2.136919315403423,
+      "grad_norm": 0.26681244373321533,
+      "learning_rate": 1.4078418449728237e-05,
+      "loss": 0.4442,
+      "mean_token_accuracy": 0.8526661232113838,
       "step": 220
     },
     {
+      "epoch": 2.1858190709046457,
+      "grad_norm": 0.25027355551719666,
+      "learning_rate": 1.3120432286729548e-05,
+      "loss": 0.4487,
+      "mean_token_accuracy": 0.8512815818190574,
       "step": 225
     },
     {
+      "epoch": 2.234718826405868,
+      "grad_norm": 0.2478124052286148,
+      "learning_rate": 1.2204623873401074e-05,
+      "loss": 0.4461,
+      "mean_token_accuracy": 0.8521116316318512,
       "step": 230
     },
     {
+      "epoch": 2.28361858190709,
+      "grad_norm": 0.23781350255012512,
+      "learning_rate": 1.1333679433610849e-05,
+      "loss": 0.4419,
+      "mean_token_accuracy": 0.8534019276499748,
       "step": 235
     },
     {
+      "epoch": 2.332518337408313,
+      "grad_norm": 0.23598520457744598,
+      "learning_rate": 1.0510153597462537e-05,
+      "loss": 0.4454,
+      "mean_token_accuracy": 0.852020500600338,
       "step": 240
     },
     {
+      "epoch": 2.381418092909535,
+      "grad_norm": 0.2218804508447647,
+      "learning_rate": 9.736461908125213e-06,
+      "loss": 0.4422,
+      "mean_token_accuracy": 0.8531288385391236,
       "step": 245
     },
     {
+      "epoch": 2.430317848410758,
+      "grad_norm": 0.22182683646678925,
+      "learning_rate": 9.014873736629045e-06,
+      "loss": 0.4551,
+      "mean_token_accuracy": 0.8493878960609436,
       "step": 250
     },
     {
+      "epoch": 2.47921760391198,
+      "grad_norm": 0.20888520777225494,
+      "learning_rate": 8.347505625409046e-06,
+      "loss": 0.4499,
+      "mean_token_accuracy": 0.8507405325770379,
       "step": 255
     },
     {
+      "epoch": 2.528117359413203,
+      "grad_norm": 0.2135392725467682,
+      "learning_rate": 7.73631508012146e-06,
+      "loss": 0.4482,
+      "mean_token_accuracy": 0.85140231102705,
       "step": 260
     },
     {
+      "epoch": 2.577017114914425,
+      "grad_norm": 0.21610134840011597,
+      "learning_rate": 7.183094827942359e-06,
+      "loss": 0.4454,
+      "mean_token_accuracy": 0.8524220660328865,
       "step": 265
     },
     {
+      "epoch": 2.625916870415648,
+      "grad_norm": 0.19675850868225098,
+      "learning_rate": 6.689467559190002e-06,
+      "loss": 0.4448,
+      "mean_token_accuracy": 0.8523233592510223,
       "step": 270
     },
     {
+      "epoch": 2.67481662591687,
+      "grad_norm": 0.20300239324569702,
+      "learning_rate": 6.256881167694502e-06,
+      "loss": 0.4482,
+      "mean_token_accuracy": 0.8513378649950027,
       "step": 275
     },
     {
+      "epoch": 2.723716381418093,
+      "grad_norm": 0.2115592211484909,
+      "learning_rate": 5.886604503875781e-06,
+      "loss": 0.4464,
+      "mean_token_accuracy": 0.8521811455488205,
       "step": 280
     },
     {
+      "epoch": 2.772616136919315,
+      "grad_norm": 0.19751520454883575,
+      "learning_rate": 5.579723652986655e-06,
+      "loss": 0.446,
+      "mean_token_accuracy": 0.8521023660898208,
       "step": 285
     },
     {
+      "epoch": 2.821515892420538,
+      "grad_norm": 0.19509336352348328,
+      "learning_rate": 5.337138749437662e-06,
+      "loss": 0.4449,
+      "mean_token_accuracy": 0.8526278078556061,
       "step": 290
     },
     {
+      "epoch": 2.87041564792176,
+      "grad_norm": 0.21524977684020996,
+      "learning_rate": 5.159561336547745e-06,
+      "loss": 0.4511,
+      "mean_token_accuracy": 0.8506037518382072,
       "step": 295
     },
     {
+      "epoch": 2.919315403422983,
+      "grad_norm": 0.1960809975862503,
+      "learning_rate": 5.047512279465102e-06,
+      "loss": 0.4423,
+      "mean_token_accuracy": 0.8532179862260818,
       "step": 300
     },
     {
+      "epoch": 2.968215158924205,
+      "grad_norm": 0.19248132407665253,
+      "learning_rate": 5.001320237379956e-06,
+      "loss": 0.4461,
+      "mean_token_accuracy": 0.8518981352448464,
       "step": 305
     },
     {
+      "epoch": 2.97799511002445,
+      "mean_token_accuracy": 0.8586726412177086,
+      "step": 306,
+      "total_flos": 462777357434880.0,
+      "train_loss": 0.5179573546827229,
+      "train_runtime": 8239.8327,
+      "train_samples_per_second": 4.764,
+      "train_steps_per_second": 0.037
     }
   ],
   "logging_steps": 5,
+  "max_steps": 306,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 462777357434880.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null