Model save

Browse files

Files changed (4) hide show

README.md +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +486 -262

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yeokch/stream-of-search-train/runs/q51rp2gs)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yeokch/stream-of-search-train/runs/avxmo5b9)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 7.11765772950569e+16,
-    "train_loss": 0.6465841082908846,
-    "train_runtime": 5579.7567,
-    "train_samples": 6400,
-    "train_samples_per_second": 0.711,
-    "train_steps_per_second": 0.044
 }

 {
+    "total_flos": 1.112161775475753e+17,
+    "train_loss": 0.24216800009339584,
+    "train_runtime": 6297.1418,
+    "train_samples": 10000,
+    "train_samples_per_second": 0.983,
+    "train_steps_per_second": 0.061
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 7.11765772950569e+16,
-    "train_loss": 0.6465841082908846,
-    "train_runtime": 5579.7567,
-    "train_samples": 6400,
-    "train_samples_per_second": 0.711,
-    "train_steps_per_second": 0.044
 }

 {
+    "total_flos": 1.112161775475753e+17,
+    "train_loss": 0.24216800009339584,
+    "train_runtime": 6297.1418,
+    "train_samples": 10000,
+    "train_samples_per_second": 0.983,
+    "train_steps_per_second": 0.061
 }

trainer_state.json CHANGED Viewed

@@ -2,426 +2,650 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9964699949571356,
   "eval_steps": 500,
-  "global_step": 247,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.004034291477559254,
-      "grad_norm": 0.31632325053215027,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 1.0252,
-      "mean_token_accuracy": 0.7187690734863281,
       "step": 1
     },
     {
-      "epoch": 0.020171457387796268,
-      "grad_norm": 0.3391473889350891,
-      "learning_rate": 4e-05,
-      "loss": 1.0786,
-      "mean_token_accuracy": 0.7031630147248507,
       "step": 5
     },
     {
-      "epoch": 0.040342914775592535,
-      "grad_norm": 0.2010446935892105,
-      "learning_rate": 8e-05,
-      "loss": 1.0307,
-      "mean_token_accuracy": 0.7161946006119251,
       "step": 10
     },
     {
-      "epoch": 0.060514372163388806,
-      "grad_norm": 0.26254045963287354,
-      "learning_rate": 0.00012,
-      "loss": 0.9875,
-      "mean_token_accuracy": 0.7219432845711709,
       "step": 15
     },
     {
-      "epoch": 0.08068582955118507,
-      "grad_norm": 0.2110530585050583,
-      "learning_rate": 0.00016,
-      "loss": 0.971,
-      "mean_token_accuracy": 0.7234235741198063,
       "step": 20
     },
     {
-      "epoch": 0.10085728693898134,
-      "grad_norm": 0.17029768228530884,
-      "learning_rate": 0.0002,
-      "loss": 0.8975,
-      "mean_token_accuracy": 0.7393156312406063,
       "step": 25
     },
     {
-      "epoch": 0.12102874432677761,
-      "grad_norm": 0.1730598360300064,
-      "learning_rate": 0.00019974977965945,
-      "loss": 0.8406,
-      "mean_token_accuracy": 0.7519014693796635,
       "step": 30
     },
     {
-      "epoch": 0.14120020171457387,
-      "grad_norm": 0.146613210439682,
-      "learning_rate": 0.00019900037084217637,
-      "loss": 0.7982,
-      "mean_token_accuracy": 0.7588404878973961,
       "step": 35
     },
     {
-      "epoch": 0.16137165910237014,
-      "grad_norm": 0.11783485114574432,
-      "learning_rate": 0.00019775552389476864,
-      "loss": 0.7373,
-      "mean_token_accuracy": 0.7751434445381165,
       "step": 40
     },
     {
-      "epoch": 0.1815431164901664,
-      "grad_norm": 0.13487069308757782,
-      "learning_rate": 0.00019602146853776894,
-      "loss": 0.7216,
-      "mean_token_accuracy": 0.7767107143998147,
       "step": 45
     },
     {
-      "epoch": 0.20171457387796268,
-      "grad_norm": 0.13654637336730957,
-      "learning_rate": 0.0001938068826896166,
-      "loss": 0.6875,
-      "mean_token_accuracy": 0.7851818971335888,
       "step": 50
     },
     {
-      "epoch": 0.22188603126575895,
-      "grad_norm": 0.1778300255537033,
-      "learning_rate": 0.0001911228490388136,
-      "loss": 0.6764,
-      "mean_token_accuracy": 0.7869231440126896,
       "step": 55
     },
     {
-      "epoch": 0.24205748865355523,
-      "grad_norm": 0.19565220177173615,
-      "learning_rate": 0.00018798279958164295,
-      "loss": 0.667,
-      "mean_token_accuracy": 0.7879578113555908,
       "step": 60
     },
     {
-      "epoch": 0.2622289460413515,
-      "grad_norm": 0.17145097255706787,
-      "learning_rate": 0.00018440244840299506,
-      "loss": 0.6592,
-      "mean_token_accuracy": 0.7885651886463165,
       "step": 65
     },
     {
-      "epoch": 0.28240040342914774,
-      "grad_norm": 0.21791349351406097,
-      "learning_rate": 0.00018039971303669407,
-      "loss": 0.6444,
-      "mean_token_accuracy": 0.7919591583311558,
       "step": 70
     },
     {
-      "epoch": 0.30257186081694404,
-      "grad_norm": 0.17937114834785461,
-      "learning_rate": 0.00017599462479886974,
-      "loss": 0.6393,
-      "mean_token_accuracy": 0.7939399912953377,
       "step": 75
     },
     {
-      "epoch": 0.3227433182047403,
-      "grad_norm": 0.19707709550857544,
-      "learning_rate": 0.00017120922854310257,
-      "loss": 0.6143,
-      "mean_token_accuracy": 0.8009873569011688,
       "step": 80
     },
     {
-      "epoch": 0.3429147755925366,
-      "grad_norm": 0.15954312682151794,
-      "learning_rate": 0.00016606747233900815,
-      "loss": 0.6236,
-      "mean_token_accuracy": 0.7977978855371475,
       "step": 85
     },
     {
-      "epoch": 0.3630862329803328,
-      "grad_norm": 0.21868781745433807,
-      "learning_rate": 0.00016059508762635482,
-      "loss": 0.6133,
-      "mean_token_accuracy": 0.7997257344424724,
       "step": 90
     },
     {
-      "epoch": 0.3832576903681291,
-      "grad_norm": 0.16990062594413757,
-      "learning_rate": 0.00015481946044447099,
-      "loss": 0.6019,
-      "mean_token_accuracy": 0.8031925238668919,
       "step": 95
     },
     {
-      "epoch": 0.40342914775592537,
-      "grad_norm": 0.21849067509174347,
-      "learning_rate": 0.00014876949438136347,
-      "loss": 0.6088,
-      "mean_token_accuracy": 0.8004456080496312,
       "step": 100
     },
     {
-      "epoch": 0.4236006051437216,
-      "grad_norm": 0.19513824582099915,
-      "learning_rate": 0.0001424754659284048,
-      "loss": 0.5942,
-      "mean_token_accuracy": 0.804381325095892,
       "step": 105
     },
     {
-      "epoch": 0.4437720625315179,
-      "grad_norm": 0.1967114359140396,
-      "learning_rate": 0.0001359688729644536,
-      "loss": 0.6032,
-      "mean_token_accuracy": 0.8013887144625187,
       "step": 110
     },
     {
-      "epoch": 0.46394351991931415,
-      "grad_norm": 0.23586668074131012,
-      "learning_rate": 0.00012928227712765504,
-      "loss": 0.5964,
-      "mean_token_accuracy": 0.8034794270992279,
       "step": 115
     },
     {
-      "epoch": 0.48411497730711045,
-      "grad_norm": 0.2300032526254654,
-      "learning_rate": 0.00012244914086375724,
-      "loss": 0.6001,
-      "mean_token_accuracy": 0.8025347903370857,
       "step": 120
     },
     {
-      "epoch": 0.5042864346949067,
-      "grad_norm": 0.20042847096920013,
-      "learning_rate": 0.00011550365996641979,
-      "loss": 0.5815,
-      "mean_token_accuracy": 0.8074655055999755,
       "step": 125
     },
     {
-      "epoch": 0.524457892082703,
-      "grad_norm": 0.17820023000240326,
-      "learning_rate": 0.00010848059244755093,
-      "loss": 0.583,
-      "mean_token_accuracy": 0.8069817453622818,
       "step": 130
     },
     {
-      "epoch": 0.5446293494704992,
-      "grad_norm": 0.18053625524044037,
-      "learning_rate": 0.00010141508459407623,
-      "loss": 0.5736,
-      "mean_token_accuracy": 0.8103940255939961,
       "step": 135
     },
     {
-      "epoch": 0.5648008068582955,
-      "grad_norm": 0.18805579841136932,
-      "learning_rate": 9.434249508162076e-05,
-      "loss": 0.5867,
-      "mean_token_accuracy": 0.8052298232913018,
       "step": 140
     },
     {
-      "epoch": 0.5849722642460918,
-      "grad_norm": 0.20117288827896118,
-      "learning_rate": 8.729821802531212e-05,
-      "loss": 0.5855,
-      "mean_token_accuracy": 0.8056235462427139,
       "step": 145
     },
     {
-      "epoch": 0.6051437216338881,
-      "grad_norm": 0.1941426694393158,
-      "learning_rate": 8.031750585322947e-05,
-      "loss": 0.5769,
-      "mean_token_accuracy": 0.8083704620599746,
       "step": 150
     },
     {
-      "epoch": 0.6253151790216843,
-      "grad_norm": 0.22273395955562592,
-      "learning_rate": 7.343529288891239e-05,
-      "loss": 0.5673,
-      "mean_token_accuracy": 0.8112946927547455,
       "step": 155
     },
     {
-      "epoch": 0.6454866364094806,
-      "grad_norm": 0.1648331880569458,
-      "learning_rate": 6.668602052579424e-05,
-      "loss": 0.5638,
-      "mean_token_accuracy": 0.8121352635324002,
       "step": 160
     },
     {
-      "epoch": 0.6656580937972768,
-      "grad_norm": 0.16016638278961182,
-      "learning_rate": 6.010346486845837e-05,
-      "loss": 0.5612,
-      "mean_token_accuracy": 0.8127746880054474,
       "step": 165
     },
     {
-      "epoch": 0.6858295511850732,
-      "grad_norm": 0.20431025326251984,
-      "learning_rate": 5.372056770327013e-05,
-      "loss": 0.5696,
-      "mean_token_accuracy": 0.8099606201052666,
       "step": 170
     },
     {
-      "epoch": 0.7060010085728694,
-      "grad_norm": 0.15511010587215424,
-      "learning_rate": 4.756927164427685e-05,
-      "loss": 0.5678,
-      "mean_token_accuracy": 0.8108936175704002,
       "step": 175
     },
     {
-      "epoch": 0.7261724659606656,
-      "grad_norm": 0.16541433334350586,
-      "learning_rate": 4.168036027937267e-05,
-      "loss": 0.5678,
-      "mean_token_accuracy": 0.8105023756623269,
       "step": 180
     },
     {
-      "epoch": 0.7463439233484619,
-      "grad_norm": 0.17240563035011292,
-      "learning_rate": 3.6083304116701535e-05,
-      "loss": 0.5657,
-      "mean_token_accuracy": 0.811833106726408,
       "step": 185
     },
     {
-      "epoch": 0.7665153807362582,
-      "grad_norm": 0.2840154767036438,
-      "learning_rate": 3.080611310224539e-05,
-      "loss": 0.5645,
-      "mean_token_accuracy": 0.8111509509384632,
       "step": 190
     },
     {
-      "epoch": 0.7866868381240545,
-      "grad_norm": 0.17428910732269287,
-      "learning_rate": 2.587519644666001e-05,
-      "loss": 0.5676,
-      "mean_token_accuracy": 0.8105710506439209,
       "step": 195
     },
     {
-      "epoch": 0.8068582955118507,
-      "grad_norm": 0.16991418600082397,
-      "learning_rate": 2.1315230462840985e-05,
-      "loss": 0.5688,
-      "mean_token_accuracy": 0.8101178124547005,
       "step": 200
     },
     {
-      "epoch": 0.827029752899647,
-      "grad_norm": 0.16515938937664032,
-      "learning_rate": 1.7149035075615794e-05,
-      "loss": 0.5755,
-      "mean_token_accuracy": 0.8074880324304103,
       "step": 205
     },
     {
-      "epoch": 0.8472012102874432,
-      "grad_norm": 0.1514715701341629,
-      "learning_rate": 1.339745962155613e-05,
-      "loss": 0.5487,
-      "mean_token_accuracy": 0.8160267353057862,
       "step": 210
     },
     {
-      "epoch": 0.8673726676752396,
-      "grad_norm": 0.16116391122341156,
-      "learning_rate": 1.0079278510416313e-05,
-      "loss": 0.5584,
-      "mean_token_accuracy": 0.8127884238958358,
       "step": 215
     },
     {
-      "epoch": 0.8875441250630358,
-      "grad_norm": 0.14942748844623566,
-      "learning_rate": 7.211097270349066e-06,
-      "loss": 0.5703,
-      "mean_token_accuracy": 0.810148586332798,
       "step": 220
     },
     {
-      "epoch": 0.9077155824508321,
-      "grad_norm": 0.13097812235355377,
-      "learning_rate": 4.807269447087348e-06,
-      "loss": 0.5695,
-      "mean_token_accuracy": 0.8091624893248082,
       "step": 225
     },
     {
-      "epoch": 0.9278870398386283,
-      "grad_norm": 0.146128311753273,
-      "learning_rate": 2.8798247729623806e-06,
-      "loss": 0.562,
-      "mean_token_accuracy": 0.81240995824337,
       "step": 230
     },
     {
-      "epoch": 0.9480584972264247,
-      "grad_norm": 0.12836919724941254,
-      "learning_rate": 1.4384089652291543e-06,
-      "loss": 0.5572,
-      "mean_token_accuracy": 0.8139100790023803,
       "step": 235
     },
     {
-      "epoch": 0.9682299546142209,
-      "grad_norm": 0.13767513632774353,
-      "learning_rate": 4.902354549733978e-07,
-      "loss": 0.5612,
-      "mean_token_accuracy": 0.812609875202179,
       "step": 240
     },
     {
-      "epoch": 0.9884014120020171,
-      "grad_norm": 0.13750818371772766,
-      "learning_rate": 4.0049288167842705e-08,
-      "loss": 0.5753,
-      "mean_token_accuracy": 0.8083017885684967,
       "step": 245
     },
     {
-      "epoch": 0.9964699949571356,
-      "mean_token_accuracy": 0.8086390513926744,
-      "step": 247,
-      "total_flos": 7.11765772950569e+16,
-      "train_loss": 0.6465841082908846,
-      "train_runtime": 5579.7567,
-      "train_samples_per_second": 0.711,
-      "train_steps_per_second": 0.044
     }
   ],
   "logging_steps": 5,
-  "max_steps": 247,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -437,7 +661,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.11765772950569e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9978994991113266,
   "eval_steps": 500,
+  "global_step": 386,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0025852318629827112,
+      "grad_norm": 0.19946137070655823,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 0.4855,
+      "mean_token_accuracy": 0.8692543655633926,
       "step": 1
     },
     {
+      "epoch": 0.012926159314913557,
+      "grad_norm": 0.18048785626888275,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.5257,
+      "mean_token_accuracy": 0.8587683830410242,
       "step": 5
     },
     {
+      "epoch": 0.025852318629827113,
+      "grad_norm": 0.18388661742210388,
+      "learning_rate": 5.128205128205128e-05,
+      "loss": 0.5986,
+      "mean_token_accuracy": 0.838620126247406,
       "step": 10
     },
     {
+      "epoch": 0.038778477944740666,
+      "grad_norm": 0.13041158020496368,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 0.5464,
+      "mean_token_accuracy": 0.8496200017631054,
       "step": 15
     },
     {
+      "epoch": 0.051704637259654226,
+      "grad_norm": 0.10899022966623306,
+      "learning_rate": 0.00010256410256410256,
+      "loss": 0.4321,
+      "mean_token_accuracy": 0.8813652157783508,
       "step": 20
     },
     {
+      "epoch": 0.06463079657456779,
+      "grad_norm": 0.12952959537506104,
+      "learning_rate": 0.00012820512820512823,
+      "loss": 0.4429,
+      "mean_token_accuracy": 0.8760499283671379,
       "step": 25
     },
     {
+      "epoch": 0.07755695588948133,
+      "grad_norm": 0.11217343807220459,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 0.4426,
+      "mean_token_accuracy": 0.8728497698903084,
       "step": 30
     },
     {
+      "epoch": 0.09048311520439489,
+      "grad_norm": 0.11570142209529877,
+      "learning_rate": 0.0001794871794871795,
+      "loss": 0.4326,
+      "mean_token_accuracy": 0.8739698991179466,
       "step": 35
     },
     {
+      "epoch": 0.10340927451930845,
+      "grad_norm": 0.11375421285629272,
+      "learning_rate": 0.00019999590166142655,
+      "loss": 0.4398,
+      "mean_token_accuracy": 0.8683982357382775,
       "step": 40
     },
     {
+      "epoch": 0.11633543383422201,
+      "grad_norm": 0.09867997467517853,
+      "learning_rate": 0.00019985249508066755,
+      "loss": 0.3217,
+      "mean_token_accuracy": 0.9007599778473377,
       "step": 45
     },
     {
+      "epoch": 0.12926159314913557,
+      "grad_norm": 0.10740496963262558,
+      "learning_rate": 0.00019950450737506824,
+      "loss": 0.3468,
+      "mean_token_accuracy": 0.8914886720478534,
       "step": 50
     },
     {
+      "epoch": 0.14218775246404913,
+      "grad_norm": 0.10870860517024994,
+      "learning_rate": 0.00019895265151345518,
+      "loss": 0.297,
+      "mean_token_accuracy": 0.9054083719849586,
       "step": 55
     },
     {
+      "epoch": 0.15511391177896267,
+      "grad_norm": 0.1147221028804779,
+      "learning_rate": 0.00019819805815653768,
+      "loss": 0.2912,
+      "mean_token_accuracy": 0.9063926823437214,
       "step": 60
     },
     {
+      "epoch": 0.16804007109387623,
+      "grad_norm": 0.1086113452911377,
+      "learning_rate": 0.00019724227334037256,
+      "loss": 0.2709,
+      "mean_token_accuracy": 0.9122237786650658,
       "step": 65
     },
     {
+      "epoch": 0.18096623040878979,
+      "grad_norm": 0.11263403296470642,
+      "learning_rate": 0.00019608725530879375,
+      "loss": 0.2775,
+      "mean_token_accuracy": 0.9088832184672355,
       "step": 70
     },
     {
+      "epoch": 0.19389238972370335,
+      "grad_norm": 0.11787361651659012,
+      "learning_rate": 0.00019473537050129704,
+      "loss": 0.2758,
+      "mean_token_accuracy": 0.909870583564043,
       "step": 75
     },
     {
+      "epoch": 0.2068185490386169,
+      "grad_norm": 0.0966123640537262,
+      "learning_rate": 0.00019318938870459984,
+      "loss": 0.2113,
+      "mean_token_accuracy": 0.9297552116215229,
       "step": 80
     },
     {
+      "epoch": 0.21974470835353047,
+      "grad_norm": 0.09169968962669373,
+      "learning_rate": 0.00019145247737780961,
+      "loss": 0.2097,
+      "mean_token_accuracy": 0.9294927291572094,
       "step": 85
     },
     {
+      "epoch": 0.23267086766844403,
+      "grad_norm": 0.10205108672380447,
+      "learning_rate": 0.0001895281951628281,
+      "loss": 0.2354,
+      "mean_token_accuracy": 0.9218288294970989,
       "step": 90
     },
     {
+      "epoch": 0.24559702698335756,
+      "grad_norm": 0.11714070290327072,
+      "learning_rate": 0.00018742048459328682,
+      "loss": 0.2286,
+      "mean_token_accuracy": 0.9224011048674583,
       "step": 95
     },
     {
+      "epoch": 0.25852318629827115,
+      "grad_norm": 0.08743036538362503,
+      "learning_rate": 0.00018513366401695276,
+      "loss": 0.2524,
+      "mean_token_accuracy": 0.9145891763269901,
       "step": 100
     },
     {
+      "epoch": 0.2714493456131847,
+      "grad_norm": 0.12086658179759979,
+      "learning_rate": 0.00018267241874815314,
+      "loss": 0.2355,
+      "mean_token_accuracy": 0.9212763957679272,
       "step": 105
     },
     {
+      "epoch": 0.28437550492809827,
+      "grad_norm": 0.10271570086479187,
+      "learning_rate": 0.0001800417914683471,
+      "loss": 0.2033,
+      "mean_token_accuracy": 0.9312141306698323,
       "step": 110
     },
     {
+      "epoch": 0.2973016642430118,
+      "grad_norm": 0.11228019744157791,
+      "learning_rate": 0.0001772471718945119,
+      "loss": 0.1578,
+      "mean_token_accuracy": 0.946045958250761,
       "step": 115
     },
     {
+      "epoch": 0.31022782355792533,
+      "grad_norm": 0.1075127124786377,
+      "learning_rate": 0.00017429428573651024,
+      "loss": 0.2109,
+      "mean_token_accuracy": 0.928734278678894,
       "step": 120
     },
     {
+      "epoch": 0.3231539828728389,
+      "grad_norm": 0.16245290637016296,
+      "learning_rate": 0.00017118918296606537,
+      "loss": 0.2544,
+      "mean_token_accuracy": 0.9145586542785168,
       "step": 125
     },
     {
+      "epoch": 0.33608014218775245,
+      "grad_norm": 0.0984274297952652,
+      "learning_rate": 0.0001679382254213768,
+      "loss": 0.2398,
+      "mean_token_accuracy": 0.9193581290543079,
       "step": 130
     },
     {
+      "epoch": 0.34900630150266604,
+      "grad_norm": 0.14143706858158112,
+      "learning_rate": 0.00016454807377277398,
+      "loss": 0.2187,
+      "mean_token_accuracy": 0.9259690448641777,
       "step": 135
     },
     {
+      "epoch": 0.36193246081757957,
+      "grad_norm": 0.10752697288990021,
+      "learning_rate": 0.0001610256738761125,
+      "loss": 0.2205,
+      "mean_token_accuracy": 0.9248595975339413,
       "step": 140
     },
     {
+      "epoch": 0.37485862013249316,
+      "grad_norm": 0.15562467277050018,
+      "learning_rate": 0.00015737824254187275,
+      "loss": 0.2399,
+      "mean_token_accuracy": 0.9187141321599483,
       "step": 145
     },
     {
+      "epoch": 0.3877847794474067,
+      "grad_norm": 0.10149288177490234,
+      "learning_rate": 0.00015361325274911779,
+      "loss": 0.1906,
+      "mean_token_accuracy": 0.9351025439798832,
       "step": 150
     },
     {
+      "epoch": 0.4007109387623202,
+      "grad_norm": 0.13106182217597961,
+      "learning_rate": 0.00014973841833460457,
+      "loss": 0.2366,
+      "mean_token_accuracy": 0.9191612683236599,
       "step": 155
     },
     {
+      "epoch": 0.4136370980772338,
+      "grad_norm": 0.12485964596271515,
+      "learning_rate": 0.0001457616781884173,
+      "loss": 0.2532,
+      "mean_token_accuracy": 0.9145220316946506,
       "step": 160
     },
     {
+      "epoch": 0.42656325739214734,
+      "grad_norm": 0.12415427714586258,
+      "learning_rate": 0.0001416911799885049,
+      "loss": 0.1772,
+      "mean_token_accuracy": 0.9388307243585586,
       "step": 165
     },
     {
+      "epoch": 0.43948941670706093,
+      "grad_norm": 0.12156961858272552,
+      "learning_rate": 0.0001375352635074461,
+      "loss": 0.1974,
+      "mean_token_accuracy": 0.9322396464645862,
       "step": 170
     },
     {
+      "epoch": 0.45241557602197446,
+      "grad_norm": 0.08770665526390076,
+      "learning_rate": 0.00013330244352564527,
+      "loss": 0.2159,
+      "mean_token_accuracy": 0.9263734519481659,
       "step": 175
     },
     {
+      "epoch": 0.46534173533688805,
+      "grad_norm": 0.11970090866088867,
+      "learning_rate": 0.00012900139238596598,
+      "loss": 0.1788,
+      "mean_token_accuracy": 0.9383759558200836,
       "step": 180
     },
     {
+      "epoch": 0.4782678946518016,
+      "grad_norm": 0.0777999758720398,
+      "learning_rate": 0.00012464092222554552,
+      "loss": 0.1921,
+      "mean_token_accuracy": 0.9340388782322406,
       "step": 185
     },
     {
+      "epoch": 0.4911940539667151,
+      "grad_norm": 0.1088053435087204,
+      "learning_rate": 0.00012022996692119424,
+      "loss": 0.2428,
+      "mean_token_accuracy": 0.9170919217169284,
       "step": 190
     },
     {
+      "epoch": 0.5041202132816287,
+      "grad_norm": 0.12958504259586334,
+      "learning_rate": 0.00011577756378537033,
+      "loss": 0.1805,
+      "mean_token_accuracy": 0.9373964861035347,
       "step": 195
     },
     {
+      "epoch": 0.5170463725965423,
+      "grad_norm": 0.08942475914955139,
+      "learning_rate": 0.00011129283505023274,
+      "loss": 0.1757,
+      "mean_token_accuracy": 0.9391221977770329,
       "step": 200
     },
     {
+      "epoch": 0.5299725319114558,
+      "grad_norm": 0.12055882811546326,
+      "learning_rate": 0.00010678496917770719,
+      "loss": 0.2274,
+      "mean_token_accuracy": 0.9221370957791806,
       "step": 205
     },
     {
+      "epoch": 0.5428986912263694,
+      "grad_norm": 0.09946688264608383,
+      "learning_rate": 0.00010226320203385878,
+      "loss": 0.2235,
+      "mean_token_accuracy": 0.9239851593971252,
       "step": 210
     },
     {
+      "epoch": 0.5558248505412829,
+      "grad_norm": 0.08823594450950623,
+      "learning_rate": 9.773679796614124e-05,
+      "loss": 0.1757,
+      "mean_token_accuracy": 0.9392839625477791,
       "step": 215
     },
     {
+      "epoch": 0.5687510098561965,
+      "grad_norm": 0.09366550296545029,
+      "learning_rate": 9.321503082229282e-05,
+      "loss": 0.215,
+      "mean_token_accuracy": 0.9264558620750905,
       "step": 220
     },
     {
+      "epoch": 0.58167716917111,
+      "grad_norm": 0.1250247210264206,
+      "learning_rate": 8.87071649497673e-05,
+      "loss": 0.203,
+      "mean_token_accuracy": 0.9299200311303139,
       "step": 225
     },
     {
+      "epoch": 0.5946033284860236,
+      "grad_norm": 0.07920438051223755,
+      "learning_rate": 8.422243621462969e-05,
+      "loss": 0.1777,
+      "mean_token_accuracy": 0.93870100826025,
       "step": 230
     },
     {
+      "epoch": 0.6075294878009372,
+      "grad_norm": 0.09220347553491592,
+      "learning_rate": 7.97700330788058e-05,
+      "loss": 0.2382,
+      "mean_token_accuracy": 0.9188789471983909,
       "step": 235
     },
     {
+      "epoch": 0.6204556471158507,
+      "grad_norm": 0.09347136318683624,
+      "learning_rate": 7.535907777445449e-05,
+      "loss": 0.1768,
+      "mean_token_accuracy": 0.9390825219452381,
       "step": 240
     },
     {
+      "epoch": 0.6333818064307642,
+      "grad_norm": 0.06848734617233276,
+      "learning_rate": 7.099860761403403e-05,
+      "loss": 0.1909,
+      "mean_token_accuracy": 0.9346477761864662,
       "step": 245
     },
     {
+      "epoch": 0.6463079657456778,
+      "grad_norm": 0.08231879770755768,
+      "learning_rate": 6.669755647435474e-05,
+      "loss": 0.2094,
+      "mean_token_accuracy": 0.9281139463186264,
+      "step": 250
+    },
+    {
+      "epoch": 0.6592341250605914,
+      "grad_norm": 0.14479972422122955,
+      "learning_rate": 6.24647364925539e-05,
+      "loss": 0.1897,
+      "mean_token_accuracy": 0.9346370972692967,
+      "step": 255
+    },
+    {
+      "epoch": 0.6721602843755049,
+      "grad_norm": 0.10493209958076477,
+      "learning_rate": 5.830882001149517e-05,
+      "loss": 0.1977,
+      "mean_token_accuracy": 0.9318774163722991,
+      "step": 260
+    },
+    {
+      "epoch": 0.6850864436904185,
+      "grad_norm": 0.08989942073822021,
+      "learning_rate": 5.423832181158274e-05,
+      "loss": 0.1786,
+      "mean_token_accuracy": 0.9378982990980148,
+      "step": 265
+    },
+    {
+      "epoch": 0.6980126030053321,
+      "grad_norm": 0.0723404809832573,
+      "learning_rate": 5.0261581665395475e-05,
+      "loss": 0.1854,
+      "mean_token_accuracy": 0.9353665545582771,
+      "step": 270
+    },
+    {
+      "epoch": 0.7109387623202456,
+      "grad_norm": 0.08017778396606445,
+      "learning_rate": 4.6386747250882224e-05,
+      "loss": 0.2185,
+      "mean_token_accuracy": 0.9242644280195236,
+      "step": 275
+    },
+    {
+      "epoch": 0.7238649216351591,
+      "grad_norm": 0.09016852080821991,
+      "learning_rate": 4.2621757458127285e-05,
+      "loss": 0.1912,
+      "mean_token_accuracy": 0.9338557474315167,
+      "step": 280
+    },
+    {
+      "epoch": 0.7367910809500727,
+      "grad_norm": 0.0839182510972023,
+      "learning_rate": 3.8974326123887515e-05,
+      "loss": 0.1764,
+      "mean_token_accuracy": 0.9384186826646328,
+      "step": 285
+    },
+    {
+      "epoch": 0.7497172402649863,
+      "grad_norm": 0.08571181446313858,
+      "learning_rate": 3.5451926227225997e-05,
+      "loss": 0.1984,
+      "mean_token_accuracy": 0.931569704413414,
+      "step": 290
+    },
+    {
+      "epoch": 0.7626433995798998,
+      "grad_norm": 0.09723369032144547,
+      "learning_rate": 3.20617745786232e-05,
+      "loss": 0.2095,
+      "mean_token_accuracy": 0.9279029227793216,
+      "step": 295
+    },
+    {
+      "epoch": 0.7755695588948134,
+      "grad_norm": 0.08322826772928238,
+      "learning_rate": 2.8810817033934656e-05,
+      "loss": 0.214,
+      "mean_token_accuracy": 0.926049928367138,
+      "step": 300
+    },
+    {
+      "epoch": 0.788495718209727,
+      "grad_norm": 0.0943559929728508,
+      "learning_rate": 2.5705714263489776e-05,
+      "loss": 0.2025,
+      "mean_token_accuracy": 0.9304434671998024,
+      "step": 305
+    },
+    {
+      "epoch": 0.8014218775246404,
+      "grad_norm": 0.12426702678203583,
+      "learning_rate": 2.275282810548811e-05,
+      "loss": 0.2255,
+      "mean_token_accuracy": 0.92267579510808,
+      "step": 310
+    },
+    {
+      "epoch": 0.814348036839554,
+      "grad_norm": 0.07339806854724884,
+      "learning_rate": 1.9958208531652877e-05,
+      "loss": 0.2119,
+      "mean_token_accuracy": 0.9270739153027534,
+      "step": 315
+    },
+    {
+      "epoch": 0.8272741961544676,
+      "grad_norm": 0.07293356955051422,
+      "learning_rate": 1.73275812518469e-05,
+      "loss": 0.1728,
+      "mean_token_accuracy": 0.9397997766733169,
+      "step": 320
+    },
+    {
+      "epoch": 0.8402003554693812,
+      "grad_norm": 0.06353917717933655,
+      "learning_rate": 1.4866335983047264e-05,
+      "loss": 0.2043,
+      "mean_token_accuracy": 0.9285617105662822,
+      "step": 325
+    },
+    {
+      "epoch": 0.8531265147842947,
+      "grad_norm": 0.0852632075548172,
+      "learning_rate": 1.2579515406713193e-05,
+      "loss": 0.1894,
+      "mean_token_accuracy": 0.9348805241286755,
+      "step": 330
+    },
+    {
+      "epoch": 0.8660526740992083,
+      "grad_norm": 0.10367190837860107,
+      "learning_rate": 1.0471804837171916e-05,
+      "loss": 0.2155,
+      "mean_token_accuracy": 0.9256119452416897,
+      "step": 335
+    },
+    {
+      "epoch": 0.8789788334141219,
+      "grad_norm": 0.07647697627544403,
+      "learning_rate": 8.547522622190385e-06,
+      "loss": 0.191,
+      "mean_token_accuracy": 0.9336939886212349,
+      "step": 340
+    },
+    {
+      "epoch": 0.8919049927290353,
+      "grad_norm": 0.09329604357481003,
+      "learning_rate": 6.810611295400171e-06,
+      "loss": 0.162,
+      "mean_token_accuracy": 0.9432654656469822,
+      "step": 345
+    },
+    {
+      "epoch": 0.9048311520439489,
+      "grad_norm": 0.10007894039154053,
+      "learning_rate": 5.264629498702967e-06,
+      "loss": 0.2196,
+      "mean_token_accuracy": 0.9224743604660034,
+      "step": 350
+    },
+    {
+      "epoch": 0.9177573113588625,
+      "grad_norm": 0.09568954259157181,
+      "learning_rate": 3.91274469120626e-06,
+      "loss": 0.2326,
+      "mean_token_accuracy": 0.9203760787844658,
+      "step": 355
+    },
+    {
+      "epoch": 0.9306834706737761,
+      "grad_norm": 0.09242628514766693,
+      "learning_rate": 2.7577266596274576e-06,
+      "loss": 0.217,
+      "mean_token_accuracy": 0.9255997397005558,
+      "step": 360
+    },
+    {
+      "epoch": 0.9436096299886896,
+      "grad_norm": 0.08556357026100159,
+      "learning_rate": 1.8019418434623404e-06,
+      "loss": 0.1704,
+      "mean_token_accuracy": 0.9403167776763439,
+      "step": 365
+    },
+    {
+      "epoch": 0.9565357893036032,
+      "grad_norm": 0.08201264590024948,
+      "learning_rate": 1.0473484865448525e-06,
+      "loss": 0.1877,
+      "mean_token_accuracy": 0.9344814352691173,
+      "step": 370
+    },
+    {
+      "epoch": 0.9694619486185168,
+      "grad_norm": 0.08764708787202835,
+      "learning_rate": 4.954926249317815e-07,
+      "loss": 0.1614,
+      "mean_token_accuracy": 0.943453174829483,
+      "step": 375
+    },
+    {
+      "epoch": 0.9823881079334302,
+      "grad_norm": 0.09879707545042038,
+      "learning_rate": 1.4750491933247512e-07,
+      "loss": 0.1984,
+      "mean_token_accuracy": 0.9314216762781143,
+      "step": 380
+    },
+    {
+      "epoch": 0.9953142672483438,
+      "grad_norm": 0.0833079144358635,
+      "learning_rate": 4.0983385734660875e-09,
+      "loss": 0.1962,
+      "mean_token_accuracy": 0.9319176472723484,
+      "step": 385
+    },
+    {
+      "epoch": 0.9978994991113266,
+      "mean_token_accuracy": 0.9182563126087189,
+      "step": 386,
+      "total_flos": 1.112161775475753e+17,
+      "train_loss": 0.24216800009339584,
+      "train_runtime": 6297.1418,
+      "train_samples_per_second": 0.983,
+      "train_steps_per_second": 0.061
     }
   ],
   "logging_steps": 5,
+  "max_steps": 386,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.112161775475753e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null