diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,24824 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 2478,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0012107568176013773,
+      "grad_norm": 1.6823863983154297,
+      "learning_rate": 0.0,
+      "loss": 1.3109,
+      "num_input_tokens_seen": 438344,
+      "step": 1,
+      "train_runtime": 66.1532,
+      "train_tokens_per_second": 6626.197
+    },
+    {
+      "epoch": 0.0024215136352027547,
+      "grad_norm": 1.6656533479690552,
+      "learning_rate": 2.5000000000000004e-07,
+      "loss": 1.2706,
+      "num_input_tokens_seen": 897912,
+      "step": 2,
+      "train_runtime": 134.7812,
+      "train_tokens_per_second": 6661.997
+    },
+    {
+      "epoch": 0.003632270452804132,
+      "grad_norm": 1.694225788116455,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 1.3045,
+      "num_input_tokens_seen": 1322736,
+      "step": 3,
+      "train_runtime": 199.1648,
+      "train_tokens_per_second": 6641.415
+    },
+    {
+      "epoch": 0.004843027270405509,
+      "grad_norm": 1.6565794944763184,
+      "learning_rate": 7.5e-07,
+      "loss": 1.2432,
+      "num_input_tokens_seen": 1776136,
+      "step": 4,
+      "train_runtime": 267.5205,
+      "train_tokens_per_second": 6639.252
+    },
+    {
+      "epoch": 0.006053784088006886,
+      "grad_norm": 1.7125741243362427,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.2465,
+      "num_input_tokens_seen": 2216360,
+      "step": 5,
+      "train_runtime": 333.3919,
+      "train_tokens_per_second": 6647.912
+    },
+    {
+      "epoch": 0.007264540905608264,
+      "grad_norm": 1.627602219581604,
+      "learning_rate": 1.25e-06,
+      "loss": 1.2298,
+      "num_input_tokens_seen": 2672560,
+      "step": 6,
+      "train_runtime": 401.2707,
+      "train_tokens_per_second": 6660.242
+    },
+    {
+      "epoch": 0.008475297723209641,
+      "grad_norm": 1.677027702331543,
+      "learning_rate": 1.5e-06,
+      "loss": 1.2147,
+      "num_input_tokens_seen": 3146496,
+      "step": 7,
+      "train_runtime": 471.6412,
+      "train_tokens_per_second": 6671.376
+    },
+    {
+      "epoch": 0.009686054540811019,
+      "grad_norm": 1.6377135515213013,
+      "learning_rate": 1.75e-06,
+      "loss": 1.2696,
+      "num_input_tokens_seen": 3600320,
+      "step": 8,
+      "train_runtime": 539.1503,
+      "train_tokens_per_second": 6677.767
+    },
+    {
+      "epoch": 0.010896811358412395,
+      "grad_norm": 1.651689052581787,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.3134,
+      "num_input_tokens_seen": 4040512,
+      "step": 9,
+      "train_runtime": 604.8873,
+      "train_tokens_per_second": 6679.776
+    },
+    {
+      "epoch": 0.012107568176013772,
+      "grad_norm": 1.588644027709961,
+      "learning_rate": 2.25e-06,
+      "loss": 1.2148,
+      "num_input_tokens_seen": 4476856,
+      "step": 10,
+      "train_runtime": 669.9676,
+      "train_tokens_per_second": 6682.198
+    },
+    {
+      "epoch": 0.01331832499361515,
+      "grad_norm": 1.54507315158844,
+      "learning_rate": 2.5e-06,
+      "loss": 1.2446,
+      "num_input_tokens_seen": 4922928,
+      "step": 11,
+      "train_runtime": 738.3143,
+      "train_tokens_per_second": 6667.795
+    },
+    {
+      "epoch": 0.014529081811216527,
+      "grad_norm": 1.5578962564468384,
+      "learning_rate": 2.7500000000000004e-06,
+      "loss": 1.2765,
+      "num_input_tokens_seen": 5366568,
+      "step": 12,
+      "train_runtime": 805.1876,
+      "train_tokens_per_second": 6664.991
+    },
+    {
+      "epoch": 0.015739838628817903,
+      "grad_norm": 1.2954202890396118,
+      "learning_rate": 3e-06,
+      "loss": 1.2142,
+      "num_input_tokens_seen": 5805136,
+      "step": 13,
+      "train_runtime": 875.9211,
+      "train_tokens_per_second": 6627.465
+    },
+    {
+      "epoch": 0.016950595446419282,
+      "grad_norm": 1.2545137405395508,
+      "learning_rate": 3.2500000000000002e-06,
+      "loss": 1.1928,
+      "num_input_tokens_seen": 6269184,
+      "step": 14,
+      "train_runtime": 950.6377,
+      "train_tokens_per_second": 6594.714
+    },
+    {
+      "epoch": 0.018161352264020658,
+      "grad_norm": 1.2325160503387451,
+      "learning_rate": 3.5e-06,
+      "loss": 1.2354,
+      "num_input_tokens_seen": 6723088,
+      "step": 15,
+      "train_runtime": 1023.1734,
+      "train_tokens_per_second": 6570.82
+    },
+    {
+      "epoch": 0.019372109081622037,
+      "grad_norm": 1.1806299686431885,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 1.2273,
+      "num_input_tokens_seen": 7181184,
+      "step": 16,
+      "train_runtime": 1097.2469,
+      "train_tokens_per_second": 6544.729
+    },
+    {
+      "epoch": 0.020582865899223413,
+      "grad_norm": 1.1713570356369019,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.1806,
+      "num_input_tokens_seen": 7621296,
+      "step": 17,
+      "train_runtime": 1167.7968,
+      "train_tokens_per_second": 6526.218
+    },
+    {
+      "epoch": 0.02179362271682479,
+      "grad_norm": 0.7615021467208862,
+      "learning_rate": 4.25e-06,
+      "loss": 1.2043,
+      "num_input_tokens_seen": 8091120,
+      "step": 18,
+      "train_runtime": 1242.7454,
+      "train_tokens_per_second": 6510.682
+    },
+    {
+      "epoch": 0.02300437953442617,
+      "grad_norm": 0.7624850273132324,
+      "learning_rate": 4.5e-06,
+      "loss": 1.152,
+      "num_input_tokens_seen": 8549696,
+      "step": 19,
+      "train_runtime": 1316.11,
+      "train_tokens_per_second": 6496.187
+    },
+    {
+      "epoch": 0.024215136352027544,
+      "grad_norm": 0.753814160823822,
+      "learning_rate": 4.75e-06,
+      "loss": 1.1759,
+      "num_input_tokens_seen": 9015664,
+      "step": 20,
+      "train_runtime": 1390.9508,
+      "train_tokens_per_second": 6481.656
+    },
+    {
+      "epoch": 0.025425893169628924,
+      "grad_norm": 0.7244720458984375,
+      "learning_rate": 5e-06,
+      "loss": 1.1802,
+      "num_input_tokens_seen": 9456440,
+      "step": 21,
+      "train_runtime": 1461.1875,
+      "train_tokens_per_second": 6471.75
+    },
+    {
+      "epoch": 0.0266366499872303,
+      "grad_norm": 0.7659462094306946,
+      "learning_rate": 5e-06,
+      "loss": 1.1811,
+      "num_input_tokens_seen": 9899784,
+      "step": 22,
+      "train_runtime": 1530.8483,
+      "train_tokens_per_second": 6466.861
+    },
+    {
+      "epoch": 0.027847406804831675,
+      "grad_norm": 0.795974612236023,
+      "learning_rate": 5e-06,
+      "loss": 1.1331,
+      "num_input_tokens_seen": 10351040,
+      "step": 23,
+      "train_runtime": 1602.2727,
+      "train_tokens_per_second": 6460.224
+    },
+    {
+      "epoch": 0.029058163622433054,
+      "grad_norm": 0.7971475720405579,
+      "learning_rate": 5e-06,
+      "loss": 1.1689,
+      "num_input_tokens_seen": 10818480,
+      "step": 24,
+      "train_runtime": 1675.7391,
+      "train_tokens_per_second": 6455.945
+    },
+    {
+      "epoch": 0.03026892044003443,
+      "grad_norm": 0.9564425945281982,
+      "learning_rate": 5e-06,
+      "loss": 1.1556,
+      "num_input_tokens_seen": 11266424,
+      "step": 25,
+      "train_runtime": 1746.8035,
+      "train_tokens_per_second": 6449.737
+    },
+    {
+      "epoch": 0.031479677257635806,
+      "grad_norm": 1.0319074392318726,
+      "learning_rate": 5e-06,
+      "loss": 1.1656,
+      "num_input_tokens_seen": 11711824,
+      "step": 26,
+      "train_runtime": 1817.4337,
+      "train_tokens_per_second": 6444.155
+    },
+    {
+      "epoch": 0.03269043407523718,
+      "grad_norm": 0.9839694499969482,
+      "learning_rate": 5e-06,
+      "loss": 1.1934,
+      "num_input_tokens_seen": 12167904,
+      "step": 27,
+      "train_runtime": 1890.2289,
+      "train_tokens_per_second": 6437.265
+    },
+    {
+      "epoch": 0.033901190892838565,
+      "grad_norm": 1.0027241706848145,
+      "learning_rate": 5e-06,
+      "loss": 1.2015,
+      "num_input_tokens_seen": 12603712,
+      "step": 28,
+      "train_runtime": 1958.8389,
+      "train_tokens_per_second": 6434.277
+    },
+    {
+      "epoch": 0.03511194771043994,
+      "grad_norm": 1.0292820930480957,
+      "learning_rate": 5e-06,
+      "loss": 1.114,
+      "num_input_tokens_seen": 13045496,
+      "step": 29,
+      "train_runtime": 2028.3291,
+      "train_tokens_per_second": 6431.647
+    },
+    {
+      "epoch": 0.036322704528041316,
+      "grad_norm": 0.8715880513191223,
+      "learning_rate": 5e-06,
+      "loss": 1.1285,
+      "num_input_tokens_seen": 13489440,
+      "step": 30,
+      "train_runtime": 2099.3816,
+      "train_tokens_per_second": 6425.435
+    },
+    {
+      "epoch": 0.03753346134564269,
+      "grad_norm": 0.782746434211731,
+      "learning_rate": 5e-06,
+      "loss": 1.1129,
+      "num_input_tokens_seen": 13935984,
+      "step": 31,
+      "train_runtime": 2170.7426,
+      "train_tokens_per_second": 6419.916
+    },
+    {
+      "epoch": 0.038744218163244075,
+      "grad_norm": 0.6815439462661743,
+      "learning_rate": 5e-06,
+      "loss": 1.0844,
+      "num_input_tokens_seen": 14376552,
+      "step": 32,
+      "train_runtime": 2240.9154,
+      "train_tokens_per_second": 6415.482
+    },
+    {
+      "epoch": 0.03995497498084545,
+      "grad_norm": 0.5916255116462708,
+      "learning_rate": 5e-06,
+      "loss": 1.1448,
+      "num_input_tokens_seen": 14801448,
+      "step": 33,
+      "train_runtime": 2309.3718,
+      "train_tokens_per_second": 6409.296
+    },
+    {
+      "epoch": 0.04116573179844683,
+      "grad_norm": 0.5178527235984802,
+      "learning_rate": 5e-06,
+      "loss": 1.1492,
+      "num_input_tokens_seen": 15254568,
+      "step": 34,
+      "train_runtime": 2381.7952,
+      "train_tokens_per_second": 6404.651
+    },
+    {
+      "epoch": 0.0423764886160482,
+      "grad_norm": 0.4729219675064087,
+      "learning_rate": 5e-06,
+      "loss": 1.1012,
+      "num_input_tokens_seen": 15721704,
+      "step": 35,
+      "train_runtime": 2456.0312,
+      "train_tokens_per_second": 6401.264
+    },
+    {
+      "epoch": 0.04358724543364958,
+      "grad_norm": 0.4695061147212982,
+      "learning_rate": 5e-06,
+      "loss": 1.1549,
+      "num_input_tokens_seen": 16169016,
+      "step": 36,
+      "train_runtime": 2527.4009,
+      "train_tokens_per_second": 6397.488
+    },
+    {
+      "epoch": 0.04479800225125096,
+      "grad_norm": 0.4953579306602478,
+      "learning_rate": 5e-06,
+      "loss": 1.0791,
+      "num_input_tokens_seen": 16632416,
+      "step": 37,
+      "train_runtime": 2602.077,
+      "train_tokens_per_second": 6391.977
+    },
+    {
+      "epoch": 0.04600875906885234,
+      "grad_norm": 0.5437090396881104,
+      "learning_rate": 5e-06,
+      "loss": 1.166,
+      "num_input_tokens_seen": 17072064,
+      "step": 38,
+      "train_runtime": 2672.2934,
+      "train_tokens_per_second": 6388.544
+    },
+    {
+      "epoch": 0.04721951588645371,
+      "grad_norm": 0.49670565128326416,
+      "learning_rate": 5e-06,
+      "loss": 1.1278,
+      "num_input_tokens_seen": 17521824,
+      "step": 39,
+      "train_runtime": 2744.1029,
+      "train_tokens_per_second": 6385.265
+    },
+    {
+      "epoch": 0.04843027270405509,
+      "grad_norm": 0.5088937878608704,
+      "learning_rate": 5e-06,
+      "loss": 1.1204,
+      "num_input_tokens_seen": 17970488,
+      "step": 40,
+      "train_runtime": 2816.1612,
+      "train_tokens_per_second": 6381.2
+    },
+    {
+      "epoch": 0.049641029521656464,
+      "grad_norm": 0.45026877522468567,
+      "learning_rate": 5e-06,
+      "loss": 1.1271,
+      "num_input_tokens_seen": 18415968,
+      "step": 41,
+      "train_runtime": 2887.7895,
+      "train_tokens_per_second": 6377.185
+    },
+    {
+      "epoch": 0.05085178633925785,
+      "grad_norm": 0.450920969247818,
+      "learning_rate": 5e-06,
+      "loss": 1.1152,
+      "num_input_tokens_seen": 18872720,
+      "step": 42,
+      "train_runtime": 2961.0904,
+      "train_tokens_per_second": 6373.571
+    },
+    {
+      "epoch": 0.05206254315685922,
+      "grad_norm": 0.3853777050971985,
+      "learning_rate": 5e-06,
+      "loss": 1.0648,
+      "num_input_tokens_seen": 19341632,
+      "step": 43,
+      "train_runtime": 3036.043,
+      "train_tokens_per_second": 6370.671
+    },
+    {
+      "epoch": 0.0532732999744606,
+      "grad_norm": 0.37567827105522156,
+      "learning_rate": 5e-06,
+      "loss": 1.1503,
+      "num_input_tokens_seen": 19774192,
+      "step": 44,
+      "train_runtime": 3105.6604,
+      "train_tokens_per_second": 6367.146
+    },
+    {
+      "epoch": 0.054484056792061974,
+      "grad_norm": 0.3511997163295746,
+      "learning_rate": 5e-06,
+      "loss": 1.1209,
+      "num_input_tokens_seen": 20246224,
+      "step": 45,
+      "train_runtime": 3181.7883,
+      "train_tokens_per_second": 6363.159
+    },
+    {
+      "epoch": 0.05569481360966335,
+      "grad_norm": 0.3575429618358612,
+      "learning_rate": 5e-06,
+      "loss": 1.073,
+      "num_input_tokens_seen": 20721848,
+      "step": 46,
+      "train_runtime": 3258.4956,
+      "train_tokens_per_second": 6359.33
+    },
+    {
+      "epoch": 0.05690557042726473,
+      "grad_norm": 0.32883220911026,
+      "learning_rate": 5e-06,
+      "loss": 1.0287,
+      "num_input_tokens_seen": 21204880,
+      "step": 47,
+      "train_runtime": 3336.1547,
+      "train_tokens_per_second": 6356.084
+    },
+    {
+      "epoch": 0.05811632724486611,
+      "grad_norm": 0.3266335129737854,
+      "learning_rate": 5e-06,
+      "loss": 1.1667,
+      "num_input_tokens_seen": 21643792,
+      "step": 48,
+      "train_runtime": 3406.2845,
+      "train_tokens_per_second": 6354.076
+    },
+    {
+      "epoch": 0.059327084062467485,
+      "grad_norm": 0.32436686754226685,
+      "learning_rate": 5e-06,
+      "loss": 1.0979,
+      "num_input_tokens_seen": 22102080,
+      "step": 49,
+      "train_runtime": 3478.6822,
+      "train_tokens_per_second": 6353.578
+    },
+    {
+      "epoch": 0.06053784088006886,
+      "grad_norm": 0.3160610795021057,
+      "learning_rate": 5e-06,
+      "loss": 1.0757,
+      "num_input_tokens_seen": 22560080,
+      "step": 50,
+      "train_runtime": 3550.9743,
+      "train_tokens_per_second": 6353.209
+    },
+    {
+      "epoch": 0.061748597697670236,
+      "grad_norm": 0.3259732127189636,
+      "learning_rate": 5e-06,
+      "loss": 1.0585,
+      "num_input_tokens_seen": 23012792,
+      "step": 51,
+      "train_runtime": 3623.5659,
+      "train_tokens_per_second": 6350.869
+    },
+    {
+      "epoch": 0.06295935451527161,
+      "grad_norm": 0.3129977881908417,
+      "learning_rate": 5e-06,
+      "loss": 1.0892,
+      "num_input_tokens_seen": 23481928,
+      "step": 52,
+      "train_runtime": 3698.7937,
+      "train_tokens_per_second": 6348.537
+    },
+    {
+      "epoch": 0.064170111332873,
+      "grad_norm": 0.31302887201309204,
+      "learning_rate": 5e-06,
+      "loss": 1.107,
+      "num_input_tokens_seen": 23929328,
+      "step": 53,
+      "train_runtime": 3770.8893,
+      "train_tokens_per_second": 6345.805
+    },
+    {
+      "epoch": 0.06538086815047436,
+      "grad_norm": 0.30268368124961853,
+      "learning_rate": 5e-06,
+      "loss": 1.0769,
+      "num_input_tokens_seen": 24389344,
+      "step": 54,
+      "train_runtime": 3845.4071,
+      "train_tokens_per_second": 6342.461
+    },
+    {
+      "epoch": 0.06659162496807575,
+      "grad_norm": 0.3023386299610138,
+      "learning_rate": 5e-06,
+      "loss": 1.0904,
+      "num_input_tokens_seen": 24835992,
+      "step": 55,
+      "train_runtime": 3917.1748,
+      "train_tokens_per_second": 6340.282
+    },
+    {
+      "epoch": 0.06780238178567713,
+      "grad_norm": 0.3157775104045868,
+      "learning_rate": 5e-06,
+      "loss": 1.0838,
+      "num_input_tokens_seen": 25287800,
+      "step": 56,
+      "train_runtime": 3989.6387,
+      "train_tokens_per_second": 6338.368
+    },
+    {
+      "epoch": 0.0690131386032785,
+      "grad_norm": 0.3070801794528961,
+      "learning_rate": 5e-06,
+      "loss": 1.1042,
+      "num_input_tokens_seen": 25726600,
+      "step": 57,
+      "train_runtime": 4059.4983,
+      "train_tokens_per_second": 6337.384
+    },
+    {
+      "epoch": 0.07022389542087988,
+      "grad_norm": 0.2750767469406128,
+      "learning_rate": 5e-06,
+      "loss": 1.0938,
+      "num_input_tokens_seen": 26197136,
+      "step": 58,
+      "train_runtime": 4135.3446,
+      "train_tokens_per_second": 6334.934
+    },
+    {
+      "epoch": 0.07143465223848126,
+      "grad_norm": 0.32206404209136963,
+      "learning_rate": 5e-06,
+      "loss": 1.1449,
+      "num_input_tokens_seen": 26648344,
+      "step": 59,
+      "train_runtime": 4206.337,
+      "train_tokens_per_second": 6335.285
+    },
+    {
+      "epoch": 0.07264540905608263,
+      "grad_norm": 0.27299636602401733,
+      "learning_rate": 5e-06,
+      "loss": 1.063,
+      "num_input_tokens_seen": 27117640,
+      "step": 60,
+      "train_runtime": 4279.87,
+      "train_tokens_per_second": 6336.09
+    },
+    {
+      "epoch": 0.07385616587368402,
+      "grad_norm": 0.3023524582386017,
+      "learning_rate": 5e-06,
+      "loss": 1.0814,
+      "num_input_tokens_seen": 27558016,
+      "step": 61,
+      "train_runtime": 4349.9557,
+      "train_tokens_per_second": 6335.241
+    },
+    {
+      "epoch": 0.07506692269128538,
+      "grad_norm": 0.3390548527240753,
+      "learning_rate": 5e-06,
+      "loss": 1.0838,
+      "num_input_tokens_seen": 28010840,
+      "step": 62,
+      "train_runtime": 4423.2036,
+      "train_tokens_per_second": 6332.704
+    },
+    {
+      "epoch": 0.07627767950888677,
+      "grad_norm": 0.3006073832511902,
+      "learning_rate": 5e-06,
+      "loss": 1.0334,
+      "num_input_tokens_seen": 28461840,
+      "step": 63,
+      "train_runtime": 4496.9762,
+      "train_tokens_per_second": 6329.106
+    },
+    {
+      "epoch": 0.07748843632648815,
+      "grad_norm": 0.30531835556030273,
+      "learning_rate": 5e-06,
+      "loss": 1.1794,
+      "num_input_tokens_seen": 28903208,
+      "step": 64,
+      "train_runtime": 4568.0669,
+      "train_tokens_per_second": 6327.23
+    },
+    {
+      "epoch": 0.07869919314408952,
+      "grad_norm": 0.2855227589607239,
+      "learning_rate": 5e-06,
+      "loss": 1.0802,
+      "num_input_tokens_seen": 29372160,
+      "step": 65,
+      "train_runtime": 4642.0795,
+      "train_tokens_per_second": 6327.371
+    },
+    {
+      "epoch": 0.0799099499616909,
+      "grad_norm": 0.2859865725040436,
+      "learning_rate": 5e-06,
+      "loss": 1.1396,
+      "num_input_tokens_seen": 29835496,
+      "step": 66,
+      "train_runtime": 4715.6083,
+      "train_tokens_per_second": 6326.967
+    },
+    {
+      "epoch": 0.08112070677929227,
+      "grad_norm": 0.28807154297828674,
+      "learning_rate": 5e-06,
+      "loss": 1.0579,
+      "num_input_tokens_seen": 30301072,
+      "step": 67,
+      "train_runtime": 4789.8228,
+      "train_tokens_per_second": 6326.136
+    },
+    {
+      "epoch": 0.08233146359689365,
+      "grad_norm": 0.27400127053260803,
+      "learning_rate": 5e-06,
+      "loss": 1.0897,
+      "num_input_tokens_seen": 30761224,
+      "step": 68,
+      "train_runtime": 4863.205,
+      "train_tokens_per_second": 6325.299
+    },
+    {
+      "epoch": 0.08354222041449504,
+      "grad_norm": 0.27055230736732483,
+      "learning_rate": 5e-06,
+      "loss": 1.0776,
+      "num_input_tokens_seen": 31235312,
+      "step": 69,
+      "train_runtime": 4939.24,
+      "train_tokens_per_second": 6323.911
+    },
+    {
+      "epoch": 0.0847529772320964,
+      "grad_norm": 0.29049232602119446,
+      "learning_rate": 5e-06,
+      "loss": 1.0942,
+      "num_input_tokens_seen": 31715944,
+      "step": 70,
+      "train_runtime": 5016.1629,
+      "train_tokens_per_second": 6322.75
+    },
+    {
+      "epoch": 0.08596373404969779,
+      "grad_norm": 0.28521451354026794,
+      "learning_rate": 5e-06,
+      "loss": 1.1107,
+      "num_input_tokens_seen": 32153488,
+      "step": 71,
+      "train_runtime": 5087.4742,
+      "train_tokens_per_second": 6320.128
+    },
+    {
+      "epoch": 0.08717449086729916,
+      "grad_norm": 0.27909162640571594,
+      "learning_rate": 5e-06,
+      "loss": 1.1105,
+      "num_input_tokens_seen": 32614936,
+      "step": 72,
+      "train_runtime": 5163.3824,
+      "train_tokens_per_second": 6316.584
+    },
+    {
+      "epoch": 0.08838524768490054,
+      "grad_norm": 0.2773616909980774,
+      "learning_rate": 5e-06,
+      "loss": 1.0926,
+      "num_input_tokens_seen": 33066032,
+      "step": 73,
+      "train_runtime": 5236.3763,
+      "train_tokens_per_second": 6314.678
+    },
+    {
+      "epoch": 0.08959600450250192,
+      "grad_norm": 0.2607426047325134,
+      "learning_rate": 5e-06,
+      "loss": 1.0681,
+      "num_input_tokens_seen": 33519952,
+      "step": 74,
+      "train_runtime": 5309.8276,
+      "train_tokens_per_second": 6312.814
+    },
+    {
+      "epoch": 0.09080676132010329,
+      "grad_norm": 0.3017564117908478,
+      "learning_rate": 5e-06,
+      "loss": 1.1197,
+      "num_input_tokens_seen": 33979056,
+      "step": 75,
+      "train_runtime": 5383.9039,
+      "train_tokens_per_second": 6311.23
+    },
+    {
+      "epoch": 0.09201751813770467,
+      "grad_norm": 0.25366899371147156,
+      "learning_rate": 5e-06,
+      "loss": 1.0534,
+      "num_input_tokens_seen": 34445408,
+      "step": 76,
+      "train_runtime": 5459.5423,
+      "train_tokens_per_second": 6309.212
+    },
+    {
+      "epoch": 0.09322827495530604,
+      "grad_norm": 0.30008700489997864,
+      "learning_rate": 5e-06,
+      "loss": 1.0647,
+      "num_input_tokens_seen": 34883760,
+      "step": 77,
+      "train_runtime": 5529.7451,
+      "train_tokens_per_second": 6308.385
+    },
+    {
+      "epoch": 0.09443903177290743,
+      "grad_norm": 0.288265198469162,
+      "learning_rate": 5e-06,
+      "loss": 1.1079,
+      "num_input_tokens_seen": 35340528,
+      "step": 78,
+      "train_runtime": 5604.8498,
+      "train_tokens_per_second": 6305.348
+    },
+    {
+      "epoch": 0.09564978859050881,
+      "grad_norm": 0.27486133575439453,
+      "learning_rate": 5e-06,
+      "loss": 1.0545,
+      "num_input_tokens_seen": 35797704,
+      "step": 79,
+      "train_runtime": 5678.1881,
+      "train_tokens_per_second": 6304.424
+    },
+    {
+      "epoch": 0.09686054540811018,
+      "grad_norm": 0.2748127281665802,
+      "learning_rate": 5e-06,
+      "loss": 1.0813,
+      "num_input_tokens_seen": 36242296,
+      "step": 80,
+      "train_runtime": 5749.0438,
+      "train_tokens_per_second": 6304.056
+    },
+    {
+      "epoch": 0.09807130222571156,
+      "grad_norm": 0.25881466269493103,
+      "learning_rate": 5e-06,
+      "loss": 1.0469,
+      "num_input_tokens_seen": 36731608,
+      "step": 81,
+      "train_runtime": 5827.2786,
+      "train_tokens_per_second": 6303.39
+    },
+    {
+      "epoch": 0.09928205904331293,
+      "grad_norm": 0.25870904326438904,
+      "learning_rate": 5e-06,
+      "loss": 1.0211,
+      "num_input_tokens_seen": 37192232,
+      "step": 82,
+      "train_runtime": 5900.4297,
+      "train_tokens_per_second": 6303.309
+    },
+    {
+      "epoch": 0.10049281586091431,
+      "grad_norm": 0.2989208996295929,
+      "learning_rate": 5e-06,
+      "loss": 1.094,
+      "num_input_tokens_seen": 37644536,
+      "step": 83,
+      "train_runtime": 5972.5325,
+      "train_tokens_per_second": 6302.944
+    },
+    {
+      "epoch": 0.1017035726785157,
+      "grad_norm": 0.2510150671005249,
+      "learning_rate": 5e-06,
+      "loss": 1.0657,
+      "num_input_tokens_seen": 38088800,
+      "step": 84,
+      "train_runtime": 6043.5299,
+      "train_tokens_per_second": 6302.41
+    },
+    {
+      "epoch": 0.10291432949611706,
+      "grad_norm": 0.25874075293540955,
+      "learning_rate": 5e-06,
+      "loss": 1.083,
+      "num_input_tokens_seen": 38544872,
+      "step": 85,
+      "train_runtime": 6115.5221,
+      "train_tokens_per_second": 6302.793
+    },
+    {
+      "epoch": 0.10412508631371845,
+      "grad_norm": 0.2325299233198166,
+      "learning_rate": 5e-06,
+      "loss": 1.0115,
+      "num_input_tokens_seen": 39021888,
+      "step": 86,
+      "train_runtime": 6193.1133,
+      "train_tokens_per_second": 6300.852
+    },
+    {
+      "epoch": 0.10533584313131981,
+      "grad_norm": 0.24345119297504425,
+      "learning_rate": 5e-06,
+      "loss": 1.0333,
+      "num_input_tokens_seen": 39493872,
+      "step": 87,
+      "train_runtime": 6268.3853,
+      "train_tokens_per_second": 6300.486
+    },
+    {
+      "epoch": 0.1065465999489212,
+      "grad_norm": 0.26478031277656555,
+      "learning_rate": 5e-06,
+      "loss": 1.0525,
+      "num_input_tokens_seen": 39939016,
+      "step": 88,
+      "train_runtime": 6339.297,
+      "train_tokens_per_second": 6300.228
+    },
+    {
+      "epoch": 0.10775735676652258,
+      "grad_norm": 0.24371357262134552,
+      "learning_rate": 5e-06,
+      "loss": 1.0548,
+      "num_input_tokens_seen": 40423776,
+      "step": 89,
+      "train_runtime": 6415.9537,
+      "train_tokens_per_second": 6300.509
+    },
+    {
+      "epoch": 0.10896811358412395,
+      "grad_norm": 0.25180429220199585,
+      "learning_rate": 5e-06,
+      "loss": 1.0336,
+      "num_input_tokens_seen": 40869936,
+      "step": 90,
+      "train_runtime": 6486.3382,
+      "train_tokens_per_second": 6300.926
+    },
+    {
+      "epoch": 0.11017887040172533,
+      "grad_norm": 0.2390969842672348,
+      "learning_rate": 5e-06,
+      "loss": 1.0552,
+      "num_input_tokens_seen": 41317936,
+      "step": 91,
+      "train_runtime": 6557.8413,
+      "train_tokens_per_second": 6300.539
+    },
+    {
+      "epoch": 0.1113896272193267,
+      "grad_norm": 0.2268403321504593,
+      "learning_rate": 5e-06,
+      "loss": 1.0251,
+      "num_input_tokens_seen": 41807248,
+      "step": 92,
+      "train_runtime": 6635.8744,
+      "train_tokens_per_second": 6300.187
+    },
+    {
+      "epoch": 0.11260038403692808,
+      "grad_norm": 0.23852020502090454,
+      "learning_rate": 5e-06,
+      "loss": 1.0913,
+      "num_input_tokens_seen": 42253040,
+      "step": 93,
+      "train_runtime": 6706.5327,
+      "train_tokens_per_second": 6300.281
+    },
+    {
+      "epoch": 0.11381114085452947,
+      "grad_norm": 0.22914916276931763,
+      "learning_rate": 5e-06,
+      "loss": 1.0244,
+      "num_input_tokens_seen": 42729480,
+      "step": 94,
+      "train_runtime": 6783.568,
+      "train_tokens_per_second": 6298.968
+    },
+    {
+      "epoch": 0.11502189767213084,
+      "grad_norm": 0.24560000002384186,
+      "learning_rate": 5e-06,
+      "loss": 1.0941,
+      "num_input_tokens_seen": 43185408,
+      "step": 95,
+      "train_runtime": 6856.313,
+      "train_tokens_per_second": 6298.634
+    },
+    {
+      "epoch": 0.11623265448973222,
+      "grad_norm": 0.25429603457450867,
+      "learning_rate": 5e-06,
+      "loss": 1.0389,
+      "num_input_tokens_seen": 43633928,
+      "step": 96,
+      "train_runtime": 6927.8513,
+      "train_tokens_per_second": 6298.335
+    },
+    {
+      "epoch": 0.11744341130733359,
+      "grad_norm": 0.23469692468643188,
+      "learning_rate": 5e-06,
+      "loss": 1.0,
+      "num_input_tokens_seen": 44105840,
+      "step": 97,
+      "train_runtime": 7003.1186,
+      "train_tokens_per_second": 6298.028
+    },
+    {
+      "epoch": 0.11865416812493497,
+      "grad_norm": 0.2390899658203125,
+      "learning_rate": 5e-06,
+      "loss": 1.0403,
+      "num_input_tokens_seen": 44581704,
+      "step": 98,
+      "train_runtime": 7079.5384,
+      "train_tokens_per_second": 6297.261
+    },
+    {
+      "epoch": 0.11986492494253635,
+      "grad_norm": 0.2298881709575653,
+      "learning_rate": 5e-06,
+      "loss": 1.0538,
+      "num_input_tokens_seen": 45029648,
+      "step": 99,
+      "train_runtime": 7150.6445,
+      "train_tokens_per_second": 6297.285
+    },
+    {
+      "epoch": 0.12107568176013772,
+      "grad_norm": 0.23455004394054413,
+      "learning_rate": 5e-06,
+      "loss": 1.0106,
+      "num_input_tokens_seen": 45491992,
+      "step": 100,
+      "train_runtime": 7224.9828,
+      "train_tokens_per_second": 6296.484
+    },
+    {
+      "epoch": 0.1222864385777391,
+      "grad_norm": 0.27862685918807983,
+      "learning_rate": 5e-06,
+      "loss": 1.0551,
+      "num_input_tokens_seen": 45960216,
+      "step": 101,
+      "train_runtime": 7300.9867,
+      "train_tokens_per_second": 6295.069
+    },
+    {
+      "epoch": 0.12349719539534047,
+      "grad_norm": 0.2320939600467682,
+      "learning_rate": 5e-06,
+      "loss": 1.0258,
+      "num_input_tokens_seen": 46435864,
+      "step": 102,
+      "train_runtime": 7377.4853,
+      "train_tokens_per_second": 6294.267
+    },
+    {
+      "epoch": 0.12470795221294186,
+      "grad_norm": 0.2700980305671692,
+      "learning_rate": 5e-06,
+      "loss": 1.0397,
+      "num_input_tokens_seen": 46897016,
+      "step": 103,
+      "train_runtime": 7451.8901,
+      "train_tokens_per_second": 6293.305
+    },
+    {
+      "epoch": 0.12591870903054322,
+      "grad_norm": 0.2502821683883667,
+      "learning_rate": 5e-06,
+      "loss": 1.0432,
+      "num_input_tokens_seen": 47324336,
+      "step": 104,
+      "train_runtime": 7519.7181,
+      "train_tokens_per_second": 6293.366
+    },
+    {
+      "epoch": 0.1271294658481446,
+      "grad_norm": 0.23824240267276764,
+      "learning_rate": 5e-06,
+      "loss": 1.0777,
+      "num_input_tokens_seen": 47770912,
+      "step": 105,
+      "train_runtime": 7590.7707,
+      "train_tokens_per_second": 6293.289
+    },
+    {
+      "epoch": 0.128340222665746,
+      "grad_norm": 0.24816913902759552,
+      "learning_rate": 5e-06,
+      "loss": 1.0662,
+      "num_input_tokens_seen": 48215152,
+      "step": 106,
+      "train_runtime": 7662.9416,
+      "train_tokens_per_second": 6291.99
+    },
+    {
+      "epoch": 0.12955097948334737,
+      "grad_norm": 0.2386653572320938,
+      "learning_rate": 5e-06,
+      "loss": 1.0423,
+      "num_input_tokens_seen": 48688112,
+      "step": 107,
+      "train_runtime": 7739.3312,
+      "train_tokens_per_second": 6290.997
+    },
+    {
+      "epoch": 0.13076173630094873,
+      "grad_norm": 0.25550806522369385,
+      "learning_rate": 5e-06,
+      "loss": 1.1077,
+      "num_input_tokens_seen": 49130072,
+      "step": 108,
+      "train_runtime": 7810.4937,
+      "train_tokens_per_second": 6290.265
+    },
+    {
+      "epoch": 0.1319724931185501,
+      "grad_norm": 0.2418377846479416,
+      "learning_rate": 5e-06,
+      "loss": 1.0495,
+      "num_input_tokens_seen": 49589584,
+      "step": 109,
+      "train_runtime": 7883.9434,
+      "train_tokens_per_second": 6289.947
+    },
+    {
+      "epoch": 0.1331832499361515,
+      "grad_norm": 0.24783344566822052,
+      "learning_rate": 5e-06,
+      "loss": 1.0896,
+      "num_input_tokens_seen": 50020456,
+      "step": 110,
+      "train_runtime": 7953.0419,
+      "train_tokens_per_second": 6289.475
+    },
+    {
+      "epoch": 0.13439400675375288,
+      "grad_norm": 0.2944345474243164,
+      "learning_rate": 5e-06,
+      "loss": 1.0701,
+      "num_input_tokens_seen": 50460280,
+      "step": 111,
+      "train_runtime": 8024.2387,
+      "train_tokens_per_second": 6288.482
+    },
+    {
+      "epoch": 0.13560476357135426,
+      "grad_norm": 0.23773066699504852,
+      "learning_rate": 5e-06,
+      "loss": 1.0576,
+      "num_input_tokens_seen": 50923488,
+      "step": 112,
+      "train_runtime": 8098.5357,
+      "train_tokens_per_second": 6287.987
+    },
+    {
+      "epoch": 0.13681552038895564,
+      "grad_norm": 0.24989427626132965,
+      "learning_rate": 5e-06,
+      "loss": 1.0656,
+      "num_input_tokens_seen": 51357016,
+      "step": 113,
+      "train_runtime": 8169.1458,
+      "train_tokens_per_second": 6286.706
+    },
+    {
+      "epoch": 0.138026277206557,
+      "grad_norm": 0.2635020911693573,
+      "learning_rate": 5e-06,
+      "loss": 1.103,
+      "num_input_tokens_seen": 51832576,
+      "step": 114,
+      "train_runtime": 8245.3688,
+      "train_tokens_per_second": 6286.265
+    },
+    {
+      "epoch": 0.13923703402415838,
+      "grad_norm": 0.2522059977054596,
+      "learning_rate": 5e-06,
+      "loss": 1.0559,
+      "num_input_tokens_seen": 52261160,
+      "step": 115,
+      "train_runtime": 8314.0019,
+      "train_tokens_per_second": 6285.921
+    },
+    {
+      "epoch": 0.14044779084175976,
+      "grad_norm": 0.275611937046051,
+      "learning_rate": 5e-06,
+      "loss": 1.0655,
+      "num_input_tokens_seen": 52721512,
+      "step": 116,
+      "train_runtime": 8386.8183,
+      "train_tokens_per_second": 6286.235
+    },
+    {
+      "epoch": 0.14165854765936114,
+      "grad_norm": 0.2655342221260071,
+      "learning_rate": 5e-06,
+      "loss": 1.0463,
+      "num_input_tokens_seen": 53178752,
+      "step": 117,
+      "train_runtime": 8459.8957,
+      "train_tokens_per_second": 6285.982
+    },
+    {
+      "epoch": 0.14286930447696253,
+      "grad_norm": 0.24424339830875397,
+      "learning_rate": 5e-06,
+      "loss": 1.0743,
+      "num_input_tokens_seen": 53643504,
+      "step": 118,
+      "train_runtime": 8533.66,
+      "train_tokens_per_second": 6286.108
+    },
+    {
+      "epoch": 0.14408006129456388,
+      "grad_norm": 0.24213866889476776,
+      "learning_rate": 5e-06,
+      "loss": 1.0082,
+      "num_input_tokens_seen": 54096264,
+      "step": 119,
+      "train_runtime": 8606.2721,
+      "train_tokens_per_second": 6285.679
+    },
+    {
+      "epoch": 0.14529081811216527,
+      "grad_norm": 0.24612732231616974,
+      "learning_rate": 5e-06,
+      "loss": 1.0415,
+      "num_input_tokens_seen": 54542376,
+      "step": 120,
+      "train_runtime": 8677.4706,
+      "train_tokens_per_second": 6285.516
+    },
+    {
+      "epoch": 0.14650157492976665,
+      "grad_norm": 0.24935385584831238,
+      "learning_rate": 5e-06,
+      "loss": 1.0735,
+      "num_input_tokens_seen": 54986712,
+      "step": 121,
+      "train_runtime": 8748.1099,
+      "train_tokens_per_second": 6285.553
+    },
+    {
+      "epoch": 0.14771233174736803,
+      "grad_norm": 0.2938326597213745,
+      "learning_rate": 5e-06,
+      "loss": 1.0351,
+      "num_input_tokens_seen": 55448736,
+      "step": 122,
+      "train_runtime": 8822.6975,
+      "train_tokens_per_second": 6284.783
+    },
+    {
+      "epoch": 0.1489230885649694,
+      "grad_norm": 0.24213974177837372,
+      "learning_rate": 5e-06,
+      "loss": 1.0653,
+      "num_input_tokens_seen": 55891176,
+      "step": 123,
+      "train_runtime": 8894.389,
+      "train_tokens_per_second": 6283.869
+    },
+    {
+      "epoch": 0.15013384538257077,
+      "grad_norm": 0.27501124143600464,
+      "learning_rate": 5e-06,
+      "loss": 1.0679,
+      "num_input_tokens_seen": 56307976,
+      "step": 124,
+      "train_runtime": 8961.2502,
+      "train_tokens_per_second": 6283.496
+    },
+    {
+      "epoch": 0.15134460220017215,
+      "grad_norm": 0.2943986654281616,
+      "learning_rate": 5e-06,
+      "loss": 1.0693,
+      "num_input_tokens_seen": 56742320,
+      "step": 125,
+      "train_runtime": 9031.5273,
+      "train_tokens_per_second": 6282.694
+    },
+    {
+      "epoch": 0.15255535901777353,
+      "grad_norm": 0.2623043656349182,
+      "learning_rate": 5e-06,
+      "loss": 1.1028,
+      "num_input_tokens_seen": 57192864,
+      "step": 126,
+      "train_runtime": 9101.7095,
+      "train_tokens_per_second": 6283.75
+    },
+    {
+      "epoch": 0.15376611583537492,
+      "grad_norm": 0.2695028483867645,
+      "learning_rate": 5e-06,
+      "loss": 1.063,
+      "num_input_tokens_seen": 57618472,
+      "step": 127,
+      "train_runtime": 9168.6765,
+      "train_tokens_per_second": 6284.274
+    },
+    {
+      "epoch": 0.1549768726529763,
+      "grad_norm": 0.2590481638908386,
+      "learning_rate": 5e-06,
+      "loss": 1.0145,
+      "num_input_tokens_seen": 58066048,
+      "step": 128,
+      "train_runtime": 9239.0759,
+      "train_tokens_per_second": 6284.833
+    },
+    {
+      "epoch": 0.15618762947057765,
+      "grad_norm": 0.28023761510849,
+      "learning_rate": 5e-06,
+      "loss": 1.0559,
+      "num_input_tokens_seen": 58500528,
+      "step": 129,
+      "train_runtime": 9313.1627,
+      "train_tokens_per_second": 6281.489
+    },
+    {
+      "epoch": 0.15739838628817904,
+      "grad_norm": 0.24649831652641296,
+      "learning_rate": 5e-06,
+      "loss": 1.0134,
+      "num_input_tokens_seen": 58967280,
+      "step": 130,
+      "train_runtime": 9392.9204,
+      "train_tokens_per_second": 6277.843
+    },
+    {
+      "epoch": 0.15860914310578042,
+      "grad_norm": 0.2472827285528183,
+      "learning_rate": 5e-06,
+      "loss": 1.0178,
+      "num_input_tokens_seen": 59412456,
+      "step": 131,
+      "train_runtime": 9468.2871,
+      "train_tokens_per_second": 6274.89
+    },
+    {
+      "epoch": 0.1598198999233818,
+      "grad_norm": 0.2545448839664459,
+      "learning_rate": 5e-06,
+      "loss": 1.0606,
+      "num_input_tokens_seen": 59878688,
+      "step": 132,
+      "train_runtime": 9545.4506,
+      "train_tokens_per_second": 6273.008
+    },
+    {
+      "epoch": 0.16103065674098319,
+      "grad_norm": 0.2501581013202667,
+      "learning_rate": 5e-06,
+      "loss": 1.0483,
+      "num_input_tokens_seen": 60330256,
+      "step": 133,
+      "train_runtime": 9616.5112,
+      "train_tokens_per_second": 6273.612
+    },
+    {
+      "epoch": 0.16224141355858454,
+      "grad_norm": 0.29199784994125366,
+      "learning_rate": 5e-06,
+      "loss": 1.0331,
+      "num_input_tokens_seen": 60784672,
+      "step": 134,
+      "train_runtime": 9687.146,
+      "train_tokens_per_second": 6274.776
+    },
+    {
+      "epoch": 0.16345217037618592,
+      "grad_norm": 0.23874440789222717,
+      "learning_rate": 5e-06,
+      "loss": 1.0224,
+      "num_input_tokens_seen": 61251264,
+      "step": 135,
+      "train_runtime": 9761.2608,
+      "train_tokens_per_second": 6274.934
+    },
+    {
+      "epoch": 0.1646629271937873,
+      "grad_norm": 0.25831273198127747,
+      "learning_rate": 5e-06,
+      "loss": 1.0679,
+      "num_input_tokens_seen": 61709040,
+      "step": 136,
+      "train_runtime": 9835.0216,
+      "train_tokens_per_second": 6274.418
+    },
+    {
+      "epoch": 0.1658736840113887,
+      "grad_norm": 0.25276923179626465,
+      "learning_rate": 5e-06,
+      "loss": 1.0455,
+      "num_input_tokens_seen": 62160304,
+      "step": 137,
+      "train_runtime": 9909.0578,
+      "train_tokens_per_second": 6273.079
+    },
+    {
+      "epoch": 0.16708444082899007,
+      "grad_norm": 0.29279229044914246,
+      "learning_rate": 5e-06,
+      "loss": 1.0555,
+      "num_input_tokens_seen": 62591968,
+      "step": 138,
+      "train_runtime": 9979.8666,
+      "train_tokens_per_second": 6271.824
+    },
+    {
+      "epoch": 0.16829519764659143,
+      "grad_norm": 0.2797205448150635,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 63045184,
+      "step": 139,
+      "train_runtime": 10056.584,
+      "train_tokens_per_second": 6269.046
+    },
+    {
+      "epoch": 0.1695059544641928,
+      "grad_norm": 0.2773694396018982,
+      "learning_rate": 5e-06,
+      "loss": 0.9939,
+      "num_input_tokens_seen": 63504472,
+      "step": 140,
+      "train_runtime": 10134.2006,
+      "train_tokens_per_second": 6266.352
+    },
+    {
+      "epoch": 0.1707167112817942,
+      "grad_norm": 0.22478176653385162,
+      "learning_rate": 5e-06,
+      "loss": 1.0418,
+      "num_input_tokens_seen": 63957288,
+      "step": 141,
+      "train_runtime": 10210.8231,
+      "train_tokens_per_second": 6263.676
+    },
+    {
+      "epoch": 0.17192746809939558,
+      "grad_norm": 0.24870216846466064,
+      "learning_rate": 5e-06,
+      "loss": 1.054,
+      "num_input_tokens_seen": 64428128,
+      "step": 142,
+      "train_runtime": 10288.8907,
+      "train_tokens_per_second": 6261.912
+    },
+    {
+      "epoch": 0.17313822491699696,
+      "grad_norm": 0.22447937726974487,
+      "learning_rate": 5e-06,
+      "loss": 1.0385,
+      "num_input_tokens_seen": 64891424,
+      "step": 143,
+      "train_runtime": 10358.86,
+      "train_tokens_per_second": 6264.34
+    },
+    {
+      "epoch": 0.1743489817345983,
+      "grad_norm": 0.25018176436424255,
+      "learning_rate": 5e-06,
+      "loss": 1.0231,
+      "num_input_tokens_seen": 65354392,
+      "step": 144,
+      "train_runtime": 10428.4387,
+      "train_tokens_per_second": 6266.939
+    },
+    {
+      "epoch": 0.1755597385521997,
+      "grad_norm": 0.2601490914821625,
+      "learning_rate": 5e-06,
+      "loss": 1.0256,
+      "num_input_tokens_seen": 65810304,
+      "step": 145,
+      "train_runtime": 10501.5228,
+      "train_tokens_per_second": 6266.739
+    },
+    {
+      "epoch": 0.17677049536980108,
+      "grad_norm": 0.24077767133712769,
+      "learning_rate": 5e-06,
+      "loss": 1.032,
+      "num_input_tokens_seen": 66289808,
+      "step": 146,
+      "train_runtime": 10580.6955,
+      "train_tokens_per_second": 6265.165
+    },
+    {
+      "epoch": 0.17798125218740246,
+      "grad_norm": 0.2406504601240158,
+      "learning_rate": 5e-06,
+      "loss": 1.0469,
+      "num_input_tokens_seen": 66738720,
+      "step": 147,
+      "train_runtime": 10650.666,
+      "train_tokens_per_second": 6266.155
+    },
+    {
+      "epoch": 0.17919200900500384,
+      "grad_norm": 0.22819995880126953,
+      "learning_rate": 5e-06,
+      "loss": 1.0674,
+      "num_input_tokens_seen": 67205640,
+      "step": 148,
+      "train_runtime": 10723.6866,
+      "train_tokens_per_second": 6267.028
+    },
+    {
+      "epoch": 0.1804027658226052,
+      "grad_norm": 0.2443617284297943,
+      "learning_rate": 5e-06,
+      "loss": 1.0194,
+      "num_input_tokens_seen": 67674720,
+      "step": 149,
+      "train_runtime": 10796.9457,
+      "train_tokens_per_second": 6267.95
+    },
+    {
+      "epoch": 0.18161352264020658,
+      "grad_norm": 0.30922770500183105,
+      "learning_rate": 5e-06,
+      "loss": 1.1078,
+      "num_input_tokens_seen": 68119800,
+      "step": 150,
+      "train_runtime": 10867.1223,
+      "train_tokens_per_second": 6268.43
+    },
+    {
+      "epoch": 0.18282427945780796,
+      "grad_norm": 0.24705801904201508,
+      "learning_rate": 5e-06,
+      "loss": 1.0226,
+      "num_input_tokens_seen": 68569240,
+      "step": 151,
+      "train_runtime": 10937.4488,
+      "train_tokens_per_second": 6269.217
+    },
+    {
+      "epoch": 0.18403503627540935,
+      "grad_norm": 0.2428549975156784,
+      "learning_rate": 5e-06,
+      "loss": 1.0586,
+      "num_input_tokens_seen": 69024352,
+      "step": 152,
+      "train_runtime": 11008.538,
+      "train_tokens_per_second": 6270.074
+    },
+    {
+      "epoch": 0.18524579309301073,
+      "grad_norm": 0.23061682283878326,
+      "learning_rate": 5e-06,
+      "loss": 1.0129,
+      "num_input_tokens_seen": 69487680,
+      "step": 153,
+      "train_runtime": 11081.4546,
+      "train_tokens_per_second": 6270.628
+    },
+    {
+      "epoch": 0.18645654991061208,
+      "grad_norm": 0.2367316484451294,
+      "learning_rate": 5e-06,
+      "loss": 1.0437,
+      "num_input_tokens_seen": 69923312,
+      "step": 154,
+      "train_runtime": 11149.4652,
+      "train_tokens_per_second": 6271.45
+    },
+    {
+      "epoch": 0.18766730672821347,
+      "grad_norm": 0.24783264100551605,
+      "learning_rate": 5e-06,
+      "loss": 1.0682,
+      "num_input_tokens_seen": 70375368,
+      "step": 155,
+      "train_runtime": 11219.9874,
+      "train_tokens_per_second": 6272.321
+    },
+    {
+      "epoch": 0.18887806354581485,
+      "grad_norm": 0.22279201447963715,
+      "learning_rate": 5e-06,
+      "loss": 1.0105,
+      "num_input_tokens_seen": 70836136,
+      "step": 156,
+      "train_runtime": 11292.4524,
+      "train_tokens_per_second": 6272.874
+    },
+    {
+      "epoch": 0.19008882036341623,
+      "grad_norm": 0.22752974927425385,
+      "learning_rate": 5e-06,
+      "loss": 1.008,
+      "num_input_tokens_seen": 71284208,
+      "step": 157,
+      "train_runtime": 11362.5883,
+      "train_tokens_per_second": 6273.589
+    },
+    {
+      "epoch": 0.19129957718101762,
+      "grad_norm": 0.21871839463710785,
+      "learning_rate": 5e-06,
+      "loss": 1.0518,
+      "num_input_tokens_seen": 71773848,
+      "step": 158,
+      "train_runtime": 11438.8409,
+      "train_tokens_per_second": 6274.573
+    },
+    {
+      "epoch": 0.19251033399861897,
+      "grad_norm": 0.23992645740509033,
+      "learning_rate": 5e-06,
+      "loss": 0.9932,
+      "num_input_tokens_seen": 72243136,
+      "step": 159,
+      "train_runtime": 11512.8218,
+      "train_tokens_per_second": 6275.016
+    },
+    {
+      "epoch": 0.19372109081622035,
+      "grad_norm": 0.25232523679733276,
+      "learning_rate": 5e-06,
+      "loss": 1.0152,
+      "num_input_tokens_seen": 72702040,
+      "step": 160,
+      "train_runtime": 11584.5481,
+      "train_tokens_per_second": 6275.777
+    },
+    {
+      "epoch": 0.19493184763382174,
+      "grad_norm": 0.2552812695503235,
+      "learning_rate": 5e-06,
+      "loss": 1.0435,
+      "num_input_tokens_seen": 73152944,
+      "step": 161,
+      "train_runtime": 11655.4728,
+      "train_tokens_per_second": 6276.274
+    },
+    {
+      "epoch": 0.19614260445142312,
+      "grad_norm": 0.24950732290744781,
+      "learning_rate": 5e-06,
+      "loss": 1.0205,
+      "num_input_tokens_seen": 73622448,
+      "step": 162,
+      "train_runtime": 11728.7466,
+      "train_tokens_per_second": 6277.094
+    },
+    {
+      "epoch": 0.1973533612690245,
+      "grad_norm": 0.23558129370212555,
+      "learning_rate": 5e-06,
+      "loss": 1.0464,
+      "num_input_tokens_seen": 74070512,
+      "step": 163,
+      "train_runtime": 11798.7407,
+      "train_tokens_per_second": 6277.832
+    },
+    {
+      "epoch": 0.19856411808662586,
+      "grad_norm": 0.2387412041425705,
+      "learning_rate": 5e-06,
+      "loss": 1.0509,
+      "num_input_tokens_seen": 74523176,
+      "step": 164,
+      "train_runtime": 11869.5779,
+      "train_tokens_per_second": 6278.503
+    },
+    {
+      "epoch": 0.19977487490422724,
+      "grad_norm": 0.2554919421672821,
+      "learning_rate": 5e-06,
+      "loss": 1.0716,
+      "num_input_tokens_seen": 74985568,
+      "step": 165,
+      "train_runtime": 11942.0706,
+      "train_tokens_per_second": 6279.109
+    },
+    {
+      "epoch": 0.20098563172182862,
+      "grad_norm": 0.24104657769203186,
+      "learning_rate": 5e-06,
+      "loss": 1.0549,
+      "num_input_tokens_seen": 75436832,
+      "step": 166,
+      "train_runtime": 12012.5743,
+      "train_tokens_per_second": 6279.822
+    },
+    {
+      "epoch": 0.20219638853943,
+      "grad_norm": 0.2571240961551666,
+      "learning_rate": 5e-06,
+      "loss": 1.0771,
+      "num_input_tokens_seen": 75895608,
+      "step": 167,
+      "train_runtime": 12084.2953,
+      "train_tokens_per_second": 6280.516
+    },
+    {
+      "epoch": 0.2034071453570314,
+      "grad_norm": 0.2907203733921051,
+      "learning_rate": 5e-06,
+      "loss": 1.0271,
+      "num_input_tokens_seen": 76343416,
+      "step": 168,
+      "train_runtime": 12154.2802,
+      "train_tokens_per_second": 6281.196
+    },
+    {
+      "epoch": 0.20461790217463274,
+      "grad_norm": 0.2559382915496826,
+      "learning_rate": 5e-06,
+      "loss": 1.0148,
+      "num_input_tokens_seen": 76810064,
+      "step": 169,
+      "train_runtime": 12226.7946,
+      "train_tokens_per_second": 6282.11
+    },
+    {
+      "epoch": 0.20582865899223413,
+      "grad_norm": 0.26620903611183167,
+      "learning_rate": 5e-06,
+      "loss": 1.0857,
+      "num_input_tokens_seen": 77255168,
+      "step": 170,
+      "train_runtime": 12296.1273,
+      "train_tokens_per_second": 6282.886
+    },
+    {
+      "epoch": 0.2070394158098355,
+      "grad_norm": 0.2579341530799866,
+      "learning_rate": 5e-06,
+      "loss": 1.0163,
+      "num_input_tokens_seen": 77712312,
+      "step": 171,
+      "train_runtime": 12367.9858,
+      "train_tokens_per_second": 6283.344
+    },
+    {
+      "epoch": 0.2082501726274369,
+      "grad_norm": 0.2516046166419983,
+      "learning_rate": 5e-06,
+      "loss": 1.0318,
+      "num_input_tokens_seen": 78158176,
+      "step": 172,
+      "train_runtime": 12437.6935,
+      "train_tokens_per_second": 6283.977
+    },
+    {
+      "epoch": 0.20946092944503827,
+      "grad_norm": 0.26422518491744995,
+      "learning_rate": 5e-06,
+      "loss": 1.0003,
+      "num_input_tokens_seen": 78631984,
+      "step": 173,
+      "train_runtime": 12512.0888,
+      "train_tokens_per_second": 6284.481
+    },
+    {
+      "epoch": 0.21067168626263963,
+      "grad_norm": 0.2679826617240906,
+      "learning_rate": 5e-06,
+      "loss": 1.01,
+      "num_input_tokens_seen": 79092368,
+      "step": 174,
+      "train_runtime": 12584.1353,
+      "train_tokens_per_second": 6285.086
+    },
+    {
+      "epoch": 0.211882443080241,
+      "grad_norm": 0.23957136273384094,
+      "learning_rate": 5e-06,
+      "loss": 1.0359,
+      "num_input_tokens_seen": 79562144,
+      "step": 175,
+      "train_runtime": 12657.2444,
+      "train_tokens_per_second": 6285.898
+    },
+    {
+      "epoch": 0.2130931998978424,
+      "grad_norm": 0.2504132091999054,
+      "learning_rate": 5e-06,
+      "loss": 1.0057,
+      "num_input_tokens_seen": 79997152,
+      "step": 176,
+      "train_runtime": 12725.4596,
+      "train_tokens_per_second": 6286.386
+    },
+    {
+      "epoch": 0.21430395671544378,
+      "grad_norm": 0.24493563175201416,
+      "learning_rate": 5e-06,
+      "loss": 1.0224,
+      "num_input_tokens_seen": 80452312,
+      "step": 177,
+      "train_runtime": 12796.7177,
+      "train_tokens_per_second": 6286.949
+    },
+    {
+      "epoch": 0.21551471353304516,
+      "grad_norm": 0.24307624995708466,
+      "learning_rate": 5e-06,
+      "loss": 1.0201,
+      "num_input_tokens_seen": 80895192,
+      "step": 178,
+      "train_runtime": 12866.1831,
+      "train_tokens_per_second": 6287.427
+    },
+    {
+      "epoch": 0.21672547035064652,
+      "grad_norm": 0.22720018029212952,
+      "learning_rate": 5e-06,
+      "loss": 0.9935,
+      "num_input_tokens_seen": 81373192,
+      "step": 179,
+      "train_runtime": 12941.1713,
+      "train_tokens_per_second": 6287.931
+    },
+    {
+      "epoch": 0.2179362271682479,
+      "grad_norm": 0.24937334656715393,
+      "learning_rate": 5e-06,
+      "loss": 0.9786,
+      "num_input_tokens_seen": 81840648,
+      "step": 180,
+      "train_runtime": 13013.8198,
+      "train_tokens_per_second": 6288.749
+    },
+    {
+      "epoch": 0.21914698398584928,
+      "grad_norm": 0.2576950490474701,
+      "learning_rate": 5e-06,
+      "loss": 1.0603,
+      "num_input_tokens_seen": 82297504,
+      "step": 181,
+      "train_runtime": 13084.9624,
+      "train_tokens_per_second": 6289.472
+    },
+    {
+      "epoch": 0.22035774080345066,
+      "grad_norm": 0.2821928560733795,
+      "learning_rate": 5e-06,
+      "loss": 1.0463,
+      "num_input_tokens_seen": 82729496,
+      "step": 182,
+      "train_runtime": 13152.2778,
+      "train_tokens_per_second": 6290.127
+    },
+    {
+      "epoch": 0.22156849762105205,
+      "grad_norm": 0.2612816095352173,
+      "learning_rate": 5e-06,
+      "loss": 0.9959,
+      "num_input_tokens_seen": 83169848,
+      "step": 183,
+      "train_runtime": 13221.1044,
+      "train_tokens_per_second": 6290.688
+    },
+    {
+      "epoch": 0.2227792544386534,
+      "grad_norm": 0.24119819700717926,
+      "learning_rate": 5e-06,
+      "loss": 1.0453,
+      "num_input_tokens_seen": 83621816,
+      "step": 184,
+      "train_runtime": 13291.5963,
+      "train_tokens_per_second": 6291.33
+    },
+    {
+      "epoch": 0.22399001125625478,
+      "grad_norm": 0.2350812554359436,
+      "learning_rate": 5e-06,
+      "loss": 1.0488,
+      "num_input_tokens_seen": 84093008,
+      "step": 185,
+      "train_runtime": 13365.1515,
+      "train_tokens_per_second": 6291.961
+    },
+    {
+      "epoch": 0.22520076807385617,
+      "grad_norm": 0.23204365372657776,
+      "learning_rate": 5e-06,
+      "loss": 1.0438,
+      "num_input_tokens_seen": 84548848,
+      "step": 186,
+      "train_runtime": 13436.6704,
+      "train_tokens_per_second": 6292.396
+    },
+    {
+      "epoch": 0.22641152489145755,
+      "grad_norm": 0.21973128616809845,
+      "learning_rate": 5e-06,
+      "loss": 1.0221,
+      "num_input_tokens_seen": 85006432,
+      "step": 187,
+      "train_runtime": 13508.1616,
+      "train_tokens_per_second": 6292.968
+    },
+    {
+      "epoch": 0.22762228170905893,
+      "grad_norm": 0.22889819741249084,
+      "learning_rate": 5e-06,
+      "loss": 1.0409,
+      "num_input_tokens_seen": 85473544,
+      "step": 188,
+      "train_runtime": 13580.8488,
+      "train_tokens_per_second": 6293.682
+    },
+    {
+      "epoch": 0.2288330385266603,
+      "grad_norm": 0.22178350389003754,
+      "learning_rate": 5e-06,
+      "loss": 0.9972,
+      "num_input_tokens_seen": 85935408,
+      "step": 189,
+      "train_runtime": 13653.0892,
+      "train_tokens_per_second": 6294.21
+    },
+    {
+      "epoch": 0.23004379534426167,
+      "grad_norm": 0.22922936081886292,
+      "learning_rate": 5e-06,
+      "loss": 1.1049,
+      "num_input_tokens_seen": 86403776,
+      "step": 190,
+      "train_runtime": 13726.5237,
+      "train_tokens_per_second": 6294.658
+    },
+    {
+      "epoch": 0.23125455216186305,
+      "grad_norm": 0.24582232534885406,
+      "learning_rate": 5e-06,
+      "loss": 1.0694,
+      "num_input_tokens_seen": 86866200,
+      "step": 191,
+      "train_runtime": 13799.1133,
+      "train_tokens_per_second": 6295.057
+    },
+    {
+      "epoch": 0.23246530897946444,
+      "grad_norm": 0.24143490195274353,
+      "learning_rate": 5e-06,
+      "loss": 1.0036,
+      "num_input_tokens_seen": 87327440,
+      "step": 192,
+      "train_runtime": 13871.561,
+      "train_tokens_per_second": 6295.43
+    },
+    {
+      "epoch": 0.23367606579706582,
+      "grad_norm": 0.2200412005186081,
+      "learning_rate": 5e-06,
+      "loss": 1.0321,
+      "num_input_tokens_seen": 87788752,
+      "step": 193,
+      "train_runtime": 13943.4418,
+      "train_tokens_per_second": 6296.06
+    },
+    {
+      "epoch": 0.23488682261466717,
+      "grad_norm": 0.24762044847011566,
+      "learning_rate": 5e-06,
+      "loss": 1.0363,
+      "num_input_tokens_seen": 88219736,
+      "step": 194,
+      "train_runtime": 14010.4722,
+      "train_tokens_per_second": 6296.7
+    },
+    {
+      "epoch": 0.23609757943226856,
+      "grad_norm": 0.23594461381435394,
+      "learning_rate": 5e-06,
+      "loss": 1.0704,
+      "num_input_tokens_seen": 88680528,
+      "step": 195,
+      "train_runtime": 14082.4487,
+      "train_tokens_per_second": 6297.238
+    },
+    {
+      "epoch": 0.23730833624986994,
+      "grad_norm": 0.24670927226543427,
+      "learning_rate": 5e-06,
+      "loss": 1.0181,
+      "num_input_tokens_seen": 89139152,
+      "step": 196,
+      "train_runtime": 14154.1641,
+      "train_tokens_per_second": 6297.733
+    },
+    {
+      "epoch": 0.23851909306747132,
+      "grad_norm": 0.2432672679424286,
+      "learning_rate": 5e-06,
+      "loss": 0.9717,
+      "num_input_tokens_seen": 89603368,
+      "step": 197,
+      "train_runtime": 14226.3618,
+      "train_tokens_per_second": 6298.404
+    },
+    {
+      "epoch": 0.2397298498850727,
+      "grad_norm": 0.2482805699110031,
+      "learning_rate": 5e-06,
+      "loss": 0.9996,
+      "num_input_tokens_seen": 90053800,
+      "step": 198,
+      "train_runtime": 14296.6962,
+      "train_tokens_per_second": 6298.924
+    },
+    {
+      "epoch": 0.24094060670267406,
+      "grad_norm": 0.2421431541442871,
+      "learning_rate": 5e-06,
+      "loss": 0.9607,
+      "num_input_tokens_seen": 90508144,
+      "step": 199,
+      "train_runtime": 14368.0885,
+      "train_tokens_per_second": 6299.247
+    },
+    {
+      "epoch": 0.24215136352027544,
+      "grad_norm": 0.21828782558441162,
+      "learning_rate": 5e-06,
+      "loss": 0.9602,
+      "num_input_tokens_seen": 90981216,
+      "step": 200,
+      "train_runtime": 14442.2784,
+      "train_tokens_per_second": 6299.644
+    },
+    {
+      "epoch": 0.24336212033787682,
+      "grad_norm": 0.25093552470207214,
+      "learning_rate": 5e-06,
+      "loss": 1.0223,
+      "num_input_tokens_seen": 91405344,
+      "step": 201,
+      "train_runtime": 14508.6653,
+      "train_tokens_per_second": 6300.052
+    },
+    {
+      "epoch": 0.2445728771554782,
+      "grad_norm": 0.2346261888742447,
+      "learning_rate": 5e-06,
+      "loss": 1.0457,
+      "num_input_tokens_seen": 91867920,
+      "step": 202,
+      "train_runtime": 14581.2729,
+      "train_tokens_per_second": 6300.405
+    },
+    {
+      "epoch": 0.2457836339730796,
+      "grad_norm": 0.2555064260959625,
+      "learning_rate": 5e-06,
+      "loss": 1.0239,
+      "num_input_tokens_seen": 92332376,
+      "step": 203,
+      "train_runtime": 14654.0594,
+      "train_tokens_per_second": 6300.805
+    },
+    {
+      "epoch": 0.24699439079068095,
+      "grad_norm": 0.24753707647323608,
+      "learning_rate": 5e-06,
+      "loss": 1.0078,
+      "num_input_tokens_seen": 92798256,
+      "step": 204,
+      "train_runtime": 14727.0741,
+      "train_tokens_per_second": 6301.201
+    },
+    {
+      "epoch": 0.24820514760828233,
+      "grad_norm": 0.22091752290725708,
+      "learning_rate": 5e-06,
+      "loss": 0.9881,
+      "num_input_tokens_seen": 93260920,
+      "step": 205,
+      "train_runtime": 14799.4511,
+      "train_tokens_per_second": 6301.647
+    },
+    {
+      "epoch": 0.2494159044258837,
+      "grad_norm": 0.23978286981582642,
+      "learning_rate": 5e-06,
+      "loss": 1.0102,
+      "num_input_tokens_seen": 93719680,
+      "step": 206,
+      "train_runtime": 14871.4509,
+      "train_tokens_per_second": 6301.986
+    },
+    {
+      "epoch": 0.2506266612434851,
+      "grad_norm": 0.2572280466556549,
+      "learning_rate": 5e-06,
+      "loss": 0.9997,
+      "num_input_tokens_seen": 94167864,
+      "step": 207,
+      "train_runtime": 14941.2387,
+      "train_tokens_per_second": 6302.547
+    },
+    {
+      "epoch": 0.25183741806108645,
+      "grad_norm": 0.22775068879127502,
+      "learning_rate": 5e-06,
+      "loss": 0.9997,
+      "num_input_tokens_seen": 94629576,
+      "step": 208,
+      "train_runtime": 15013.5212,
+      "train_tokens_per_second": 6302.957
+    },
+    {
+      "epoch": 0.25304817487868786,
+      "grad_norm": 0.24101892113685608,
+      "learning_rate": 5e-06,
+      "loss": 1.0547,
+      "num_input_tokens_seen": 95088576,
+      "step": 209,
+      "train_runtime": 15085.7957,
+      "train_tokens_per_second": 6303.186
+    },
+    {
+      "epoch": 0.2542589316962892,
+      "grad_norm": 0.23462055623531342,
+      "learning_rate": 5e-06,
+      "loss": 1.0055,
+      "num_input_tokens_seen": 95528848,
+      "step": 210,
+      "train_runtime": 15154.3744,
+      "train_tokens_per_second": 6303.714
+    },
+    {
+      "epoch": 0.25546968851389057,
+      "grad_norm": 0.21969425678253174,
+      "learning_rate": 5e-06,
+      "loss": 1.0179,
+      "num_input_tokens_seen": 96012504,
+      "step": 211,
+      "train_runtime": 15229.6926,
+      "train_tokens_per_second": 6304.297
+    },
+    {
+      "epoch": 0.256680445331492,
+      "grad_norm": 0.2324143946170807,
+      "learning_rate": 5e-06,
+      "loss": 1.0263,
+      "num_input_tokens_seen": 96478288,
+      "step": 212,
+      "train_runtime": 15302.7525,
+      "train_tokens_per_second": 6304.636
+    },
+    {
+      "epoch": 0.25789120214909333,
+      "grad_norm": 0.2410186231136322,
+      "learning_rate": 5e-06,
+      "loss": 1.0705,
+      "num_input_tokens_seen": 96927768,
+      "step": 213,
+      "train_runtime": 15372.6647,
+      "train_tokens_per_second": 6305.203
+    },
+    {
+      "epoch": 0.25910195896669475,
+      "grad_norm": 0.2557809352874756,
+      "learning_rate": 5e-06,
+      "loss": 1.0136,
+      "num_input_tokens_seen": 97369112,
+      "step": 214,
+      "train_runtime": 15441.8864,
+      "train_tokens_per_second": 6305.519
+    },
+    {
+      "epoch": 0.2603127157842961,
+      "grad_norm": 0.22955191135406494,
+      "learning_rate": 5e-06,
+      "loss": 0.9885,
+      "num_input_tokens_seen": 97837320,
+      "step": 215,
+      "train_runtime": 15515.0556,
+      "train_tokens_per_second": 6305.96
+    },
+    {
+      "epoch": 0.26152347260189746,
+      "grad_norm": 0.23326116800308228,
+      "learning_rate": 5e-06,
+      "loss": 1.0407,
+      "num_input_tokens_seen": 98273464,
+      "step": 216,
+      "train_runtime": 15582.8966,
+      "train_tokens_per_second": 6306.495
+    },
+    {
+      "epoch": 0.26273422941949887,
+      "grad_norm": 0.2623524069786072,
+      "learning_rate": 5e-06,
+      "loss": 0.9967,
+      "num_input_tokens_seen": 98734576,
+      "step": 217,
+      "train_runtime": 15654.599,
+      "train_tokens_per_second": 6307.065
+    },
+    {
+      "epoch": 0.2639449862371002,
+      "grad_norm": 0.2236497849225998,
+      "learning_rate": 5e-06,
+      "loss": 0.9819,
+      "num_input_tokens_seen": 99183248,
+      "step": 218,
+      "train_runtime": 15724.0156,
+      "train_tokens_per_second": 6307.756
+    },
+    {
+      "epoch": 0.26515574305470163,
+      "grad_norm": 0.2309817373752594,
+      "learning_rate": 5e-06,
+      "loss": 1.0123,
+      "num_input_tokens_seen": 99655480,
+      "step": 219,
+      "train_runtime": 15797.6975,
+      "train_tokens_per_second": 6308.228
+    },
+    {
+      "epoch": 0.266366499872303,
+      "grad_norm": 0.22036534547805786,
+      "learning_rate": 5e-06,
+      "loss": 1.0621,
+      "num_input_tokens_seen": 100126896,
+      "step": 220,
+      "train_runtime": 15875.4973,
+      "train_tokens_per_second": 6307.008
+    },
+    {
+      "epoch": 0.26757725668990434,
+      "grad_norm": 0.24294357001781464,
+      "learning_rate": 5e-06,
+      "loss": 1.0296,
+      "num_input_tokens_seen": 100585544,
+      "step": 221,
+      "train_runtime": 15948.2329,
+      "train_tokens_per_second": 6307.002
+    },
+    {
+      "epoch": 0.26878801350750575,
+      "grad_norm": 0.2395816445350647,
+      "learning_rate": 5e-06,
+      "loss": 1.0843,
+      "num_input_tokens_seen": 101027704,
+      "step": 222,
+      "train_runtime": 16017.0188,
+      "train_tokens_per_second": 6307.522
+    },
+    {
+      "epoch": 0.2699987703251071,
+      "grad_norm": 0.23171593248844147,
+      "learning_rate": 5e-06,
+      "loss": 1.0259,
+      "num_input_tokens_seen": 101494896,
+      "step": 223,
+      "train_runtime": 16089.9686,
+      "train_tokens_per_second": 6307.961
+    },
+    {
+      "epoch": 0.2712095271427085,
+      "grad_norm": 0.23881399631500244,
+      "learning_rate": 5e-06,
+      "loss": 1.0312,
+      "num_input_tokens_seen": 101945248,
+      "step": 224,
+      "train_runtime": 16161.1769,
+      "train_tokens_per_second": 6308.034
+    },
+    {
+      "epoch": 0.2724202839603099,
+      "grad_norm": 0.23741568624973297,
+      "learning_rate": 5e-06,
+      "loss": 1.0388,
+      "num_input_tokens_seen": 102381600,
+      "step": 225,
+      "train_runtime": 16233.0137,
+      "train_tokens_per_second": 6306.999
+    },
+    {
+      "epoch": 0.2736310407779113,
+      "grad_norm": 0.2587156295776367,
+      "learning_rate": 5e-06,
+      "loss": 1.053,
+      "num_input_tokens_seen": 102853016,
+      "step": 226,
+      "train_runtime": 16310.47,
+      "train_tokens_per_second": 6305.95
+    },
+    {
+      "epoch": 0.27484179759551264,
+      "grad_norm": 0.25893622636795044,
+      "learning_rate": 5e-06,
+      "loss": 1.0546,
+      "num_input_tokens_seen": 103292264,
+      "step": 227,
+      "train_runtime": 16382.2499,
+      "train_tokens_per_second": 6305.133
+    },
+    {
+      "epoch": 0.276052554413114,
+      "grad_norm": 0.235712468624115,
+      "learning_rate": 5e-06,
+      "loss": 1.0638,
+      "num_input_tokens_seen": 103744464,
+      "step": 228,
+      "train_runtime": 16455.8156,
+      "train_tokens_per_second": 6304.426
+    },
+    {
+      "epoch": 0.2772633112307154,
+      "grad_norm": 0.2683420181274414,
+      "learning_rate": 5e-06,
+      "loss": 1.0731,
+      "num_input_tokens_seen": 104191136,
+      "step": 229,
+      "train_runtime": 16528.5498,
+      "train_tokens_per_second": 6303.707
+    },
+    {
+      "epoch": 0.27847406804831676,
+      "grad_norm": 0.22673234343528748,
+      "learning_rate": 5e-06,
+      "loss": 0.996,
+      "num_input_tokens_seen": 104663120,
+      "step": 230,
+      "train_runtime": 16605.3871,
+      "train_tokens_per_second": 6302.962
+    },
+    {
+      "epoch": 0.27968482486591817,
+      "grad_norm": 0.2398988902568817,
+      "learning_rate": 5e-06,
+      "loss": 1.0543,
+      "num_input_tokens_seen": 105118544,
+      "step": 231,
+      "train_runtime": 16679.8469,
+      "train_tokens_per_second": 6302.129
+    },
+    {
+      "epoch": 0.2808955816835195,
+      "grad_norm": 0.2677454948425293,
+      "learning_rate": 5e-06,
+      "loss": 1.0094,
+      "num_input_tokens_seen": 105588584,
+      "step": 232,
+      "train_runtime": 16756.2821,
+      "train_tokens_per_second": 6301.433
+    },
+    {
+      "epoch": 0.2821063385011209,
+      "grad_norm": 0.2396971434354782,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 106052280,
+      "step": 233,
+      "train_runtime": 16831.9341,
+      "train_tokens_per_second": 6300.659
+    },
+    {
+      "epoch": 0.2833170953187223,
+      "grad_norm": 0.2204187661409378,
+      "learning_rate": 5e-06,
+      "loss": 0.9871,
+      "num_input_tokens_seen": 106493280,
+      "step": 234,
+      "train_runtime": 16903.9239,
+      "train_tokens_per_second": 6299.915
+    },
+    {
+      "epoch": 0.28452785213632364,
+      "grad_norm": 0.2463349997997284,
+      "learning_rate": 5e-06,
+      "loss": 0.9915,
+      "num_input_tokens_seen": 106971464,
+      "step": 235,
+      "train_runtime": 16982.022,
+      "train_tokens_per_second": 6299.101
+    },
+    {
+      "epoch": 0.28573860895392506,
+      "grad_norm": 0.22036071121692657,
+      "learning_rate": 5e-06,
+      "loss": 0.9812,
+      "num_input_tokens_seen": 107447560,
+      "step": 236,
+      "train_runtime": 17059.9653,
+      "train_tokens_per_second": 6298.229
+    },
+    {
+      "epoch": 0.2869493657715264,
+      "grad_norm": 0.2353561669588089,
+      "learning_rate": 5e-06,
+      "loss": 0.9932,
+      "num_input_tokens_seen": 107889344,
+      "step": 237,
+      "train_runtime": 17132.2103,
+      "train_tokens_per_second": 6297.456
+    },
+    {
+      "epoch": 0.28816012258912777,
+      "grad_norm": 0.23488640785217285,
+      "learning_rate": 5e-06,
+      "loss": 1.0296,
+      "num_input_tokens_seen": 108347712,
+      "step": 238,
+      "train_runtime": 17206.8913,
+      "train_tokens_per_second": 6296.763
+    },
+    {
+      "epoch": 0.2893708794067292,
+      "grad_norm": 0.23872198164463043,
+      "learning_rate": 5e-06,
+      "loss": 1.0054,
+      "num_input_tokens_seen": 108790344,
+      "step": 239,
+      "train_runtime": 17277.6892,
+      "train_tokens_per_second": 6296.58
+    },
+    {
+      "epoch": 0.29058163622433053,
+      "grad_norm": 0.2371063083410263,
+      "learning_rate": 5e-06,
+      "loss": 1.009,
+      "num_input_tokens_seen": 109245808,
+      "step": 240,
+      "train_runtime": 17344.4981,
+      "train_tokens_per_second": 6298.586
+    },
+    {
+      "epoch": 0.29179239304193194,
+      "grad_norm": 0.2168145626783371,
+      "learning_rate": 5e-06,
+      "loss": 0.9897,
+      "num_input_tokens_seen": 109708688,
+      "step": 241,
+      "train_runtime": 17412.6292,
+      "train_tokens_per_second": 6300.524
+    },
+    {
+      "epoch": 0.2930031498595333,
+      "grad_norm": 0.230647012591362,
+      "learning_rate": 5e-06,
+      "loss": 1.0172,
+      "num_input_tokens_seen": 110166104,
+      "step": 242,
+      "train_runtime": 17480.5962,
+      "train_tokens_per_second": 6302.194
+    },
+    {
+      "epoch": 0.29421390667713465,
+      "grad_norm": 0.2462947964668274,
+      "learning_rate": 5e-06,
+      "loss": 1.0429,
+      "num_input_tokens_seen": 110603016,
+      "step": 243,
+      "train_runtime": 17550.9466,
+      "train_tokens_per_second": 6301.826
+    },
+    {
+      "epoch": 0.29542466349473606,
+      "grad_norm": 0.2439439445734024,
+      "learning_rate": 5e-06,
+      "loss": 0.9871,
+      "num_input_tokens_seen": 111038080,
+      "step": 244,
+      "train_runtime": 17621.5292,
+      "train_tokens_per_second": 6301.274
+    },
+    {
+      "epoch": 0.2966354203123374,
+      "grad_norm": 0.24288234114646912,
+      "learning_rate": 5e-06,
+      "loss": 1.0544,
+      "num_input_tokens_seen": 111474408,
+      "step": 245,
+      "train_runtime": 17694.1217,
+      "train_tokens_per_second": 6300.081
+    },
+    {
+      "epoch": 0.2978461771299388,
+      "grad_norm": 0.2557252049446106,
+      "learning_rate": 5e-06,
+      "loss": 1.0276,
+      "num_input_tokens_seen": 111923176,
+      "step": 246,
+      "train_runtime": 17768.7153,
+      "train_tokens_per_second": 6298.89
+    },
+    {
+      "epoch": 0.2990569339475402,
+      "grad_norm": 0.25596141815185547,
+      "learning_rate": 5e-06,
+      "loss": 0.9989,
+      "num_input_tokens_seen": 112397080,
+      "step": 247,
+      "train_runtime": 17850.0516,
+      "train_tokens_per_second": 6296.737
+    },
+    {
+      "epoch": 0.30026769076514154,
+      "grad_norm": 0.21673010289669037,
+      "learning_rate": 5e-06,
+      "loss": 0.9963,
+      "num_input_tokens_seen": 112862520,
+      "step": 248,
+      "train_runtime": 17937.4215,
+      "train_tokens_per_second": 6292.015
+    },
+    {
+      "epoch": 0.30147844758274295,
+      "grad_norm": 0.26896172761917114,
+      "learning_rate": 5e-06,
+      "loss": 1.0335,
+      "num_input_tokens_seen": 113290872,
+      "step": 249,
+      "train_runtime": 18018.1765,
+      "train_tokens_per_second": 6287.588
+    },
+    {
+      "epoch": 0.3026892044003443,
+      "grad_norm": 0.2385682761669159,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 113759016,
+      "step": 250,
+      "train_runtime": 18107.0103,
+      "train_tokens_per_second": 6282.595
+    },
+    {
+      "epoch": 0.3038999612179457,
+      "grad_norm": 0.22848090529441833,
+      "learning_rate": 5e-06,
+      "loss": 0.9864,
+      "num_input_tokens_seen": 114208944,
+      "step": 251,
+      "train_runtime": 18191.4232,
+      "train_tokens_per_second": 6278.175
+    },
+    {
+      "epoch": 0.30511071803554707,
+      "grad_norm": 0.23898521065711975,
+      "learning_rate": 5e-06,
+      "loss": 0.9731,
+      "num_input_tokens_seen": 114673264,
+      "step": 252,
+      "train_runtime": 18278.8132,
+      "train_tokens_per_second": 6273.562
+    },
+    {
+      "epoch": 0.3063214748531484,
+      "grad_norm": 0.23195713758468628,
+      "learning_rate": 5e-06,
+      "loss": 1.0309,
+      "num_input_tokens_seen": 115123744,
+      "step": 253,
+      "train_runtime": 18364.6246,
+      "train_tokens_per_second": 6268.777
+    },
+    {
+      "epoch": 0.30753223167074983,
+      "grad_norm": 0.257159948348999,
+      "learning_rate": 5e-06,
+      "loss": 1.0214,
+      "num_input_tokens_seen": 115555688,
+      "step": 254,
+      "train_runtime": 18445.2087,
+      "train_tokens_per_second": 6264.808
+    },
+    {
+      "epoch": 0.3087429884883512,
+      "grad_norm": 0.2846441864967346,
+      "learning_rate": 5e-06,
+      "loss": 0.9902,
+      "num_input_tokens_seen": 116006248,
+      "step": 255,
+      "train_runtime": 18529.8186,
+      "train_tokens_per_second": 6260.517
+    },
+    {
+      "epoch": 0.3099537453059526,
+      "grad_norm": 0.21537640690803528,
+      "learning_rate": 5e-06,
+      "loss": 0.9767,
+      "num_input_tokens_seen": 116464472,
+      "step": 256,
+      "train_runtime": 18601.195,
+      "train_tokens_per_second": 6261.128
+    },
+    {
+      "epoch": 0.31116450212355395,
+      "grad_norm": 0.2560320496559143,
+      "learning_rate": 5e-06,
+      "loss": 1.0474,
+      "num_input_tokens_seen": 116881080,
+      "step": 257,
+      "train_runtime": 18665.8155,
+      "train_tokens_per_second": 6261.772
+    },
+    {
+      "epoch": 0.3123752589411553,
+      "grad_norm": 0.23951588571071625,
+      "learning_rate": 5e-06,
+      "loss": 1.0078,
+      "num_input_tokens_seen": 117334528,
+      "step": 258,
+      "train_runtime": 18736.5275,
+      "train_tokens_per_second": 6262.341
+    },
+    {
+      "epoch": 0.3135860157587567,
+      "grad_norm": 0.233546182513237,
+      "learning_rate": 5e-06,
+      "loss": 1.0615,
+      "num_input_tokens_seen": 117794752,
+      "step": 259,
+      "train_runtime": 18808.0733,
+      "train_tokens_per_second": 6262.989
+    },
+    {
+      "epoch": 0.3147967725763581,
+      "grad_norm": 0.21725581586360931,
+      "learning_rate": 5e-06,
+      "loss": 0.9617,
+      "num_input_tokens_seen": 118273288,
+      "step": 260,
+      "train_runtime": 18883.1278,
+      "train_tokens_per_second": 6263.437
+    },
+    {
+      "epoch": 0.3160075293939595,
+      "grad_norm": 0.2287113070487976,
+      "learning_rate": 5e-06,
+      "loss": 0.9977,
+      "num_input_tokens_seen": 118730128,
+      "step": 261,
+      "train_runtime": 18954.4265,
+      "train_tokens_per_second": 6263.979
+    },
+    {
+      "epoch": 0.31721828621156084,
+      "grad_norm": 0.2280893474817276,
+      "learning_rate": 5e-06,
+      "loss": 1.0171,
+      "num_input_tokens_seen": 119186808,
+      "step": 262,
+      "train_runtime": 19025.8236,
+      "train_tokens_per_second": 6264.476
+    },
+    {
+      "epoch": 0.3184290430291622,
+      "grad_norm": 0.2364167869091034,
+      "learning_rate": 5e-06,
+      "loss": 1.0681,
+      "num_input_tokens_seen": 119627160,
+      "step": 263,
+      "train_runtime": 19094.4088,
+      "train_tokens_per_second": 6265.036
+    },
+    {
+      "epoch": 0.3196397998467636,
+      "grad_norm": 0.2416498214006424,
+      "learning_rate": 5e-06,
+      "loss": 1.0912,
+      "num_input_tokens_seen": 120077824,
+      "step": 264,
+      "train_runtime": 19164.669,
+      "train_tokens_per_second": 6265.583
+    },
+    {
+      "epoch": 0.32085055666436496,
+      "grad_norm": 0.23011499643325806,
+      "learning_rate": 5e-06,
+      "loss": 1.034,
+      "num_input_tokens_seen": 120521112,
+      "step": 265,
+      "train_runtime": 19233.6771,
+      "train_tokens_per_second": 6266.15
+    },
+    {
+      "epoch": 0.32206131348196637,
+      "grad_norm": 0.2434847503900528,
+      "learning_rate": 5e-06,
+      "loss": 1.0225,
+      "num_input_tokens_seen": 120972064,
+      "step": 266,
+      "train_runtime": 19304.0456,
+      "train_tokens_per_second": 6266.669
+    },
+    {
+      "epoch": 0.3232720702995677,
+      "grad_norm": 0.2501772344112396,
+      "learning_rate": 5e-06,
+      "loss": 1.0575,
+      "num_input_tokens_seen": 121426920,
+      "step": 267,
+      "train_runtime": 19374.5798,
+      "train_tokens_per_second": 6267.332
+    },
+    {
+      "epoch": 0.3244828271171691,
+      "grad_norm": 0.2651502788066864,
+      "learning_rate": 5e-06,
+      "loss": 1.0499,
+      "num_input_tokens_seen": 121873184,
+      "step": 268,
+      "train_runtime": 19443.9026,
+      "train_tokens_per_second": 6267.938
+    },
+    {
+      "epoch": 0.3256935839347705,
+      "grad_norm": 0.2908613979816437,
+      "learning_rate": 5e-06,
+      "loss": 1.0486,
+      "num_input_tokens_seen": 122327152,
+      "step": 269,
+      "train_runtime": 19516.72,
+      "train_tokens_per_second": 6267.813
+    },
+    {
+      "epoch": 0.32690434075237185,
+      "grad_norm": 0.23566846549510956,
+      "learning_rate": 5e-06,
+      "loss": 1.017,
+      "num_input_tokens_seen": 122784960,
+      "step": 270,
+      "train_runtime": 19592.2753,
+      "train_tokens_per_second": 6267.009
+    },
+    {
+      "epoch": 0.32811509756997326,
+      "grad_norm": 0.2798844575881958,
+      "learning_rate": 5e-06,
+      "loss": 1.0546,
+      "num_input_tokens_seen": 123240512,
+      "step": 271,
+      "train_runtime": 19666.8911,
+      "train_tokens_per_second": 6266.395
+    },
+    {
+      "epoch": 0.3293258543875746,
+      "grad_norm": 0.21824029088020325,
+      "learning_rate": 5e-06,
+      "loss": 0.9848,
+      "num_input_tokens_seen": 123704960,
+      "step": 272,
+      "train_runtime": 19743.7002,
+      "train_tokens_per_second": 6265.541
+    },
+    {
+      "epoch": 0.33053661120517597,
+      "grad_norm": 0.2295370250940323,
+      "learning_rate": 5e-06,
+      "loss": 1.0064,
+      "num_input_tokens_seen": 124147728,
+      "step": 273,
+      "train_runtime": 19815.9537,
+      "train_tokens_per_second": 6265.039
+    },
+    {
+      "epoch": 0.3317473680227774,
+      "grad_norm": 0.2582823932170868,
+      "learning_rate": 5e-06,
+      "loss": 1.0589,
+      "num_input_tokens_seen": 124588360,
+      "step": 274,
+      "train_runtime": 19888.5652,
+      "train_tokens_per_second": 6264.321
+    },
+    {
+      "epoch": 0.33295812484037873,
+      "grad_norm": 0.2539482116699219,
+      "learning_rate": 5e-06,
+      "loss": 0.9915,
+      "num_input_tokens_seen": 125054408,
+      "step": 275,
+      "train_runtime": 19965.1487,
+      "train_tokens_per_second": 6263.635
+    },
+    {
+      "epoch": 0.33416888165798014,
+      "grad_norm": 0.2645561695098877,
+      "learning_rate": 5e-06,
+      "loss": 0.9986,
+      "num_input_tokens_seen": 125507560,
+      "step": 276,
+      "train_runtime": 20039.2339,
+      "train_tokens_per_second": 6263.092
+    },
+    {
+      "epoch": 0.3353796384755815,
+      "grad_norm": 0.22155457735061646,
+      "learning_rate": 5e-06,
+      "loss": 0.9988,
+      "num_input_tokens_seen": 125994072,
+      "step": 277,
+      "train_runtime": 20119.5235,
+      "train_tokens_per_second": 6262.279
+    },
+    {
+      "epoch": 0.33659039529318285,
+      "grad_norm": 0.2287885844707489,
+      "learning_rate": 5e-06,
+      "loss": 1.0277,
+      "num_input_tokens_seen": 126467528,
+      "step": 278,
+      "train_runtime": 20197.6843,
+      "train_tokens_per_second": 6261.487
+    },
+    {
+      "epoch": 0.33780115211078426,
+      "grad_norm": 0.2466982901096344,
+      "learning_rate": 5e-06,
+      "loss": 1.0205,
+      "num_input_tokens_seen": 126892704,
+      "step": 279,
+      "train_runtime": 20269.3446,
+      "train_tokens_per_second": 6260.326
+    },
+    {
+      "epoch": 0.3390119089283856,
+      "grad_norm": 0.23624956607818604,
+      "learning_rate": 5e-06,
+      "loss": 0.9984,
+      "num_input_tokens_seen": 127356472,
+      "step": 280,
+      "train_runtime": 20345.7248,
+      "train_tokens_per_second": 6259.618
+    },
+    {
+      "epoch": 0.34022266574598703,
+      "grad_norm": 0.23681671917438507,
+      "learning_rate": 5e-06,
+      "loss": 1.0242,
+      "num_input_tokens_seen": 127815984,
+      "step": 281,
+      "train_runtime": 20421.2658,
+      "train_tokens_per_second": 6258.965
+    },
+    {
+      "epoch": 0.3414334225635884,
+      "grad_norm": 0.22485695779323578,
+      "learning_rate": 5e-06,
+      "loss": 1.0365,
+      "num_input_tokens_seen": 128272520,
+      "step": 282,
+      "train_runtime": 20496.3233,
+      "train_tokens_per_second": 6258.319
+    },
+    {
+      "epoch": 0.34264417938118974,
+      "grad_norm": 0.2541932165622711,
+      "learning_rate": 5e-06,
+      "loss": 0.9823,
+      "num_input_tokens_seen": 128699760,
+      "step": 283,
+      "train_runtime": 20566.2431,
+      "train_tokens_per_second": 6257.816
+    },
+    {
+      "epoch": 0.34385493619879115,
+      "grad_norm": 0.22476626932621002,
+      "learning_rate": 5e-06,
+      "loss": 1.0021,
+      "num_input_tokens_seen": 129169888,
+      "step": 284,
+      "train_runtime": 20643.7442,
+      "train_tokens_per_second": 6257.096
+    },
+    {
+      "epoch": 0.3450656930163925,
+      "grad_norm": 0.24232985079288483,
+      "learning_rate": 5e-06,
+      "loss": 0.9942,
+      "num_input_tokens_seen": 129627816,
+      "step": 285,
+      "train_runtime": 20724.2188,
+      "train_tokens_per_second": 6254.895
+    },
+    {
+      "epoch": 0.3462764498339939,
+      "grad_norm": 0.23191998898983002,
+      "learning_rate": 5e-06,
+      "loss": 1.0246,
+      "num_input_tokens_seen": 130087264,
+      "step": 286,
+      "train_runtime": 20798.7497,
+      "train_tokens_per_second": 6254.571
+    },
+    {
+      "epoch": 0.34748720665159527,
+      "grad_norm": 0.2423601895570755,
+      "learning_rate": 5e-06,
+      "loss": 0.9571,
+      "num_input_tokens_seen": 130552064,
+      "step": 287,
+      "train_runtime": 20871.3382,
+      "train_tokens_per_second": 6255.088
+    },
+    {
+      "epoch": 0.3486979634691966,
+      "grad_norm": 0.3263372480869293,
+      "learning_rate": 5e-06,
+      "loss": 1.0073,
+      "num_input_tokens_seen": 131001008,
+      "step": 288,
+      "train_runtime": 20941.405,
+      "train_tokens_per_second": 6255.598
+    },
+    {
+      "epoch": 0.34990872028679804,
+      "grad_norm": 0.2425222098827362,
+      "learning_rate": 5e-06,
+      "loss": 1.0397,
+      "num_input_tokens_seen": 131456016,
+      "step": 289,
+      "train_runtime": 21012.6636,
+      "train_tokens_per_second": 6256.038
+    },
+    {
+      "epoch": 0.3511194771043994,
+      "grad_norm": 0.24094624817371368,
+      "learning_rate": 5e-06,
+      "loss": 0.9737,
+      "num_input_tokens_seen": 131911216,
+      "step": 290,
+      "train_runtime": 21083.6278,
+      "train_tokens_per_second": 6256.571
+    },
+    {
+      "epoch": 0.3523302339220008,
+      "grad_norm": 0.2286059558391571,
+      "learning_rate": 5e-06,
+      "loss": 0.9598,
+      "num_input_tokens_seen": 132364240,
+      "step": 291,
+      "train_runtime": 21153.9443,
+      "train_tokens_per_second": 6257.19
+    },
+    {
+      "epoch": 0.35354099073960216,
+      "grad_norm": 0.22142821550369263,
+      "learning_rate": 5e-06,
+      "loss": 0.9791,
+      "num_input_tokens_seen": 132820456,
+      "step": 292,
+      "train_runtime": 21225.0777,
+      "train_tokens_per_second": 6257.714
+    },
+    {
+      "epoch": 0.3547517475572035,
+      "grad_norm": 0.25561171770095825,
+      "learning_rate": 5e-06,
+      "loss": 1.0434,
+      "num_input_tokens_seen": 133258016,
+      "step": 293,
+      "train_runtime": 21293.1518,
+      "train_tokens_per_second": 6258.257
+    },
+    {
+      "epoch": 0.3559625043748049,
+      "grad_norm": 0.23531781136989594,
+      "learning_rate": 5e-06,
+      "loss": 1.0001,
+      "num_input_tokens_seen": 133723576,
+      "step": 294,
+      "train_runtime": 21366.0225,
+      "train_tokens_per_second": 6258.702
+    },
+    {
+      "epoch": 0.3571732611924063,
+      "grad_norm": 0.22105760872364044,
+      "learning_rate": 5e-06,
+      "loss": 1.0213,
+      "num_input_tokens_seen": 134179400,
+      "step": 295,
+      "train_runtime": 21437.4884,
+      "train_tokens_per_second": 6259.101
+    },
+    {
+      "epoch": 0.3583840180100077,
+      "grad_norm": 0.26079460978507996,
+      "learning_rate": 5e-06,
+      "loss": 1.0322,
+      "num_input_tokens_seen": 134624872,
+      "step": 296,
+      "train_runtime": 21507.5955,
+      "train_tokens_per_second": 6259.411
+    },
+    {
+      "epoch": 0.35959477482760904,
+      "grad_norm": 0.2267124503850937,
+      "learning_rate": 5e-06,
+      "loss": 0.9923,
+      "num_input_tokens_seen": 135108584,
+      "step": 297,
+      "train_runtime": 21582.4999,
+      "train_tokens_per_second": 6260.099
+    },
+    {
+      "epoch": 0.3608055316452104,
+      "grad_norm": 0.247776061296463,
+      "learning_rate": 5e-06,
+      "loss": 0.9913,
+      "num_input_tokens_seen": 135578000,
+      "step": 298,
+      "train_runtime": 21655.9937,
+      "train_tokens_per_second": 6260.53
+    },
+    {
+      "epoch": 0.3620162884628118,
+      "grad_norm": 0.23508575558662415,
+      "learning_rate": 5e-06,
+      "loss": 0.9601,
+      "num_input_tokens_seen": 136004656,
+      "step": 299,
+      "train_runtime": 21722.55,
+      "train_tokens_per_second": 6260.989
+    },
+    {
+      "epoch": 0.36322704528041316,
+      "grad_norm": 0.25533682107925415,
+      "learning_rate": 5e-06,
+      "loss": 1.0357,
+      "num_input_tokens_seen": 136462536,
+      "step": 300,
+      "train_runtime": 21793.1578,
+      "train_tokens_per_second": 6261.715
+    },
+    {
+      "epoch": 0.3644378020980146,
+      "grad_norm": 0.2101793736219406,
+      "learning_rate": 5e-06,
+      "loss": 0.9743,
+      "num_input_tokens_seen": 136933744,
+      "step": 301,
+      "train_runtime": 21866.9264,
+      "train_tokens_per_second": 6262.14
+    },
+    {
+      "epoch": 0.36564855891561593,
+      "grad_norm": 0.2493451088666916,
+      "learning_rate": 5e-06,
+      "loss": 0.973,
+      "num_input_tokens_seen": 137387912,
+      "step": 302,
+      "train_runtime": 21938.1245,
+      "train_tokens_per_second": 6262.519
+    },
+    {
+      "epoch": 0.3668593157332173,
+      "grad_norm": 0.23311975598335266,
+      "learning_rate": 5e-06,
+      "loss": 1.0086,
+      "num_input_tokens_seen": 137841208,
+      "step": 303,
+      "train_runtime": 22008.7483,
+      "train_tokens_per_second": 6263.019
+    },
+    {
+      "epoch": 0.3680700725508187,
+      "grad_norm": 0.2377161979675293,
+      "learning_rate": 5e-06,
+      "loss": 1.0391,
+      "num_input_tokens_seen": 138299912,
+      "step": 304,
+      "train_runtime": 22080.6387,
+      "train_tokens_per_second": 6263.402
+    },
+    {
+      "epoch": 0.36928082936842005,
+      "grad_norm": 0.23572410643100739,
+      "learning_rate": 5e-06,
+      "loss": 1.0402,
+      "num_input_tokens_seen": 138739904,
+      "step": 305,
+      "train_runtime": 22152.1917,
+      "train_tokens_per_second": 6263.033
+    },
+    {
+      "epoch": 0.37049158618602146,
+      "grad_norm": 0.24770863354206085,
+      "learning_rate": 5e-06,
+      "loss": 1.0045,
+      "num_input_tokens_seen": 139197120,
+      "step": 306,
+      "train_runtime": 22227.4884,
+      "train_tokens_per_second": 6262.386
+    },
+    {
+      "epoch": 0.3717023430036228,
+      "grad_norm": 0.2456834316253662,
+      "learning_rate": 5e-06,
+      "loss": 1.0049,
+      "num_input_tokens_seen": 139637016,
+      "step": 307,
+      "train_runtime": 22300.7598,
+      "train_tokens_per_second": 6261.536
+    },
+    {
+      "epoch": 0.37291309982122417,
+      "grad_norm": 0.23433266580104828,
+      "learning_rate": 5e-06,
+      "loss": 0.9637,
+      "num_input_tokens_seen": 140089624,
+      "step": 308,
+      "train_runtime": 22375.468,
+      "train_tokens_per_second": 6260.858
+    },
+    {
+      "epoch": 0.3741238566388256,
+      "grad_norm": 0.28043490648269653,
+      "learning_rate": 5e-06,
+      "loss": 1.0334,
+      "num_input_tokens_seen": 140517536,
+      "step": 309,
+      "train_runtime": 22445.9968,
+      "train_tokens_per_second": 6260.249
+    },
+    {
+      "epoch": 0.37533461345642694,
+      "grad_norm": 0.26074591279029846,
+      "learning_rate": 5e-06,
+      "loss": 0.9666,
+      "num_input_tokens_seen": 140988184,
+      "step": 310,
+      "train_runtime": 22523.6032,
+      "train_tokens_per_second": 6259.575
+    },
+    {
+      "epoch": 0.37654537027402835,
+      "grad_norm": 0.2182447761297226,
+      "learning_rate": 5e-06,
+      "loss": 1.0189,
+      "num_input_tokens_seen": 141453976,
+      "step": 311,
+      "train_runtime": 22600.0411,
+      "train_tokens_per_second": 6259.014
+    },
+    {
+      "epoch": 0.3777561270916297,
+      "grad_norm": 0.30261749029159546,
+      "learning_rate": 5e-06,
+      "loss": 0.9974,
+      "num_input_tokens_seen": 141907888,
+      "step": 312,
+      "train_runtime": 22674.4979,
+      "train_tokens_per_second": 6258.48
+    },
+    {
+      "epoch": 0.37896688390923106,
+      "grad_norm": 0.2571166753768921,
+      "learning_rate": 5e-06,
+      "loss": 1.0201,
+      "num_input_tokens_seen": 142370032,
+      "step": 313,
+      "train_runtime": 22750.3178,
+      "train_tokens_per_second": 6257.936
+    },
+    {
+      "epoch": 0.38017764072683247,
+      "grad_norm": 0.23346489667892456,
+      "learning_rate": 5e-06,
+      "loss": 0.9982,
+      "num_input_tokens_seen": 142807320,
+      "step": 314,
+      "train_runtime": 22822.3169,
+      "train_tokens_per_second": 6257.354
+    },
+    {
+      "epoch": 0.3813883975444338,
+      "grad_norm": 0.23612311482429504,
+      "learning_rate": 5e-06,
+      "loss": 1.0125,
+      "num_input_tokens_seen": 143261672,
+      "step": 315,
+      "train_runtime": 22897.0863,
+      "train_tokens_per_second": 6256.764
+    },
+    {
+      "epoch": 0.38259915436203523,
+      "grad_norm": 0.26001793146133423,
+      "learning_rate": 5e-06,
+      "loss": 0.9806,
+      "num_input_tokens_seen": 143708208,
+      "step": 316,
+      "train_runtime": 22971.0115,
+      "train_tokens_per_second": 6256.068
+    },
+    {
+      "epoch": 0.3838099111796366,
+      "grad_norm": 0.26588013768196106,
+      "learning_rate": 5e-06,
+      "loss": 1.043,
+      "num_input_tokens_seen": 144159888,
+      "step": 317,
+      "train_runtime": 23045.4895,
+      "train_tokens_per_second": 6255.449
+    },
+    {
+      "epoch": 0.38502066799723794,
+      "grad_norm": 0.24810902774333954,
+      "learning_rate": 5e-06,
+      "loss": 1.0293,
+      "num_input_tokens_seen": 144607736,
+      "step": 318,
+      "train_runtime": 23121.9728,
+      "train_tokens_per_second": 6254.126
+    },
+    {
+      "epoch": 0.38623142481483935,
+      "grad_norm": 0.25210660696029663,
+      "learning_rate": 5e-06,
+      "loss": 1.0545,
+      "num_input_tokens_seen": 145045848,
+      "step": 319,
+      "train_runtime": 23191.7625,
+      "train_tokens_per_second": 6254.197
+    },
+    {
+      "epoch": 0.3874421816324407,
+      "grad_norm": 0.2451591044664383,
+      "learning_rate": 5e-06,
+      "loss": 0.9838,
+      "num_input_tokens_seen": 145531920,
+      "step": 320,
+      "train_runtime": 23271.4709,
+      "train_tokens_per_second": 6253.662
+    },
+    {
+      "epoch": 0.3886529384500421,
+      "grad_norm": 0.29514279961586,
+      "learning_rate": 5e-06,
+      "loss": 0.9623,
+      "num_input_tokens_seen": 145970160,
+      "step": 321,
+      "train_runtime": 23345.6996,
+      "train_tokens_per_second": 6252.55
+    },
+    {
+      "epoch": 0.3898636952676435,
+      "grad_norm": 0.270550936460495,
+      "learning_rate": 5e-06,
+      "loss": 1.0351,
+      "num_input_tokens_seen": 146432040,
+      "step": 322,
+      "train_runtime": 23422.6662,
+      "train_tokens_per_second": 6251.724
+    },
+    {
+      "epoch": 0.39107445208524483,
+      "grad_norm": 0.23111458122730255,
+      "learning_rate": 5e-06,
+      "loss": 0.9737,
+      "num_input_tokens_seen": 146886712,
+      "step": 323,
+      "train_runtime": 23498.9622,
+      "train_tokens_per_second": 6250.774
+    },
+    {
+      "epoch": 0.39228520890284624,
+      "grad_norm": 0.22839005291461945,
+      "learning_rate": 5e-06,
+      "loss": 0.9722,
+      "num_input_tokens_seen": 147355208,
+      "step": 324,
+      "train_runtime": 23576.9231,
+      "train_tokens_per_second": 6249.976
+    },
+    {
+      "epoch": 0.3934959657204476,
+      "grad_norm": 0.24810221791267395,
+      "learning_rate": 5e-06,
+      "loss": 0.9866,
+      "num_input_tokens_seen": 147805720,
+      "step": 325,
+      "train_runtime": 23652.1704,
+      "train_tokens_per_second": 6249.14
+    },
+    {
+      "epoch": 0.394706722538049,
+      "grad_norm": 0.23154482245445251,
+      "learning_rate": 5e-06,
+      "loss": 0.9954,
+      "num_input_tokens_seen": 148273872,
+      "step": 326,
+      "train_runtime": 23729.723,
+      "train_tokens_per_second": 6248.445
+    },
+    {
+      "epoch": 0.39591747935565036,
+      "grad_norm": 0.3031870126724243,
+      "learning_rate": 5e-06,
+      "loss": 1.0066,
+      "num_input_tokens_seen": 148721464,
+      "step": 327,
+      "train_runtime": 23801.2103,
+      "train_tokens_per_second": 6248.483
+    },
+    {
+      "epoch": 0.3971282361732517,
+      "grad_norm": 0.2704046666622162,
+      "learning_rate": 5e-06,
+      "loss": 0.9968,
+      "num_input_tokens_seen": 149168824,
+      "step": 328,
+      "train_runtime": 23872.2639,
+      "train_tokens_per_second": 6248.625
+    },
+    {
+      "epoch": 0.3983389929908531,
+      "grad_norm": 0.2855125069618225,
+      "learning_rate": 5e-06,
+      "loss": 1.041,
+      "num_input_tokens_seen": 149608712,
+      "step": 329,
+      "train_runtime": 23941.7145,
+      "train_tokens_per_second": 6248.872
+    },
+    {
+      "epoch": 0.3995497498084545,
+      "grad_norm": 0.24565830826759338,
+      "learning_rate": 5e-06,
+      "loss": 0.9534,
+      "num_input_tokens_seen": 150072952,
+      "step": 330,
+      "train_runtime": 24015.5471,
+      "train_tokens_per_second": 6248.992
+    },
+    {
+      "epoch": 0.4007605066260559,
+      "grad_norm": 0.22240781784057617,
+      "learning_rate": 5e-06,
+      "loss": 1.0183,
+      "num_input_tokens_seen": 150529952,
+      "step": 331,
+      "train_runtime": 24088.1498,
+      "train_tokens_per_second": 6249.129
+    },
+    {
+      "epoch": 0.40197126344365725,
+      "grad_norm": 0.25719258189201355,
+      "learning_rate": 5e-06,
+      "loss": 0.994,
+      "num_input_tokens_seen": 150974144,
+      "step": 332,
+      "train_runtime": 24159.1836,
+      "train_tokens_per_second": 6249.141
+    },
+    {
+      "epoch": 0.4031820202612586,
+      "grad_norm": 0.23377108573913574,
+      "learning_rate": 5e-06,
+      "loss": 1.0007,
+      "num_input_tokens_seen": 151437784,
+      "step": 333,
+      "train_runtime": 24232.9718,
+      "train_tokens_per_second": 6249.245
+    },
+    {
+      "epoch": 0.40439277707886,
+      "grad_norm": 0.256849467754364,
+      "learning_rate": 5e-06,
+      "loss": 1.0027,
+      "num_input_tokens_seen": 151890232,
+      "step": 334,
+      "train_runtime": 24304.7562,
+      "train_tokens_per_second": 6249.404
+    },
+    {
+      "epoch": 0.40560353389646137,
+      "grad_norm": 0.23702043294906616,
+      "learning_rate": 5e-06,
+      "loss": 1.0201,
+      "num_input_tokens_seen": 152334376,
+      "step": 335,
+      "train_runtime": 24375.494,
+      "train_tokens_per_second": 6249.489
+    },
+    {
+      "epoch": 0.4068142907140628,
+      "grad_norm": 0.23365221917629242,
+      "learning_rate": 5e-06,
+      "loss": 1.0297,
+      "num_input_tokens_seen": 152790664,
+      "step": 336,
+      "train_runtime": 24447.9699,
+      "train_tokens_per_second": 6249.626
+    },
+    {
+      "epoch": 0.40802504753166413,
+      "grad_norm": 0.23382526636123657,
+      "learning_rate": 5e-06,
+      "loss": 1.0004,
+      "num_input_tokens_seen": 153244056,
+      "step": 337,
+      "train_runtime": 24520.5163,
+      "train_tokens_per_second": 6249.626
+    },
+    {
+      "epoch": 0.4092358043492655,
+      "grad_norm": 0.22636200487613678,
+      "learning_rate": 5e-06,
+      "loss": 1.0144,
+      "num_input_tokens_seen": 153706824,
+      "step": 338,
+      "train_runtime": 24594.0224,
+      "train_tokens_per_second": 6249.764
+    },
+    {
+      "epoch": 0.4104465611668669,
+      "grad_norm": 0.23086538910865784,
+      "learning_rate": 5e-06,
+      "loss": 0.9871,
+      "num_input_tokens_seen": 154147192,
+      "step": 339,
+      "train_runtime": 24663.9908,
+      "train_tokens_per_second": 6249.888
+    },
+    {
+      "epoch": 0.41165731798446825,
+      "grad_norm": 0.25210967659950256,
+      "learning_rate": 5e-06,
+      "loss": 1.02,
+      "num_input_tokens_seen": 154601576,
+      "step": 340,
+      "train_runtime": 24736.4881,
+      "train_tokens_per_second": 6249.94
+    },
+    {
+      "epoch": 0.41286807480206966,
+      "grad_norm": 0.24582870304584503,
+      "learning_rate": 5e-06,
+      "loss": 1.0406,
+      "num_input_tokens_seen": 155050072,
+      "step": 341,
+      "train_runtime": 24807.9176,
+      "train_tokens_per_second": 6250.024
+    },
+    {
+      "epoch": 0.414078831619671,
+      "grad_norm": 0.2524389326572418,
+      "learning_rate": 5e-06,
+      "loss": 1.0108,
+      "num_input_tokens_seen": 155484872,
+      "step": 342,
+      "train_runtime": 24876.7608,
+      "train_tokens_per_second": 6250.206
+    },
+    {
+      "epoch": 0.4152895884372724,
+      "grad_norm": 0.24597734212875366,
+      "learning_rate": 5e-06,
+      "loss": 1.0103,
+      "num_input_tokens_seen": 155935768,
+      "step": 343,
+      "train_runtime": 24948.3799,
+      "train_tokens_per_second": 6250.336
+    },
+    {
+      "epoch": 0.4165003452548738,
+      "grad_norm": 0.2275368720293045,
+      "learning_rate": 5e-06,
+      "loss": 1.0013,
+      "num_input_tokens_seen": 156401120,
+      "step": 344,
+      "train_runtime": 25022.1853,
+      "train_tokens_per_second": 6250.498
+    },
+    {
+      "epoch": 0.41771110207247514,
+      "grad_norm": 0.22949494421482086,
+      "learning_rate": 5e-06,
+      "loss": 1.0111,
+      "num_input_tokens_seen": 156864272,
+      "step": 345,
+      "train_runtime": 25095.8034,
+      "train_tokens_per_second": 6250.618
+    },
+    {
+      "epoch": 0.41892185889007655,
+      "grad_norm": 0.23165899515151978,
+      "learning_rate": 5e-06,
+      "loss": 1.0014,
+      "num_input_tokens_seen": 157317000,
+      "step": 346,
+      "train_runtime": 25167.8027,
+      "train_tokens_per_second": 6250.724
+    },
+    {
+      "epoch": 0.4201326157076779,
+      "grad_norm": 0.23215775191783905,
+      "learning_rate": 5e-06,
+      "loss": 0.9639,
+      "num_input_tokens_seen": 157785416,
+      "step": 347,
+      "train_runtime": 25242.0286,
+      "train_tokens_per_second": 6250.901
+    },
+    {
+      "epoch": 0.42134337252527926,
+      "grad_norm": 0.23086605966091156,
+      "learning_rate": 5e-06,
+      "loss": 1.034,
+      "num_input_tokens_seen": 158244744,
+      "step": 348,
+      "train_runtime": 25315.4472,
+      "train_tokens_per_second": 6250.916
+    },
+    {
+      "epoch": 0.42255412934288067,
+      "grad_norm": 0.2317984402179718,
+      "learning_rate": 5e-06,
+      "loss": 1.0313,
+      "num_input_tokens_seen": 158699784,
+      "step": 349,
+      "train_runtime": 25387.642,
+      "train_tokens_per_second": 6251.064
+    },
+    {
+      "epoch": 0.423764886160482,
+      "grad_norm": 0.2463163435459137,
+      "learning_rate": 5e-06,
+      "loss": 0.9835,
+      "num_input_tokens_seen": 159153432,
+      "step": 350,
+      "train_runtime": 25459.746,
+      "train_tokens_per_second": 6251.179
+    },
+    {
+      "epoch": 0.42497564297808343,
+      "grad_norm": 0.2302168309688568,
+      "learning_rate": 5e-06,
+      "loss": 0.9666,
+      "num_input_tokens_seen": 159597184,
+      "step": 351,
+      "train_runtime": 25530.6729,
+      "train_tokens_per_second": 6251.194
+    },
+    {
+      "epoch": 0.4261863997956848,
+      "grad_norm": 0.24311944842338562,
+      "learning_rate": 5e-06,
+      "loss": 0.9938,
+      "num_input_tokens_seen": 160056872,
+      "step": 352,
+      "train_runtime": 25603.679,
+      "train_tokens_per_second": 6251.323
+    },
+    {
+      "epoch": 0.42739715661328614,
+      "grad_norm": 0.24332423508167267,
+      "learning_rate": 5e-06,
+      "loss": 1.0026,
+      "num_input_tokens_seen": 160498144,
+      "step": 353,
+      "train_runtime": 25673.5562,
+      "train_tokens_per_second": 6251.496
+    },
+    {
+      "epoch": 0.42860791343088755,
+      "grad_norm": 0.2577798664569855,
+      "learning_rate": 5e-06,
+      "loss": 0.946,
+      "num_input_tokens_seen": 160952520,
+      "step": 354,
+      "train_runtime": 25746.1174,
+      "train_tokens_per_second": 6251.526
+    },
+    {
+      "epoch": 0.4298186702484889,
+      "grad_norm": 0.24245211482048035,
+      "learning_rate": 5e-06,
+      "loss": 1.0504,
+      "num_input_tokens_seen": 161409016,
+      "step": 355,
+      "train_runtime": 25819.2295,
+      "train_tokens_per_second": 6251.504
+    },
+    {
+      "epoch": 0.4310294270660903,
+      "grad_norm": 0.23425163328647614,
+      "learning_rate": 5e-06,
+      "loss": 1.0225,
+      "num_input_tokens_seen": 161870752,
+      "step": 356,
+      "train_runtime": 25892.4963,
+      "train_tokens_per_second": 6251.647
+    },
+    {
+      "epoch": 0.4322401838836917,
+      "grad_norm": 0.2525038421154022,
+      "learning_rate": 5e-06,
+      "loss": 1.0433,
+      "num_input_tokens_seen": 162296568,
+      "step": 357,
+      "train_runtime": 25959.8505,
+      "train_tokens_per_second": 6251.83
+    },
+    {
+      "epoch": 0.43345094070129303,
+      "grad_norm": 0.2417079657316208,
+      "learning_rate": 5e-06,
+      "loss": 1.0091,
+      "num_input_tokens_seen": 162731720,
+      "step": 358,
+      "train_runtime": 26028.6681,
+      "train_tokens_per_second": 6252.019
+    },
+    {
+      "epoch": 0.43466169751889444,
+      "grad_norm": 0.24416188895702362,
+      "learning_rate": 5e-06,
+      "loss": 0.9745,
+      "num_input_tokens_seen": 163191568,
+      "step": 359,
+      "train_runtime": 26101.7213,
+      "train_tokens_per_second": 6252.138
+    },
+    {
+      "epoch": 0.4358724543364958,
+      "grad_norm": 0.2705591022968292,
+      "learning_rate": 5e-06,
+      "loss": 1.005,
+      "num_input_tokens_seen": 163643952,
+      "step": 360,
+      "train_runtime": 26173.8821,
+      "train_tokens_per_second": 6252.185
+    },
+    {
+      "epoch": 0.4370832111540972,
+      "grad_norm": 0.23336398601531982,
+      "learning_rate": 5e-06,
+      "loss": 0.9792,
+      "num_input_tokens_seen": 164093776,
+      "step": 361,
+      "train_runtime": 26245.424,
+      "train_tokens_per_second": 6252.281
+    },
+    {
+      "epoch": 0.43829396797169856,
+      "grad_norm": 0.22414255142211914,
+      "learning_rate": 5e-06,
+      "loss": 0.9672,
+      "num_input_tokens_seen": 164558224,
+      "step": 362,
+      "train_runtime": 26319.3494,
+      "train_tokens_per_second": 6252.367
+    },
+    {
+      "epoch": 0.4395047247892999,
+      "grad_norm": 0.22132380306720734,
+      "learning_rate": 5e-06,
+      "loss": 0.9457,
+      "num_input_tokens_seen": 165025024,
+      "step": 363,
+      "train_runtime": 26394.08,
+      "train_tokens_per_second": 6252.35
+    },
+    {
+      "epoch": 0.4407154816069013,
+      "grad_norm": 0.2500600814819336,
+      "learning_rate": 5e-06,
+      "loss": 1.0243,
+      "num_input_tokens_seen": 165495112,
+      "step": 364,
+      "train_runtime": 26469.3304,
+      "train_tokens_per_second": 6252.335
+    },
+    {
+      "epoch": 0.4419262384245027,
+      "grad_norm": 0.24437642097473145,
+      "learning_rate": 5e-06,
+      "loss": 0.9971,
+      "num_input_tokens_seen": 165959744,
+      "step": 365,
+      "train_runtime": 26543.6441,
+      "train_tokens_per_second": 6252.335
+    },
+    {
+      "epoch": 0.4431369952421041,
+      "grad_norm": 0.2317400872707367,
+      "learning_rate": 5e-06,
+      "loss": 0.9962,
+      "num_input_tokens_seen": 166425752,
+      "step": 366,
+      "train_runtime": 26617.8184,
+      "train_tokens_per_second": 6252.419
+    },
+    {
+      "epoch": 0.44434775205970545,
+      "grad_norm": 0.22997960448265076,
+      "learning_rate": 5e-06,
+      "loss": 1.0282,
+      "num_input_tokens_seen": 166881504,
+      "step": 367,
+      "train_runtime": 26690.5854,
+      "train_tokens_per_second": 6252.448
+    },
+    {
+      "epoch": 0.4455585088773068,
+      "grad_norm": 0.2334347665309906,
+      "learning_rate": 5e-06,
+      "loss": 1.0253,
+      "num_input_tokens_seen": 167353128,
+      "step": 368,
+      "train_runtime": 26766.4126,
+      "train_tokens_per_second": 6252.356
+    },
+    {
+      "epoch": 0.4467692656949082,
+      "grad_norm": 0.23148049414157867,
+      "learning_rate": 5e-06,
+      "loss": 0.9588,
+      "num_input_tokens_seen": 167805976,
+      "step": 369,
+      "train_runtime": 26837.3465,
+      "train_tokens_per_second": 6252.704
+    },
+    {
+      "epoch": 0.44798002251250957,
+      "grad_norm": 0.2629753649234772,
+      "learning_rate": 5e-06,
+      "loss": 0.9514,
+      "num_input_tokens_seen": 168248368,
+      "step": 370,
+      "train_runtime": 26906.0429,
+      "train_tokens_per_second": 6253.181
+    },
+    {
+      "epoch": 0.449190779330111,
+      "grad_norm": 0.2621021568775177,
+      "learning_rate": 5e-06,
+      "loss": 0.991,
+      "num_input_tokens_seen": 168693912,
+      "step": 371,
+      "train_runtime": 26975.4421,
+      "train_tokens_per_second": 6253.611
+    },
+    {
+      "epoch": 0.45040153614771233,
+      "grad_norm": 0.2458389848470688,
+      "learning_rate": 5e-06,
+      "loss": 0.9837,
+      "num_input_tokens_seen": 169157520,
+      "step": 372,
+      "train_runtime": 27047.241,
+      "train_tokens_per_second": 6254.151
+    },
+    {
+      "epoch": 0.4516122929653137,
+      "grad_norm": 0.22616301476955414,
+      "learning_rate": 5e-06,
+      "loss": 0.9584,
+      "num_input_tokens_seen": 169629008,
+      "step": 373,
+      "train_runtime": 27120.6769,
+      "train_tokens_per_second": 6254.601
+    },
+    {
+      "epoch": 0.4528230497829151,
+      "grad_norm": 0.28033509850502014,
+      "learning_rate": 5e-06,
+      "loss": 0.9869,
+      "num_input_tokens_seen": 170096328,
+      "step": 374,
+      "train_runtime": 27193.4201,
+      "train_tokens_per_second": 6255.055
+    },
+    {
+      "epoch": 0.45403380660051645,
+      "grad_norm": 0.2582356035709381,
+      "learning_rate": 5e-06,
+      "loss": 0.9658,
+      "num_input_tokens_seen": 170530368,
+      "step": 375,
+      "train_runtime": 27261.0916,
+      "train_tokens_per_second": 6255.449
+    },
+    {
+      "epoch": 0.45524456341811786,
+      "grad_norm": 0.26356765627861023,
+      "learning_rate": 5e-06,
+      "loss": 0.954,
+      "num_input_tokens_seen": 170977704,
+      "step": 376,
+      "train_runtime": 27330.4355,
+      "train_tokens_per_second": 6255.945
+    },
+    {
+      "epoch": 0.4564553202357192,
+      "grad_norm": 0.2806834280490875,
+      "learning_rate": 5e-06,
+      "loss": 0.9188,
+      "num_input_tokens_seen": 171404840,
+      "step": 377,
+      "train_runtime": 27396.163,
+      "train_tokens_per_second": 6256.527
+    },
+    {
+      "epoch": 0.4576660770533206,
+      "grad_norm": 0.24835824966430664,
+      "learning_rate": 5e-06,
+      "loss": 1.0034,
+      "num_input_tokens_seen": 171863528,
+      "step": 378,
+      "train_runtime": 27467.6453,
+      "train_tokens_per_second": 6256.944
+    },
+    {
+      "epoch": 0.458876833870922,
+      "grad_norm": 0.24917422235012054,
+      "learning_rate": 5e-06,
+      "loss": 1.0091,
+      "num_input_tokens_seen": 172306160,
+      "step": 379,
+      "train_runtime": 27537.144,
+      "train_tokens_per_second": 6257.227
+    },
+    {
+      "epoch": 0.46008759068852334,
+      "grad_norm": 0.24879835546016693,
+      "learning_rate": 5e-06,
+      "loss": 1.0534,
+      "num_input_tokens_seen": 172762776,
+      "step": 380,
+      "train_runtime": 27607.7602,
+      "train_tokens_per_second": 6257.761
+    },
+    {
+      "epoch": 0.46129834750612475,
+      "grad_norm": 0.2425055056810379,
+      "learning_rate": 5e-06,
+      "loss": 0.9974,
+      "num_input_tokens_seen": 173211600,
+      "step": 381,
+      "train_runtime": 27677.4709,
+      "train_tokens_per_second": 6258.216
+    },
+    {
+      "epoch": 0.4625091043237261,
+      "grad_norm": 0.23279421031475067,
+      "learning_rate": 5e-06,
+      "loss": 1.0132,
+      "num_input_tokens_seen": 173650080,
+      "step": 382,
+      "train_runtime": 27745.2426,
+      "train_tokens_per_second": 6258.734
+    },
+    {
+      "epoch": 0.46371986114132746,
+      "grad_norm": 0.23731283843517303,
+      "learning_rate": 5e-06,
+      "loss": 1.0208,
+      "num_input_tokens_seen": 174115976,
+      "step": 383,
+      "train_runtime": 27817.775,
+      "train_tokens_per_second": 6259.163
+    },
+    {
+      "epoch": 0.46493061795892887,
+      "grad_norm": 0.2498994767665863,
+      "learning_rate": 5e-06,
+      "loss": 0.9958,
+      "num_input_tokens_seen": 174583112,
+      "step": 384,
+      "train_runtime": 27890.6884,
+      "train_tokens_per_second": 6259.548
+    },
+    {
+      "epoch": 0.4661413747765302,
+      "grad_norm": 0.21462289988994598,
+      "learning_rate": 5e-06,
+      "loss": 0.957,
+      "num_input_tokens_seen": 175059472,
+      "step": 385,
+      "train_runtime": 27965.0646,
+      "train_tokens_per_second": 6259.934
+    },
+    {
+      "epoch": 0.46735213159413164,
+      "grad_norm": 0.2454395592212677,
+      "learning_rate": 5e-06,
+      "loss": 0.9569,
+      "num_input_tokens_seen": 175520768,
+      "step": 386,
+      "train_runtime": 28036.9974,
+      "train_tokens_per_second": 6260.327
+    },
+    {
+      "epoch": 0.468562888411733,
+      "grad_norm": 0.2549636960029602,
+      "learning_rate": 5e-06,
+      "loss": 0.9632,
+      "num_input_tokens_seen": 175947120,
+      "step": 387,
+      "train_runtime": 28103.0751,
+      "train_tokens_per_second": 6260.778
+    },
+    {
+      "epoch": 0.46977364522933435,
+      "grad_norm": 0.22117368876934052,
+      "learning_rate": 5e-06,
+      "loss": 1.0324,
+      "num_input_tokens_seen": 176416712,
+      "step": 388,
+      "train_runtime": 28176.0037,
+      "train_tokens_per_second": 6261.24
+    },
+    {
+      "epoch": 0.47098440204693576,
+      "grad_norm": 0.24724611639976501,
+      "learning_rate": 5e-06,
+      "loss": 0.9896,
+      "num_input_tokens_seen": 176866424,
+      "step": 389,
+      "train_runtime": 28246.1355,
+      "train_tokens_per_second": 6261.615
+    },
+    {
+      "epoch": 0.4721951588645371,
+      "grad_norm": 0.23016729950904846,
+      "learning_rate": 5e-06,
+      "loss": 0.9615,
+      "num_input_tokens_seen": 177343216,
+      "step": 390,
+      "train_runtime": 28320.9312,
+      "train_tokens_per_second": 6261.913
+    },
+    {
+      "epoch": 0.4734059156821385,
+      "grad_norm": 0.2248724400997162,
+      "learning_rate": 5e-06,
+      "loss": 0.9356,
+      "num_input_tokens_seen": 177768280,
+      "step": 391,
+      "train_runtime": 28386.5413,
+      "train_tokens_per_second": 6262.414
+    },
+    {
+      "epoch": 0.4746166724997399,
+      "grad_norm": 0.26315781474113464,
+      "learning_rate": 5e-06,
+      "loss": 0.9978,
+      "num_input_tokens_seen": 178212008,
+      "step": 392,
+      "train_runtime": 28456.242,
+      "train_tokens_per_second": 6262.668
+    },
+    {
+      "epoch": 0.47582742931734123,
+      "grad_norm": 0.24355779588222504,
+      "learning_rate": 5e-06,
+      "loss": 1.0061,
+      "num_input_tokens_seen": 178671232,
+      "step": 393,
+      "train_runtime": 28527.8799,
+      "train_tokens_per_second": 6263.039
+    },
+    {
+      "epoch": 0.47703818613494264,
+      "grad_norm": 0.21970634162425995,
+      "learning_rate": 5e-06,
+      "loss": 0.9588,
+      "num_input_tokens_seen": 179130472,
+      "step": 394,
+      "train_runtime": 28599.515,
+      "train_tokens_per_second": 6263.409
+    },
+    {
+      "epoch": 0.478248942952544,
+      "grad_norm": 0.25734594464302063,
+      "learning_rate": 5e-06,
+      "loss": 1.1103,
+      "num_input_tokens_seen": 179589296,
+      "step": 395,
+      "train_runtime": 28671.1821,
+      "train_tokens_per_second": 6263.756
+    },
+    {
+      "epoch": 0.4794596997701454,
+      "grad_norm": 0.22498640418052673,
+      "learning_rate": 5e-06,
+      "loss": 0.9638,
+      "num_input_tokens_seen": 180039760,
+      "step": 396,
+      "train_runtime": 28741.3132,
+      "train_tokens_per_second": 6264.145
+    },
+    {
+      "epoch": 0.48067045658774676,
+      "grad_norm": 0.23484832048416138,
+      "learning_rate": 5e-06,
+      "loss": 0.9852,
+      "num_input_tokens_seen": 180466416,
+      "step": 397,
+      "train_runtime": 28807.6188,
+      "train_tokens_per_second": 6264.538
+    },
+    {
+      "epoch": 0.4818812134053481,
+      "grad_norm": 0.23096151649951935,
+      "learning_rate": 5e-06,
+      "loss": 0.9901,
+      "num_input_tokens_seen": 180934584,
+      "step": 398,
+      "train_runtime": 28880.5387,
+      "train_tokens_per_second": 6264.931
+    },
+    {
+      "epoch": 0.48309197022294953,
+      "grad_norm": 0.29461684823036194,
+      "learning_rate": 5e-06,
+      "loss": 0.9985,
+      "num_input_tokens_seen": 181383840,
+      "step": 399,
+      "train_runtime": 28950.6138,
+      "train_tokens_per_second": 6265.285
+    },
+    {
+      "epoch": 0.4843027270405509,
+      "grad_norm": 0.24854110181331635,
+      "learning_rate": 5e-06,
+      "loss": 1.022,
+      "num_input_tokens_seen": 181833776,
+      "step": 400,
+      "train_runtime": 29020.8816,
+      "train_tokens_per_second": 6265.619
+    },
+    {
+      "epoch": 0.4855134838581523,
+      "grad_norm": 0.22923749685287476,
+      "learning_rate": 5e-06,
+      "loss": 0.9995,
+      "num_input_tokens_seen": 182289656,
+      "step": 401,
+      "train_runtime": 29091.6013,
+      "train_tokens_per_second": 6266.058
+    },
+    {
+      "epoch": 0.48672424067575365,
+      "grad_norm": 0.23606517910957336,
+      "learning_rate": 5e-06,
+      "loss": 0.9335,
+      "num_input_tokens_seen": 182741656,
+      "step": 402,
+      "train_runtime": 29162.397,
+      "train_tokens_per_second": 6266.346
+    },
+    {
+      "epoch": 0.487934997493355,
+      "grad_norm": 0.2514527142047882,
+      "learning_rate": 5e-06,
+      "loss": 0.95,
+      "num_input_tokens_seen": 183208448,
+      "step": 403,
+      "train_runtime": 29235.1663,
+      "train_tokens_per_second": 6266.715
+    },
+    {
+      "epoch": 0.4891457543109564,
+      "grad_norm": 0.23453983664512634,
+      "learning_rate": 5e-06,
+      "loss": 0.9837,
+      "num_input_tokens_seen": 183665416,
+      "step": 404,
+      "train_runtime": 29306.3034,
+      "train_tokens_per_second": 6267.096
+    },
+    {
+      "epoch": 0.49035651112855777,
+      "grad_norm": 0.23354077339172363,
+      "learning_rate": 5e-06,
+      "loss": 1.0109,
+      "num_input_tokens_seen": 184118688,
+      "step": 405,
+      "train_runtime": 29376.2962,
+      "train_tokens_per_second": 6267.594
+    },
+    {
+      "epoch": 0.4915672679461592,
+      "grad_norm": 0.2359265685081482,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 184576128,
+      "step": 406,
+      "train_runtime": 29447.5204,
+      "train_tokens_per_second": 6267.968
+    },
+    {
+      "epoch": 0.49277802476376054,
+      "grad_norm": 0.23804575204849243,
+      "learning_rate": 5e-06,
+      "loss": 1.0444,
+      "num_input_tokens_seen": 185032912,
+      "step": 407,
+      "train_runtime": 29518.842,
+      "train_tokens_per_second": 6268.298
+    },
+    {
+      "epoch": 0.4939887815813619,
+      "grad_norm": 0.26842811703681946,
+      "learning_rate": 5e-06,
+      "loss": 1.0753,
+      "num_input_tokens_seen": 185474400,
+      "step": 408,
+      "train_runtime": 29588.0213,
+      "train_tokens_per_second": 6268.564
+    },
+    {
+      "epoch": 0.4951995383989633,
+      "grad_norm": 0.2470535784959793,
+      "learning_rate": 5e-06,
+      "loss": 1.0522,
+      "num_input_tokens_seen": 185926928,
+      "step": 409,
+      "train_runtime": 29658.4068,
+      "train_tokens_per_second": 6268.945
+    },
+    {
+      "epoch": 0.49641029521656466,
+      "grad_norm": 0.2313876450061798,
+      "learning_rate": 5e-06,
+      "loss": 0.9896,
+      "num_input_tokens_seen": 186395976,
+      "step": 410,
+      "train_runtime": 29731.4655,
+      "train_tokens_per_second": 6269.317
+    },
+    {
+      "epoch": 0.49762105203416607,
+      "grad_norm": 0.2276448905467987,
+      "learning_rate": 5e-06,
+      "loss": 1.0273,
+      "num_input_tokens_seen": 186855720,
+      "step": 411,
+      "train_runtime": 29803.2261,
+      "train_tokens_per_second": 6269.647
+    },
+    {
+      "epoch": 0.4988318088517674,
+      "grad_norm": 0.24273553490638733,
+      "learning_rate": 5e-06,
+      "loss": 0.9887,
+      "num_input_tokens_seen": 187303704,
+      "step": 412,
+      "train_runtime": 29872.3789,
+      "train_tokens_per_second": 6270.13
+    },
+    {
+      "epoch": 0.5000425656693688,
+      "grad_norm": 0.22893160581588745,
+      "learning_rate": 5e-06,
+      "loss": 0.9927,
+      "num_input_tokens_seen": 187767288,
+      "step": 413,
+      "train_runtime": 29944.5337,
+      "train_tokens_per_second": 6270.503
+    },
+    {
+      "epoch": 0.5012533224869702,
+      "grad_norm": 0.24135759472846985,
+      "learning_rate": 5e-06,
+      "loss": 1.02,
+      "num_input_tokens_seen": 188215576,
+      "step": 414,
+      "train_runtime": 30014.0007,
+      "train_tokens_per_second": 6270.926
+    },
+    {
+      "epoch": 0.5024640793045716,
+      "grad_norm": 0.22361376881599426,
+      "learning_rate": 5e-06,
+      "loss": 0.9666,
+      "num_input_tokens_seen": 188667128,
+      "step": 415,
+      "train_runtime": 30084.01,
+      "train_tokens_per_second": 6271.342
+    },
+    {
+      "epoch": 0.5036748361221729,
+      "grad_norm": 0.27765095233917236,
+      "learning_rate": 5e-06,
+      "loss": 0.9637,
+      "num_input_tokens_seen": 189113312,
+      "step": 416,
+      "train_runtime": 30153.5994,
+      "train_tokens_per_second": 6271.666
+    },
+    {
+      "epoch": 0.5048855929397743,
+      "grad_norm": 0.2431006133556366,
+      "learning_rate": 5e-06,
+      "loss": 1.023,
+      "num_input_tokens_seen": 189552168,
+      "step": 417,
+      "train_runtime": 30221.737,
+      "train_tokens_per_second": 6272.047
+    },
+    {
+      "epoch": 0.5060963497573757,
+      "grad_norm": 0.23247578740119934,
+      "learning_rate": 5e-06,
+      "loss": 0.96,
+      "num_input_tokens_seen": 190031496,
+      "step": 418,
+      "train_runtime": 30296.4767,
+      "train_tokens_per_second": 6272.396
+    },
+    {
+      "epoch": 0.507307106574977,
+      "grad_norm": 0.2316485345363617,
+      "learning_rate": 5e-06,
+      "loss": 1.0319,
+      "num_input_tokens_seen": 190468688,
+      "step": 419,
+      "train_runtime": 30366.2489,
+      "train_tokens_per_second": 6272.381
+    },
+    {
+      "epoch": 0.5085178633925784,
+      "grad_norm": 0.24219174683094025,
+      "learning_rate": 5e-06,
+      "loss": 0.9843,
+      "num_input_tokens_seen": 190902848,
+      "step": 420,
+      "train_runtime": 30433.8527,
+      "train_tokens_per_second": 6272.714
+    },
+    {
+      "epoch": 0.5097286202101798,
+      "grad_norm": 0.22331832349300385,
+      "learning_rate": 5e-06,
+      "loss": 0.9295,
+      "num_input_tokens_seen": 191365624,
+      "step": 421,
+      "train_runtime": 30506.1907,
+      "train_tokens_per_second": 6273.009
+    },
+    {
+      "epoch": 0.5109393770277811,
+      "grad_norm": 0.24295338988304138,
+      "learning_rate": 5e-06,
+      "loss": 0.9981,
+      "num_input_tokens_seen": 191812256,
+      "step": 422,
+      "train_runtime": 30575.7222,
+      "train_tokens_per_second": 6273.352
+    },
+    {
+      "epoch": 0.5121501338453825,
+      "grad_norm": 0.23116403818130493,
+      "learning_rate": 5e-06,
+      "loss": 0.9845,
+      "num_input_tokens_seen": 192275296,
+      "step": 423,
+      "train_runtime": 30647.9598,
+      "train_tokens_per_second": 6273.674
+    },
+    {
+      "epoch": 0.513360890662984,
+      "grad_norm": 0.38395291566848755,
+      "learning_rate": 5e-06,
+      "loss": 0.9968,
+      "num_input_tokens_seen": 192729088,
+      "step": 424,
+      "train_runtime": 30718.5265,
+      "train_tokens_per_second": 6274.034
+    },
+    {
+      "epoch": 0.5145716474805854,
+      "grad_norm": 0.21122363209724426,
+      "learning_rate": 5e-06,
+      "loss": 0.9741,
+      "num_input_tokens_seen": 193218400,
+      "step": 425,
+      "train_runtime": 30795.0296,
+      "train_tokens_per_second": 6274.337
+    },
+    {
+      "epoch": 0.5157824042981867,
+      "grad_norm": 0.22073934972286224,
+      "learning_rate": 5e-06,
+      "loss": 0.9598,
+      "num_input_tokens_seen": 193675104,
+      "step": 426,
+      "train_runtime": 30865.8936,
+      "train_tokens_per_second": 6274.729
+    },
+    {
+      "epoch": 0.5169931611157881,
+      "grad_norm": 0.2508212924003601,
+      "learning_rate": 5e-06,
+      "loss": 0.9413,
+      "num_input_tokens_seen": 194152520,
+      "step": 427,
+      "train_runtime": 30940.0715,
+      "train_tokens_per_second": 6275.115
+    },
+    {
+      "epoch": 0.5182039179333895,
+      "grad_norm": 0.24162203073501587,
+      "learning_rate": 5e-06,
+      "loss": 0.9986,
+      "num_input_tokens_seen": 194594776,
+      "step": 428,
+      "train_runtime": 31008.6981,
+      "train_tokens_per_second": 6275.49
+    },
+    {
+      "epoch": 0.5194146747509908,
+      "grad_norm": 0.22889398038387299,
+      "learning_rate": 5e-06,
+      "loss": 1.006,
+      "num_input_tokens_seen": 195045984,
+      "step": 429,
+      "train_runtime": 31078.8709,
+      "train_tokens_per_second": 6275.839
+    },
+    {
+      "epoch": 0.5206254315685922,
+      "grad_norm": 0.2539101243019104,
+      "learning_rate": 5e-06,
+      "loss": 1.0005,
+      "num_input_tokens_seen": 195479240,
+      "step": 430,
+      "train_runtime": 31146.6426,
+      "train_tokens_per_second": 6276.093
+    },
+    {
+      "epoch": 0.5218361883861936,
+      "grad_norm": 0.21705974638462067,
+      "learning_rate": 5e-06,
+      "loss": 0.9376,
+      "num_input_tokens_seen": 195959064,
+      "step": 431,
+      "train_runtime": 31221.7672,
+      "train_tokens_per_second": 6276.36
+    },
+    {
+      "epoch": 0.5230469452037949,
+      "grad_norm": 0.22790437936782837,
+      "learning_rate": 5e-06,
+      "loss": 0.9948,
+      "num_input_tokens_seen": 196401264,
+      "step": 432,
+      "train_runtime": 31290.4429,
+      "train_tokens_per_second": 6276.717
+    },
+    {
+      "epoch": 0.5242577020213963,
+      "grad_norm": 0.26201656460762024,
+      "learning_rate": 5e-06,
+      "loss": 1.0204,
+      "num_input_tokens_seen": 196831632,
+      "step": 433,
+      "train_runtime": 31357.4731,
+      "train_tokens_per_second": 6277.025
+    },
+    {
+      "epoch": 0.5254684588389977,
+      "grad_norm": 0.23872381448745728,
+      "learning_rate": 5e-06,
+      "loss": 0.98,
+      "num_input_tokens_seen": 197280792,
+      "step": 434,
+      "train_runtime": 31427.348,
+      "train_tokens_per_second": 6277.36
+    },
+    {
+      "epoch": 0.5266792156565991,
+      "grad_norm": 0.23127026855945587,
+      "learning_rate": 5e-06,
+      "loss": 1.0302,
+      "num_input_tokens_seen": 197738976,
+      "step": 435,
+      "train_runtime": 31498.5952,
+      "train_tokens_per_second": 6277.708
+    },
+    {
+      "epoch": 0.5278899724742004,
+      "grad_norm": 0.23606155812740326,
+      "learning_rate": 5e-06,
+      "loss": 1.0139,
+      "num_input_tokens_seen": 198192464,
+      "step": 436,
+      "train_runtime": 31569.309,
+      "train_tokens_per_second": 6278.011
+    },
+    {
+      "epoch": 0.5291007292918019,
+      "grad_norm": 0.23491834104061127,
+      "learning_rate": 5e-06,
+      "loss": 0.9967,
+      "num_input_tokens_seen": 198667936,
+      "step": 437,
+      "train_runtime": 31643.9079,
+      "train_tokens_per_second": 6278.236
+    },
+    {
+      "epoch": 0.5303114861094033,
+      "grad_norm": 0.21920163929462433,
+      "learning_rate": 5e-06,
+      "loss": 0.9938,
+      "num_input_tokens_seen": 199128912,
+      "step": 438,
+      "train_runtime": 31715.309,
+      "train_tokens_per_second": 6278.637
+    },
+    {
+      "epoch": 0.5315222429270046,
+      "grad_norm": 0.24721209704875946,
+      "learning_rate": 5e-06,
+      "loss": 0.9461,
+      "num_input_tokens_seen": 199581136,
+      "step": 439,
+      "train_runtime": 31785.518,
+      "train_tokens_per_second": 6278.996
+    },
+    {
+      "epoch": 0.532732999744606,
+      "grad_norm": 0.2280053347349167,
+      "learning_rate": 5e-06,
+      "loss": 0.9607,
+      "num_input_tokens_seen": 200043376,
+      "step": 440,
+      "train_runtime": 31857.7901,
+      "train_tokens_per_second": 6279.261
+    },
+    {
+      "epoch": 0.5339437565622074,
+      "grad_norm": 0.23798179626464844,
+      "learning_rate": 5e-06,
+      "loss": 1.0175,
+      "num_input_tokens_seen": 200477576,
+      "step": 441,
+      "train_runtime": 31924.9328,
+      "train_tokens_per_second": 6279.655
+    },
+    {
+      "epoch": 0.5351545133798087,
+      "grad_norm": 0.24441802501678467,
+      "learning_rate": 5e-06,
+      "loss": 0.9864,
+      "num_input_tokens_seen": 200902872,
+      "step": 442,
+      "train_runtime": 31991.1171,
+      "train_tokens_per_second": 6279.958
+    },
+    {
+      "epoch": 0.5363652701974101,
+      "grad_norm": 0.22049540281295776,
+      "learning_rate": 5e-06,
+      "loss": 0.9682,
+      "num_input_tokens_seen": 201374768,
+      "step": 443,
+      "train_runtime": 32064.8823,
+      "train_tokens_per_second": 6280.228
+    },
+    {
+      "epoch": 0.5375760270150115,
+      "grad_norm": 0.26407957077026367,
+      "learning_rate": 5e-06,
+      "loss": 1.0439,
+      "num_input_tokens_seen": 201833576,
+      "step": 444,
+      "train_runtime": 32135.9258,
+      "train_tokens_per_second": 6280.621
+    },
+    {
+      "epoch": 0.5387867838326129,
+      "grad_norm": 0.23320509493350983,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 202288056,
+      "step": 445,
+      "train_runtime": 32207.1376,
+      "train_tokens_per_second": 6280.846
+    },
+    {
+      "epoch": 0.5399975406502142,
+      "grad_norm": 0.2530595362186432,
+      "learning_rate": 5e-06,
+      "loss": 0.9806,
+      "num_input_tokens_seen": 202734456,
+      "step": 446,
+      "train_runtime": 32276.5609,
+      "train_tokens_per_second": 6281.167
+    },
+    {
+      "epoch": 0.5412082974678156,
+      "grad_norm": 0.24577440321445465,
+      "learning_rate": 5e-06,
+      "loss": 1.032,
+      "num_input_tokens_seen": 203175032,
+      "step": 447,
+      "train_runtime": 32345.0646,
+      "train_tokens_per_second": 6281.485
+    },
+    {
+      "epoch": 0.542419054285417,
+      "grad_norm": 0.24135351181030273,
+      "learning_rate": 5e-06,
+      "loss": 0.9941,
+      "num_input_tokens_seen": 203613664,
+      "step": 448,
+      "train_runtime": 32413.2576,
+      "train_tokens_per_second": 6281.802
+    },
+    {
+      "epoch": 0.5436298111030183,
+      "grad_norm": 0.2334894835948944,
+      "learning_rate": 5e-06,
+      "loss": 0.9561,
+      "num_input_tokens_seen": 204069960,
+      "step": 449,
+      "train_runtime": 32484.3465,
+      "train_tokens_per_second": 6282.101
+    },
+    {
+      "epoch": 0.5448405679206197,
+      "grad_norm": 0.23215444386005402,
+      "learning_rate": 5e-06,
+      "loss": 0.9621,
+      "num_input_tokens_seen": 204514576,
+      "step": 450,
+      "train_runtime": 32553.403,
+      "train_tokens_per_second": 6282.433
+    },
+    {
+      "epoch": 0.5460513247382212,
+      "grad_norm": 0.22942085564136505,
+      "learning_rate": 5e-06,
+      "loss": 1.0227,
+      "num_input_tokens_seen": 204978768,
+      "step": 451,
+      "train_runtime": 32626.2536,
+      "train_tokens_per_second": 6282.633
+    },
+    {
+      "epoch": 0.5472620815558226,
+      "grad_norm": 0.24713215231895447,
+      "learning_rate": 5e-06,
+      "loss": 0.9849,
+      "num_input_tokens_seen": 205433104,
+      "step": 452,
+      "train_runtime": 32697.6427,
+      "train_tokens_per_second": 6282.811
+    },
+    {
+      "epoch": 0.5484728383734239,
+      "grad_norm": 0.23457272350788116,
+      "learning_rate": 5e-06,
+      "loss": 0.9856,
+      "num_input_tokens_seen": 205899472,
+      "step": 453,
+      "train_runtime": 32770.9009,
+      "train_tokens_per_second": 6282.997
+    },
+    {
+      "epoch": 0.5496835951910253,
+      "grad_norm": 0.25106683373451233,
+      "learning_rate": 5e-06,
+      "loss": 1.0003,
+      "num_input_tokens_seen": 206350824,
+      "step": 454,
+      "train_runtime": 32840.7984,
+      "train_tokens_per_second": 6283.368
+    },
+    {
+      "epoch": 0.5508943520086267,
+      "grad_norm": 0.27677810192108154,
+      "learning_rate": 5e-06,
+      "loss": 0.9914,
+      "num_input_tokens_seen": 206805936,
+      "step": 455,
+      "train_runtime": 32911.5142,
+      "train_tokens_per_second": 6283.696
+    },
+    {
+      "epoch": 0.552105108826228,
+      "grad_norm": 0.23585183918476105,
+      "learning_rate": 5e-06,
+      "loss": 0.976,
+      "num_input_tokens_seen": 207258416,
+      "step": 456,
+      "train_runtime": 32981.8418,
+      "train_tokens_per_second": 6284.016
+    },
+    {
+      "epoch": 0.5533158656438294,
+      "grad_norm": 0.2358681708574295,
+      "learning_rate": 5e-06,
+      "loss": 1.028,
+      "num_input_tokens_seen": 207695392,
+      "step": 457,
+      "train_runtime": 33049.5443,
+      "train_tokens_per_second": 6284.365
+    },
+    {
+      "epoch": 0.5545266224614308,
+      "grad_norm": 0.24082793295383453,
+      "learning_rate": 5e-06,
+      "loss": 1.0006,
+      "num_input_tokens_seen": 208131184,
+      "step": 458,
+      "train_runtime": 33117.4035,
+      "train_tokens_per_second": 6284.647
+    },
+    {
+      "epoch": 0.5557373792790321,
+      "grad_norm": 0.22506728768348694,
+      "learning_rate": 5e-06,
+      "loss": 0.9307,
+      "num_input_tokens_seen": 208586944,
+      "step": 459,
+      "train_runtime": 33188.5929,
+      "train_tokens_per_second": 6284.899
+    },
+    {
+      "epoch": 0.5569481360966335,
+      "grad_norm": 0.22801756858825684,
+      "learning_rate": 5e-06,
+      "loss": 0.9355,
+      "num_input_tokens_seen": 209044824,
+      "step": 460,
+      "train_runtime": 33260.759,
+      "train_tokens_per_second": 6285.029
+    },
+    {
+      "epoch": 0.5581588929142349,
+      "grad_norm": 0.2215615212917328,
+      "learning_rate": 5e-06,
+      "loss": 0.963,
+      "num_input_tokens_seen": 209511008,
+      "step": 461,
+      "train_runtime": 33333.5062,
+      "train_tokens_per_second": 6285.298
+    },
+    {
+      "epoch": 0.5593696497318363,
+      "grad_norm": 0.24020282924175262,
+      "learning_rate": 5e-06,
+      "loss": 0.9947,
+      "num_input_tokens_seen": 209962056,
+      "step": 462,
+      "train_runtime": 33403.9215,
+      "train_tokens_per_second": 6285.551
+    },
+    {
+      "epoch": 0.5605804065494376,
+      "grad_norm": 0.23402798175811768,
+      "learning_rate": 5e-06,
+      "loss": 0.9612,
+      "num_input_tokens_seen": 210405272,
+      "step": 463,
+      "train_runtime": 33472.9498,
+      "train_tokens_per_second": 6285.83
+    },
+    {
+      "epoch": 0.561791163367039,
+      "grad_norm": 0.2381797432899475,
+      "learning_rate": 5e-06,
+      "loss": 1.0089,
+      "num_input_tokens_seen": 210845616,
+      "step": 464,
+      "train_runtime": 33541.6057,
+      "train_tokens_per_second": 6286.092
+    },
+    {
+      "epoch": 0.5630019201846405,
+      "grad_norm": 0.2647024989128113,
+      "learning_rate": 5e-06,
+      "loss": 1.0405,
+      "num_input_tokens_seen": 211311336,
+      "step": 465,
+      "train_runtime": 33613.9005,
+      "train_tokens_per_second": 6286.427
+    },
+    {
+      "epoch": 0.5642126770022418,
+      "grad_norm": 0.2484758347272873,
+      "learning_rate": 5e-06,
+      "loss": 1.0995,
+      "num_input_tokens_seen": 211755424,
+      "step": 466,
+      "train_runtime": 33682.7067,
+      "train_tokens_per_second": 6286.77
+    },
+    {
+      "epoch": 0.5654234338198432,
+      "grad_norm": 0.2419258952140808,
+      "learning_rate": 5e-06,
+      "loss": 0.9984,
+      "num_input_tokens_seen": 212211880,
+      "step": 467,
+      "train_runtime": 33753.5833,
+      "train_tokens_per_second": 6287.092
+    },
+    {
+      "epoch": 0.5666341906374446,
+      "grad_norm": 0.24377140402793884,
+      "learning_rate": 5e-06,
+      "loss": 1.0266,
+      "num_input_tokens_seen": 212661224,
+      "step": 468,
+      "train_runtime": 33823.6337,
+      "train_tokens_per_second": 6287.356
+    },
+    {
+      "epoch": 0.5678449474550459,
+      "grad_norm": 0.24141238629817963,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 213120728,
+      "step": 469,
+      "train_runtime": 33895.1784,
+      "train_tokens_per_second": 6287.641
+    },
+    {
+      "epoch": 0.5690557042726473,
+      "grad_norm": 0.2776244580745697,
+      "learning_rate": 5e-06,
+      "loss": 1.0136,
+      "num_input_tokens_seen": 213581176,
+      "step": 470,
+      "train_runtime": 33968.5316,
+      "train_tokens_per_second": 6287.619
+    },
+    {
+      "epoch": 0.5702664610902487,
+      "grad_norm": 0.2289768010377884,
+      "learning_rate": 5e-06,
+      "loss": 0.9458,
+      "num_input_tokens_seen": 214039216,
+      "step": 471,
+      "train_runtime": 34039.8568,
+      "train_tokens_per_second": 6287.9
+    },
+    {
+      "epoch": 0.5714772179078501,
+      "grad_norm": 0.24029488861560822,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 214486744,
+      "step": 472,
+      "train_runtime": 34109.5176,
+      "train_tokens_per_second": 6288.179
+    },
+    {
+      "epoch": 0.5726879747254514,
+      "grad_norm": 0.24775657057762146,
+      "learning_rate": 5e-06,
+      "loss": 1.0085,
+      "num_input_tokens_seen": 214929224,
+      "step": 473,
+      "train_runtime": 34177.8306,
+      "train_tokens_per_second": 6288.557
+    },
+    {
+      "epoch": 0.5738987315430528,
+      "grad_norm": 0.257894903421402,
+      "learning_rate": 5e-06,
+      "loss": 1.0131,
+      "num_input_tokens_seen": 215364952,
+      "step": 474,
+      "train_runtime": 34245.3987,
+      "train_tokens_per_second": 6288.873
+    },
+    {
+      "epoch": 0.5751094883606542,
+      "grad_norm": 0.22365638613700867,
+      "learning_rate": 5e-06,
+      "loss": 0.9081,
+      "num_input_tokens_seen": 215810336,
+      "step": 475,
+      "train_runtime": 34314.325,
+      "train_tokens_per_second": 6289.22
+    },
+    {
+      "epoch": 0.5763202451782555,
+      "grad_norm": 0.222572922706604,
+      "learning_rate": 5e-06,
+      "loss": 0.997,
+      "num_input_tokens_seen": 216285368,
+      "step": 476,
+      "train_runtime": 34388.3445,
+      "train_tokens_per_second": 6289.496
+    },
+    {
+      "epoch": 0.5775310019958569,
+      "grad_norm": 0.24267543852329254,
+      "learning_rate": 5e-06,
+      "loss": 1.0052,
+      "num_input_tokens_seen": 216712736,
+      "step": 477,
+      "train_runtime": 34454.3641,
+      "train_tokens_per_second": 6289.849
+    },
+    {
+      "epoch": 0.5787417588134584,
+      "grad_norm": 0.2833351790904999,
+      "learning_rate": 5e-06,
+      "loss": 0.9996,
+      "num_input_tokens_seen": 217152592,
+      "step": 478,
+      "train_runtime": 34522.6931,
+      "train_tokens_per_second": 6290.141
+    },
+    {
+      "epoch": 0.5799525156310597,
+      "grad_norm": 0.22266528010368347,
+      "learning_rate": 5e-06,
+      "loss": 0.9858,
+      "num_input_tokens_seen": 217617320,
+      "step": 479,
+      "train_runtime": 34595.0498,
+      "train_tokens_per_second": 6290.418
+    },
+    {
+      "epoch": 0.5811632724486611,
+      "grad_norm": 0.23907960951328278,
+      "learning_rate": 5e-06,
+      "loss": 0.9656,
+      "num_input_tokens_seen": 218085936,
+      "step": 480,
+      "train_runtime": 34667.9296,
+      "train_tokens_per_second": 6290.711
+    },
+    {
+      "epoch": 0.5823740292662625,
+      "grad_norm": 0.2604992985725403,
+      "learning_rate": 5e-06,
+      "loss": 0.9883,
+      "num_input_tokens_seen": 218529216,
+      "step": 481,
+      "train_runtime": 34736.6853,
+      "train_tokens_per_second": 6291.021
+    },
+    {
+      "epoch": 0.5835847860838639,
+      "grad_norm": 0.24895359575748444,
+      "learning_rate": 5e-06,
+      "loss": 0.9568,
+      "num_input_tokens_seen": 218971904,
+      "step": 482,
+      "train_runtime": 34805.5529,
+      "train_tokens_per_second": 6291.292
+    },
+    {
+      "epoch": 0.5847955429014652,
+      "grad_norm": 0.24118000268936157,
+      "learning_rate": 5e-06,
+      "loss": 0.9923,
+      "num_input_tokens_seen": 219405992,
+      "step": 483,
+      "train_runtime": 34873.0797,
+      "train_tokens_per_second": 6291.558
+    },
+    {
+      "epoch": 0.5860062997190666,
+      "grad_norm": 0.245997354388237,
+      "learning_rate": 5e-06,
+      "loss": 0.9438,
+      "num_input_tokens_seen": 219865712,
+      "step": 484,
+      "train_runtime": 34944.6761,
+      "train_tokens_per_second": 6291.823
+    },
+    {
+      "epoch": 0.587217056536668,
+      "grad_norm": 0.2530381679534912,
+      "learning_rate": 5e-06,
+      "loss": 0.9391,
+      "num_input_tokens_seen": 220315800,
+      "step": 485,
+      "train_runtime": 35014.4814,
+      "train_tokens_per_second": 6292.134
+    },
+    {
+      "epoch": 0.5884278133542693,
+      "grad_norm": 0.2256454974412918,
+      "learning_rate": 5e-06,
+      "loss": 0.9632,
+      "num_input_tokens_seen": 220788832,
+      "step": 486,
+      "train_runtime": 35088.2705,
+      "train_tokens_per_second": 6292.383
+    },
+    {
+      "epoch": 0.5896385701718707,
+      "grad_norm": 0.23818935453891754,
+      "learning_rate": 5e-06,
+      "loss": 0.9615,
+      "num_input_tokens_seen": 221257600,
+      "step": 487,
+      "train_runtime": 35161.1927,
+      "train_tokens_per_second": 6292.665
+    },
+    {
+      "epoch": 0.5908493269894721,
+      "grad_norm": 0.22735600173473358,
+      "learning_rate": 5e-06,
+      "loss": 0.983,
+      "num_input_tokens_seen": 221697208,
+      "step": 488,
+      "train_runtime": 35229.7059,
+      "train_tokens_per_second": 6292.905
+    },
+    {
+      "epoch": 0.5920600838070734,
+      "grad_norm": 0.22348052263259888,
+      "learning_rate": 5e-06,
+      "loss": 1.0074,
+      "num_input_tokens_seen": 222148296,
+      "step": 489,
+      "train_runtime": 35300.089,
+      "train_tokens_per_second": 6293.137
+    },
+    {
+      "epoch": 0.5932708406246748,
+      "grad_norm": 0.26825666427612305,
+      "learning_rate": 5e-06,
+      "loss": 0.9512,
+      "num_input_tokens_seen": 222612856,
+      "step": 490,
+      "train_runtime": 35372.8665,
+      "train_tokens_per_second": 6293.322
+    },
+    {
+      "epoch": 0.5944815974422762,
+      "grad_norm": 0.23904314637184143,
+      "learning_rate": 5e-06,
+      "loss": 0.9923,
+      "num_input_tokens_seen": 223081152,
+      "step": 491,
+      "train_runtime": 35446.0463,
+      "train_tokens_per_second": 6293.541
+    },
+    {
+      "epoch": 0.5956923542598777,
+      "grad_norm": 0.2582261860370636,
+      "learning_rate": 5e-06,
+      "loss": 1.0427,
+      "num_input_tokens_seen": 223537072,
+      "step": 492,
+      "train_runtime": 35517.0699,
+      "train_tokens_per_second": 6293.793
+    },
+    {
+      "epoch": 0.596903111077479,
+      "grad_norm": 0.22952939569950104,
+      "learning_rate": 5e-06,
+      "loss": 0.9664,
+      "num_input_tokens_seen": 223980672,
+      "step": 493,
+      "train_runtime": 35585.9954,
+      "train_tokens_per_second": 6294.068
+    },
+    {
+      "epoch": 0.5981138678950804,
+      "grad_norm": 0.26730042695999146,
+      "learning_rate": 5e-06,
+      "loss": 1.0279,
+      "num_input_tokens_seen": 224426280,
+      "step": 494,
+      "train_runtime": 35655.3839,
+      "train_tokens_per_second": 6294.317
+    },
+    {
+      "epoch": 0.5993246247126818,
+      "grad_norm": 0.25793856382369995,
+      "learning_rate": 5e-06,
+      "loss": 1.0055,
+      "num_input_tokens_seen": 224884152,
+      "step": 495,
+      "train_runtime": 35726.9034,
+      "train_tokens_per_second": 6294.532
+    },
+    {
+      "epoch": 0.6005353815302831,
+      "grad_norm": 0.22298921644687653,
+      "learning_rate": 5e-06,
+      "loss": 0.9601,
+      "num_input_tokens_seen": 225350592,
+      "step": 496,
+      "train_runtime": 35799.441,
+      "train_tokens_per_second": 6294.808
+    },
+    {
+      "epoch": 0.6017461383478845,
+      "grad_norm": 0.26628899574279785,
+      "learning_rate": 5e-06,
+      "loss": 0.9805,
+      "num_input_tokens_seen": 225807448,
+      "step": 497,
+      "train_runtime": 35870.8365,
+      "train_tokens_per_second": 6295.015
+    },
+    {
+      "epoch": 0.6029568951654859,
+      "grad_norm": 0.22120925784111023,
+      "learning_rate": 5e-06,
+      "loss": 0.9208,
+      "num_input_tokens_seen": 226266528,
+      "step": 498,
+      "train_runtime": 35942.5822,
+      "train_tokens_per_second": 6295.222
+    },
+    {
+      "epoch": 0.6041676519830872,
+      "grad_norm": 0.24458245933055878,
+      "learning_rate": 5e-06,
+      "loss": 0.9881,
+      "num_input_tokens_seen": 226707672,
+      "step": 499,
+      "train_runtime": 36011.3021,
+      "train_tokens_per_second": 6295.459
+    },
+    {
+      "epoch": 0.6053784088006886,
+      "grad_norm": 0.24703119695186615,
+      "learning_rate": 5e-06,
+      "loss": 1.0137,
+      "num_input_tokens_seen": 227145656,
+      "step": 500,
+      "train_runtime": 36079.2522,
+      "train_tokens_per_second": 6295.742
+    },
+    {
+      "epoch": 0.60658916561829,
+      "grad_norm": 0.24142247438430786,
+      "learning_rate": 5e-06,
+      "loss": 0.9205,
+      "num_input_tokens_seen": 227611200,
+      "step": 501,
+      "train_runtime": 36151.1703,
+      "train_tokens_per_second": 6296.095
+    },
+    {
+      "epoch": 0.6077999224358914,
+      "grad_norm": 0.2489280104637146,
+      "learning_rate": 5e-06,
+      "loss": 1.0177,
+      "num_input_tokens_seen": 228059544,
+      "step": 502,
+      "train_runtime": 36220.9972,
+      "train_tokens_per_second": 6296.335
+    },
+    {
+      "epoch": 0.6090106792534927,
+      "grad_norm": 0.23111343383789062,
+      "learning_rate": 5e-06,
+      "loss": 0.962,
+      "num_input_tokens_seen": 228526064,
+      "step": 503,
+      "train_runtime": 36293.9384,
+      "train_tokens_per_second": 6296.535
+    },
+    {
+      "epoch": 0.6102214360710941,
+      "grad_norm": 0.24690377712249756,
+      "learning_rate": 5e-06,
+      "loss": 0.9986,
+      "num_input_tokens_seen": 228981232,
+      "step": 504,
+      "train_runtime": 36364.2956,
+      "train_tokens_per_second": 6296.87
+    },
+    {
+      "epoch": 0.6114321928886955,
+      "grad_norm": 0.2393392026424408,
+      "learning_rate": 5e-06,
+      "loss": 0.9866,
+      "num_input_tokens_seen": 229439688,
+      "step": 505,
+      "train_runtime": 36435.751,
+      "train_tokens_per_second": 6297.103
+    },
+    {
+      "epoch": 0.6126429497062968,
+      "grad_norm": 0.24542857706546783,
+      "learning_rate": 5e-06,
+      "loss": 0.9987,
+      "num_input_tokens_seen": 229910688,
+      "step": 506,
+      "train_runtime": 36509.419,
+      "train_tokens_per_second": 6297.298
+    },
+    {
+      "epoch": 0.6138537065238983,
+      "grad_norm": 0.24054135382175446,
+      "learning_rate": 5e-06,
+      "loss": 0.9829,
+      "num_input_tokens_seen": 230361040,
+      "step": 507,
+      "train_runtime": 36579.4262,
+      "train_tokens_per_second": 6297.558
+    },
+    {
+      "epoch": 0.6150644633414997,
+      "grad_norm": 0.24931353330612183,
+      "learning_rate": 5e-06,
+      "loss": 1.0582,
+      "num_input_tokens_seen": 230795008,
+      "step": 508,
+      "train_runtime": 36646.8551,
+      "train_tokens_per_second": 6297.812
+    },
+    {
+      "epoch": 0.616275220159101,
+      "grad_norm": 0.28090900182724,
+      "learning_rate": 5e-06,
+      "loss": 1.0016,
+      "num_input_tokens_seen": 231239392,
+      "step": 509,
+      "train_runtime": 36716.4303,
+      "train_tokens_per_second": 6297.981
+    },
+    {
+      "epoch": 0.6174859769767024,
+      "grad_norm": 0.2591536045074463,
+      "learning_rate": 5e-06,
+      "loss": 0.9496,
+      "num_input_tokens_seen": 231693192,
+      "step": 510,
+      "train_runtime": 36786.8129,
+      "train_tokens_per_second": 6298.268
+    },
+    {
+      "epoch": 0.6186967337943038,
+      "grad_norm": 0.24983936548233032,
+      "learning_rate": 5e-06,
+      "loss": 0.9667,
+      "num_input_tokens_seen": 232139528,
+      "step": 511,
+      "train_runtime": 36856.2058,
+      "train_tokens_per_second": 6298.519
+    },
+    {
+      "epoch": 0.6199074906119052,
+      "grad_norm": 0.23879870772361755,
+      "learning_rate": 5e-06,
+      "loss": 1.0292,
+      "num_input_tokens_seen": 232572720,
+      "step": 512,
+      "train_runtime": 36923.1252,
+      "train_tokens_per_second": 6298.836
+    },
+    {
+      "epoch": 0.6211182474295065,
+      "grad_norm": 0.24429570138454437,
+      "learning_rate": 5e-06,
+      "loss": 1.0124,
+      "num_input_tokens_seen": 233019736,
+      "step": 513,
+      "train_runtime": 36992.5361,
+      "train_tokens_per_second": 6299.101
+    },
+    {
+      "epoch": 0.6223290042471079,
+      "grad_norm": 0.24088793992996216,
+      "learning_rate": 5e-06,
+      "loss": 0.9629,
+      "num_input_tokens_seen": 233483920,
+      "step": 514,
+      "train_runtime": 37064.9551,
+      "train_tokens_per_second": 6299.317
+    },
+    {
+      "epoch": 0.6235397610647093,
+      "grad_norm": 0.2581544816493988,
+      "learning_rate": 5e-06,
+      "loss": 0.9591,
+      "num_input_tokens_seen": 233939496,
+      "step": 515,
+      "train_runtime": 37136.0969,
+      "train_tokens_per_second": 6299.518
+    },
+    {
+      "epoch": 0.6247505178823106,
+      "grad_norm": 0.2298753410577774,
+      "learning_rate": 5e-06,
+      "loss": 0.9898,
+      "num_input_tokens_seen": 234398968,
+      "step": 516,
+      "train_runtime": 37207.7335,
+      "train_tokens_per_second": 6299.738
+    },
+    {
+      "epoch": 0.625961274699912,
+      "grad_norm": 0.2409614771604538,
+      "learning_rate": 5e-06,
+      "loss": 0.9524,
+      "num_input_tokens_seen": 234840984,
+      "step": 517,
+      "train_runtime": 37276.4815,
+      "train_tokens_per_second": 6299.977
+    },
+    {
+      "epoch": 0.6271720315175134,
+      "grad_norm": 0.24182307720184326,
+      "learning_rate": 5e-06,
+      "loss": 0.9592,
+      "num_input_tokens_seen": 235265976,
+      "step": 518,
+      "train_runtime": 37342.2003,
+      "train_tokens_per_second": 6300.271
+    },
+    {
+      "epoch": 0.6283827883351147,
+      "grad_norm": 0.25573626160621643,
+      "learning_rate": 5e-06,
+      "loss": 0.9746,
+      "num_input_tokens_seen": 235751176,
+      "step": 519,
+      "train_runtime": 37417.9534,
+      "train_tokens_per_second": 6300.483
+    },
+    {
+      "epoch": 0.6295935451527161,
+      "grad_norm": 0.27016371488571167,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 236213584,
+      "step": 520,
+      "train_runtime": 37490.1733,
+      "train_tokens_per_second": 6300.68
+    },
+    {
+      "epoch": 0.6308043019703176,
+      "grad_norm": 0.24281057715415955,
+      "learning_rate": 5e-06,
+      "loss": 1.0085,
+      "num_input_tokens_seen": 236663272,
+      "step": 521,
+      "train_runtime": 37561.7456,
+      "train_tokens_per_second": 6300.646
+    },
+    {
+      "epoch": 0.632015058787919,
+      "grad_norm": 0.2382790446281433,
+      "learning_rate": 5e-06,
+      "loss": 1.0166,
+      "num_input_tokens_seen": 237104624,
+      "step": 522,
+      "train_runtime": 37630.4462,
+      "train_tokens_per_second": 6300.872
+    },
+    {
+      "epoch": 0.6332258156055203,
+      "grad_norm": 0.24074813723564148,
+      "learning_rate": 5e-06,
+      "loss": 1.0121,
+      "num_input_tokens_seen": 237572832,
+      "step": 523,
+      "train_runtime": 37703.3574,
+      "train_tokens_per_second": 6301.105
+    },
+    {
+      "epoch": 0.6344365724231217,
+      "grad_norm": 0.26703017950057983,
+      "learning_rate": 5e-06,
+      "loss": 0.99,
+      "num_input_tokens_seen": 238034928,
+      "step": 524,
+      "train_runtime": 37775.4137,
+      "train_tokens_per_second": 6301.319
+    },
+    {
+      "epoch": 0.6356473292407231,
+      "grad_norm": 0.31544211506843567,
+      "learning_rate": 5e-06,
+      "loss": 0.9136,
+      "num_input_tokens_seen": 238489256,
+      "step": 525,
+      "train_runtime": 37846.4867,
+      "train_tokens_per_second": 6301.49
+    },
+    {
+      "epoch": 0.6368580860583244,
+      "grad_norm": 0.2323281615972519,
+      "learning_rate": 5e-06,
+      "loss": 0.9803,
+      "num_input_tokens_seen": 238937608,
+      "step": 526,
+      "train_runtime": 37916.1928,
+      "train_tokens_per_second": 6301.73
+    },
+    {
+      "epoch": 0.6380688428759258,
+      "grad_norm": 0.22566953301429749,
+      "learning_rate": 5e-06,
+      "loss": 0.9496,
+      "num_input_tokens_seen": 239408904,
+      "step": 527,
+      "train_runtime": 37989.8164,
+      "train_tokens_per_second": 6301.923
+    },
+    {
+      "epoch": 0.6392795996935272,
+      "grad_norm": 0.24885083734989166,
+      "learning_rate": 5e-06,
+      "loss": 0.9671,
+      "num_input_tokens_seen": 239856616,
+      "step": 528,
+      "train_runtime": 38059.5861,
+      "train_tokens_per_second": 6302.134
+    },
+    {
+      "epoch": 0.6404903565111285,
+      "grad_norm": 0.2867506742477417,
+      "learning_rate": 5e-06,
+      "loss": 1.02,
+      "num_input_tokens_seen": 240342880,
+      "step": 529,
+      "train_runtime": 38136.0338,
+      "train_tokens_per_second": 6302.252
+    },
+    {
+      "epoch": 0.6417011133287299,
+      "grad_norm": 0.23189502954483032,
+      "learning_rate": 5e-06,
+      "loss": 1.0122,
+      "num_input_tokens_seen": 240799360,
+      "step": 530,
+      "train_runtime": 38207.0698,
+      "train_tokens_per_second": 6302.482
+    },
+    {
+      "epoch": 0.6429118701463313,
+      "grad_norm": 0.2151128053665161,
+      "learning_rate": 5e-06,
+      "loss": 0.9502,
+      "num_input_tokens_seen": 241285344,
+      "step": 531,
+      "train_runtime": 38282.6957,
+      "train_tokens_per_second": 6302.726
+    },
+    {
+      "epoch": 0.6441226269639327,
+      "grad_norm": 0.23497872054576874,
+      "learning_rate": 5e-06,
+      "loss": 1.0372,
+      "num_input_tokens_seen": 241748624,
+      "step": 532,
+      "train_runtime": 38355.235,
+      "train_tokens_per_second": 6302.885
+    },
+    {
+      "epoch": 0.645333383781534,
+      "grad_norm": 0.22813764214515686,
+      "learning_rate": 5e-06,
+      "loss": 0.936,
+      "num_input_tokens_seen": 242200600,
+      "step": 533,
+      "train_runtime": 38425.9554,
+      "train_tokens_per_second": 6303.047
+    },
+    {
+      "epoch": 0.6465441405991355,
+      "grad_norm": 0.2369297444820404,
+      "learning_rate": 5e-06,
+      "loss": 0.9499,
+      "num_input_tokens_seen": 242661128,
+      "step": 534,
+      "train_runtime": 38497.3268,
+      "train_tokens_per_second": 6303.324
+    },
+    {
+      "epoch": 0.6477548974167369,
+      "grad_norm": 0.2485128939151764,
+      "learning_rate": 5e-06,
+      "loss": 0.984,
+      "num_input_tokens_seen": 243128592,
+      "step": 535,
+      "train_runtime": 38570.5127,
+      "train_tokens_per_second": 6303.484
+    },
+    {
+      "epoch": 0.6489656542343382,
+      "grad_norm": 0.23329830169677734,
+      "learning_rate": 5e-06,
+      "loss": 0.9638,
+      "num_input_tokens_seen": 243580072,
+      "step": 536,
+      "train_runtime": 38640.2643,
+      "train_tokens_per_second": 6303.789
+    },
+    {
+      "epoch": 0.6501764110519396,
+      "grad_norm": 0.2227838784456253,
+      "learning_rate": 5e-06,
+      "loss": 0.9573,
+      "num_input_tokens_seen": 244042008,
+      "step": 537,
+      "train_runtime": 38712.1042,
+      "train_tokens_per_second": 6304.023
+    },
+    {
+      "epoch": 0.651387167869541,
+      "grad_norm": 0.22910352051258087,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 244490152,
+      "step": 538,
+      "train_runtime": 38782.3373,
+      "train_tokens_per_second": 6304.162
+    },
+    {
+      "epoch": 0.6525979246871423,
+      "grad_norm": 0.24009035527706146,
+      "learning_rate": 5e-06,
+      "loss": 0.9842,
+      "num_input_tokens_seen": 244958928,
+      "step": 539,
+      "train_runtime": 38855.1605,
+      "train_tokens_per_second": 6304.412
+    },
+    {
+      "epoch": 0.6538086815047437,
+      "grad_norm": 0.232088103890419,
+      "learning_rate": 5e-06,
+      "loss": 0.9951,
+      "num_input_tokens_seen": 245409888,
+      "step": 540,
+      "train_runtime": 38925.8637,
+      "train_tokens_per_second": 6304.546
+    },
+    {
+      "epoch": 0.6550194383223451,
+      "grad_norm": 0.27717524766921997,
+      "learning_rate": 5e-06,
+      "loss": 1.0204,
+      "num_input_tokens_seen": 245860728,
+      "step": 541,
+      "train_runtime": 38995.7398,
+      "train_tokens_per_second": 6304.81
+    },
+    {
+      "epoch": 0.6562301951399465,
+      "grad_norm": 0.22988007962703705,
+      "learning_rate": 5e-06,
+      "loss": 0.9889,
+      "num_input_tokens_seen": 246299864,
+      "step": 542,
+      "train_runtime": 39064.3271,
+      "train_tokens_per_second": 6304.982
+    },
+    {
+      "epoch": 0.6574409519575478,
+      "grad_norm": 0.21664994955062866,
+      "learning_rate": 5e-06,
+      "loss": 0.9719,
+      "num_input_tokens_seen": 246777792,
+      "step": 543,
+      "train_runtime": 39139.2212,
+      "train_tokens_per_second": 6305.128
+    },
+    {
+      "epoch": 0.6586517087751492,
+      "grad_norm": 0.23201525211334229,
+      "learning_rate": 5e-06,
+      "loss": 0.9516,
+      "num_input_tokens_seen": 247213536,
+      "step": 544,
+      "train_runtime": 39206.717,
+      "train_tokens_per_second": 6305.387
+    },
+    {
+      "epoch": 0.6598624655927506,
+      "grad_norm": 0.2412644624710083,
+      "learning_rate": 5e-06,
+      "loss": 1.0171,
+      "num_input_tokens_seen": 247655632,
+      "step": 545,
+      "train_runtime": 39275.488,
+      "train_tokens_per_second": 6305.603
+    },
+    {
+      "epoch": 0.6610732224103519,
+      "grad_norm": 0.2807646691799164,
+      "learning_rate": 5e-06,
+      "loss": 0.9558,
+      "num_input_tokens_seen": 248112512,
+      "step": 546,
+      "train_runtime": 39346.817,
+      "train_tokens_per_second": 6305.784
+    },
+    {
+      "epoch": 0.6622839792279533,
+      "grad_norm": 0.2552436888217926,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 248543176,
+      "step": 547,
+      "train_runtime": 39413.1641,
+      "train_tokens_per_second": 6306.095
+    },
+    {
+      "epoch": 0.6634947360455548,
+      "grad_norm": 0.2214186191558838,
+      "learning_rate": 5e-06,
+      "loss": 0.9624,
+      "num_input_tokens_seen": 248985160,
+      "step": 548,
+      "train_runtime": 39482.1921,
+      "train_tokens_per_second": 6306.265
+    },
+    {
+      "epoch": 0.6647054928631561,
+      "grad_norm": 0.24030745029449463,
+      "learning_rate": 5e-06,
+      "loss": 0.9839,
+      "num_input_tokens_seen": 249429704,
+      "step": 549,
+      "train_runtime": 39551.3491,
+      "train_tokens_per_second": 6306.478
+    },
+    {
+      "epoch": 0.6659162496807575,
+      "grad_norm": 0.23489521443843842,
+      "learning_rate": 5e-06,
+      "loss": 0.9455,
+      "num_input_tokens_seen": 249889432,
+      "step": 550,
+      "train_runtime": 39622.7881,
+      "train_tokens_per_second": 6306.71
+    },
+    {
+      "epoch": 0.6671270064983589,
+      "grad_norm": 0.24063046276569366,
+      "learning_rate": 5e-06,
+      "loss": 1.0,
+      "num_input_tokens_seen": 250325736,
+      "step": 551,
+      "train_runtime": 39690.0826,
+      "train_tokens_per_second": 6307.01
+    },
+    {
+      "epoch": 0.6683377633159603,
+      "grad_norm": 0.22540496289730072,
+      "learning_rate": 5e-06,
+      "loss": 0.9921,
+      "num_input_tokens_seen": 250785944,
+      "step": 552,
+      "train_runtime": 39761.8576,
+      "train_tokens_per_second": 6307.199
+    },
+    {
+      "epoch": 0.6695485201335616,
+      "grad_norm": 0.2306659072637558,
+      "learning_rate": 5e-06,
+      "loss": 0.9541,
+      "num_input_tokens_seen": 251249584,
+      "step": 553,
+      "train_runtime": 39834.0319,
+      "train_tokens_per_second": 6307.41
+    },
+    {
+      "epoch": 0.670759276951163,
+      "grad_norm": 0.24347856640815735,
+      "learning_rate": 5e-06,
+      "loss": 0.9769,
+      "num_input_tokens_seen": 251697752,
+      "step": 554,
+      "train_runtime": 39904.0654,
+      "train_tokens_per_second": 6307.572
+    },
+    {
+      "epoch": 0.6719700337687644,
+      "grad_norm": 0.2558618187904358,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 252157024,
+      "step": 555,
+      "train_runtime": 39975.4875,
+      "train_tokens_per_second": 6307.791
+    },
+    {
+      "epoch": 0.6731807905863657,
+      "grad_norm": 0.2455194890499115,
+      "learning_rate": 5e-06,
+      "loss": 1.0343,
+      "num_input_tokens_seen": 252624768,
+      "step": 556,
+      "train_runtime": 40048.3193,
+      "train_tokens_per_second": 6307.999
+    },
+    {
+      "epoch": 0.6743915474039671,
+      "grad_norm": 0.2299470454454422,
+      "learning_rate": 5e-06,
+      "loss": 0.982,
+      "num_input_tokens_seen": 253113208,
+      "step": 557,
+      "train_runtime": 40124.0351,
+      "train_tokens_per_second": 6308.269
+    },
+    {
+      "epoch": 0.6756023042215685,
+      "grad_norm": 0.2273668348789215,
+      "learning_rate": 5e-06,
+      "loss": 0.9321,
+      "num_input_tokens_seen": 253548664,
+      "step": 558,
+      "train_runtime": 40192.1439,
+      "train_tokens_per_second": 6308.414
+    },
+    {
+      "epoch": 0.6768130610391698,
+      "grad_norm": 0.2353869080543518,
+      "learning_rate": 5e-06,
+      "loss": 0.9414,
+      "num_input_tokens_seen": 254002376,
+      "step": 559,
+      "train_runtime": 40262.9517,
+      "train_tokens_per_second": 6308.588
+    },
+    {
+      "epoch": 0.6780238178567712,
+      "grad_norm": 0.22576971352100372,
+      "learning_rate": 5e-06,
+      "loss": 0.9887,
+      "num_input_tokens_seen": 254443952,
+      "step": 560,
+      "train_runtime": 40331.6289,
+      "train_tokens_per_second": 6308.794
+    },
+    {
+      "epoch": 0.6792345746743726,
+      "grad_norm": 0.22624272108078003,
+      "learning_rate": 5e-06,
+      "loss": 0.9121,
+      "num_input_tokens_seen": 254911344,
+      "step": 561,
+      "train_runtime": 40404.3092,
+      "train_tokens_per_second": 6309.014
+    },
+    {
+      "epoch": 0.6804453314919741,
+      "grad_norm": 0.2185974419116974,
+      "learning_rate": 5e-06,
+      "loss": 0.9243,
+      "num_input_tokens_seen": 255377664,
+      "step": 562,
+      "train_runtime": 40477.1115,
+      "train_tokens_per_second": 6309.187
+    },
+    {
+      "epoch": 0.6816560883095754,
+      "grad_norm": 0.22251008450984955,
+      "learning_rate": 5e-06,
+      "loss": 0.9011,
+      "num_input_tokens_seen": 255833336,
+      "step": 563,
+      "train_runtime": 40548.4408,
+      "train_tokens_per_second": 6309.326
+    },
+    {
+      "epoch": 0.6828668451271768,
+      "grad_norm": 0.23521266877651215,
+      "learning_rate": 5e-06,
+      "loss": 0.9787,
+      "num_input_tokens_seen": 256301336,
+      "step": 564,
+      "train_runtime": 40621.3067,
+      "train_tokens_per_second": 6309.53
+    },
+    {
+      "epoch": 0.6840776019447782,
+      "grad_norm": 0.2637956440448761,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 256761416,
+      "step": 565,
+      "train_runtime": 40693.2274,
+      "train_tokens_per_second": 6309.684
+    },
+    {
+      "epoch": 0.6852883587623795,
+      "grad_norm": 0.23881720006465912,
+      "learning_rate": 5e-06,
+      "loss": 1.0131,
+      "num_input_tokens_seen": 257211376,
+      "step": 566,
+      "train_runtime": 40763.5757,
+      "train_tokens_per_second": 6309.834
+    },
+    {
+      "epoch": 0.6864991155799809,
+      "grad_norm": 0.23504596948623657,
+      "learning_rate": 5e-06,
+      "loss": 0.9946,
+      "num_input_tokens_seen": 257669744,
+      "step": 567,
+      "train_runtime": 40834.9767,
+      "train_tokens_per_second": 6310.025
+    },
+    {
+      "epoch": 0.6877098723975823,
+      "grad_norm": 0.22577445209026337,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 258128040,
+      "step": 568,
+      "train_runtime": 40906.4809,
+      "train_tokens_per_second": 6310.199
+    },
+    {
+      "epoch": 0.6889206292151836,
+      "grad_norm": 0.24191945791244507,
+      "learning_rate": 5e-06,
+      "loss": 0.9935,
+      "num_input_tokens_seen": 258575712,
+      "step": 569,
+      "train_runtime": 40976.425,
+      "train_tokens_per_second": 6310.353
+    },
+    {
+      "epoch": 0.690131386032785,
+      "grad_norm": 0.23592589795589447,
+      "learning_rate": 5e-06,
+      "loss": 0.9547,
+      "num_input_tokens_seen": 259039864,
+      "step": 570,
+      "train_runtime": 41048.2903,
+      "train_tokens_per_second": 6310.613
+    },
+    {
+      "epoch": 0.6913421428503864,
+      "grad_norm": 0.23204831779003143,
+      "learning_rate": 5e-06,
+      "loss": 0.9409,
+      "num_input_tokens_seen": 259505856,
+      "step": 571,
+      "train_runtime": 41121.4188,
+      "train_tokens_per_second": 6310.722
+    },
+    {
+      "epoch": 0.6925528996679878,
+      "grad_norm": 0.23110359907150269,
+      "learning_rate": 5e-06,
+      "loss": 0.9908,
+      "num_input_tokens_seen": 259970968,
+      "step": 572,
+      "train_runtime": 41194.822,
+      "train_tokens_per_second": 6310.768
+    },
+    {
+      "epoch": 0.6937636564855891,
+      "grad_norm": 0.2301538735628128,
+      "learning_rate": 5e-06,
+      "loss": 0.9846,
+      "num_input_tokens_seen": 260449376,
+      "step": 573,
+      "train_runtime": 41269.549,
+      "train_tokens_per_second": 6310.933
+    },
+    {
+      "epoch": 0.6949744133031905,
+      "grad_norm": 0.23412424325942993,
+      "learning_rate": 5e-06,
+      "loss": 0.9713,
+      "num_input_tokens_seen": 260910664,
+      "step": 574,
+      "train_runtime": 41341.5032,
+      "train_tokens_per_second": 6311.107
+    },
+    {
+      "epoch": 0.696185170120792,
+      "grad_norm": 0.2345420867204666,
+      "learning_rate": 5e-06,
+      "loss": 1.0265,
+      "num_input_tokens_seen": 261349104,
+      "step": 575,
+      "train_runtime": 41409.221,
+      "train_tokens_per_second": 6311.375
+    },
+    {
+      "epoch": 0.6973959269383933,
+      "grad_norm": 0.2388794869184494,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 261807744,
+      "step": 576,
+      "train_runtime": 41480.6661,
+      "train_tokens_per_second": 6311.561
+    },
+    {
+      "epoch": 0.6986066837559947,
+      "grad_norm": 0.27313232421875,
+      "learning_rate": 5e-06,
+      "loss": 0.9973,
+      "num_input_tokens_seen": 262231864,
+      "step": 577,
+      "train_runtime": 41546.1729,
+      "train_tokens_per_second": 6311.818
+    },
+    {
+      "epoch": 0.6998174405735961,
+      "grad_norm": 0.2250782698392868,
+      "learning_rate": 5e-06,
+      "loss": 0.9869,
+      "num_input_tokens_seen": 262715224,
+      "step": 578,
+      "train_runtime": 41621.5112,
+      "train_tokens_per_second": 6312.006
+    },
+    {
+      "epoch": 0.7010281973911974,
+      "grad_norm": 0.2509269714355469,
+      "learning_rate": 5e-06,
+      "loss": 0.9775,
+      "num_input_tokens_seen": 263176488,
+      "step": 579,
+      "train_runtime": 41693.4808,
+      "train_tokens_per_second": 6312.174
+    },
+    {
+      "epoch": 0.7022389542087988,
+      "grad_norm": 0.2787635624408722,
+      "learning_rate": 5e-06,
+      "loss": 1.002,
+      "num_input_tokens_seen": 263610608,
+      "step": 580,
+      "train_runtime": 41761.0277,
+      "train_tokens_per_second": 6312.359
+    },
+    {
+      "epoch": 0.7034497110264002,
+      "grad_norm": 0.23429201543331146,
+      "learning_rate": 5e-06,
+      "loss": 0.9957,
+      "num_input_tokens_seen": 264088768,
+      "step": 581,
+      "train_runtime": 41835.8378,
+      "train_tokens_per_second": 6312.501
+    },
+    {
+      "epoch": 0.7046604678440016,
+      "grad_norm": 0.21760432422161102,
+      "learning_rate": 5e-06,
+      "loss": 0.9657,
+      "num_input_tokens_seen": 264544496,
+      "step": 582,
+      "train_runtime": 41907.0545,
+      "train_tokens_per_second": 6312.648
+    },
+    {
+      "epoch": 0.7058712246616029,
+      "grad_norm": 0.248090460896492,
+      "learning_rate": 5e-06,
+      "loss": 1.0259,
+      "num_input_tokens_seen": 264988656,
+      "step": 583,
+      "train_runtime": 41976.0921,
+      "train_tokens_per_second": 6312.847
+    },
+    {
+      "epoch": 0.7070819814792043,
+      "grad_norm": 0.23136785626411438,
+      "learning_rate": 5e-06,
+      "loss": 0.9822,
+      "num_input_tokens_seen": 265423208,
+      "step": 584,
+      "train_runtime": 42043.4666,
+      "train_tokens_per_second": 6313.067
+    },
+    {
+      "epoch": 0.7082927382968057,
+      "grad_norm": 0.2529706358909607,
+      "learning_rate": 5e-06,
+      "loss": 1.0446,
+      "num_input_tokens_seen": 265854688,
+      "step": 585,
+      "train_runtime": 42110.6206,
+      "train_tokens_per_second": 6313.246
+    },
+    {
+      "epoch": 0.709503495114407,
+      "grad_norm": 0.24560308456420898,
+      "learning_rate": 5e-06,
+      "loss": 0.9233,
+      "num_input_tokens_seen": 266311664,
+      "step": 586,
+      "train_runtime": 42182.4609,
+      "train_tokens_per_second": 6313.327
+    },
+    {
+      "epoch": 0.7107142519320084,
+      "grad_norm": 0.24339045584201813,
+      "learning_rate": 5e-06,
+      "loss": 0.9799,
+      "num_input_tokens_seen": 266756048,
+      "step": 587,
+      "train_runtime": 42251.4986,
+      "train_tokens_per_second": 6313.529
+    },
+    {
+      "epoch": 0.7119250087496098,
+      "grad_norm": 0.22854940593242645,
+      "learning_rate": 5e-06,
+      "loss": 0.9886,
+      "num_input_tokens_seen": 267210376,
+      "step": 588,
+      "train_runtime": 42321.7976,
+      "train_tokens_per_second": 6313.777
+    },
+    {
+      "epoch": 0.7131357655672111,
+      "grad_norm": 0.24025574326515198,
+      "learning_rate": 5e-06,
+      "loss": 0.92,
+      "num_input_tokens_seen": 267660896,
+      "step": 589,
+      "train_runtime": 42392.4873,
+      "train_tokens_per_second": 6313.876
+    },
+    {
+      "epoch": 0.7143465223848126,
+      "grad_norm": 0.2508932054042816,
+      "learning_rate": 5e-06,
+      "loss": 1.0165,
+      "num_input_tokens_seen": 268113168,
+      "step": 590,
+      "train_runtime": 42462.8573,
+      "train_tokens_per_second": 6314.063
+    },
+    {
+      "epoch": 0.715557279202414,
+      "grad_norm": 0.24230146408081055,
+      "learning_rate": 5e-06,
+      "loss": 0.9882,
+      "num_input_tokens_seen": 268574272,
+      "step": 591,
+      "train_runtime": 42534.2219,
+      "train_tokens_per_second": 6314.31
+    },
+    {
+      "epoch": 0.7167680360200154,
+      "grad_norm": 0.23562973737716675,
+      "learning_rate": 5e-06,
+      "loss": 1.012,
+      "num_input_tokens_seen": 269043528,
+      "step": 592,
+      "train_runtime": 42606.947,
+      "train_tokens_per_second": 6314.546
+    },
+    {
+      "epoch": 0.7179787928376167,
+      "grad_norm": 0.2341059297323227,
+      "learning_rate": 5e-06,
+      "loss": 1.0073,
+      "num_input_tokens_seen": 269523064,
+      "step": 593,
+      "train_runtime": 42681.8077,
+      "train_tokens_per_second": 6314.706
+    },
+    {
+      "epoch": 0.7191895496552181,
+      "grad_norm": 0.2380225509405136,
+      "learning_rate": 5e-06,
+      "loss": 0.9657,
+      "num_input_tokens_seen": 269981784,
+      "step": 594,
+      "train_runtime": 42753.4941,
+      "train_tokens_per_second": 6314.847
+    },
+    {
+      "epoch": 0.7204003064728195,
+      "grad_norm": 0.2389514148235321,
+      "learning_rate": 5e-06,
+      "loss": 0.9869,
+      "num_input_tokens_seen": 270421760,
+      "step": 595,
+      "train_runtime": 42822.2596,
+      "train_tokens_per_second": 6314.981
+    },
+    {
+      "epoch": 0.7216110632904208,
+      "grad_norm": 0.24948102235794067,
+      "learning_rate": 5e-06,
+      "loss": 0.9544,
+      "num_input_tokens_seen": 270861744,
+      "step": 596,
+      "train_runtime": 42891.0541,
+      "train_tokens_per_second": 6315.11
+    },
+    {
+      "epoch": 0.7228218201080222,
+      "grad_norm": 0.25714853405952454,
+      "learning_rate": 5e-06,
+      "loss": 0.994,
+      "num_input_tokens_seen": 271296104,
+      "step": 597,
+      "train_runtime": 42958.6929,
+      "train_tokens_per_second": 6315.278
+    },
+    {
+      "epoch": 0.7240325769256236,
+      "grad_norm": 0.23045891523361206,
+      "learning_rate": 5e-06,
+      "loss": 0.9594,
+      "num_input_tokens_seen": 271751872,
+      "step": 598,
+      "train_runtime": 43029.9594,
+      "train_tokens_per_second": 6315.411
+    },
+    {
+      "epoch": 0.7252433337432249,
+      "grad_norm": 0.23973950743675232,
+      "learning_rate": 5e-06,
+      "loss": 1.0007,
+      "num_input_tokens_seen": 272182760,
+      "step": 599,
+      "train_runtime": 43096.7924,
+      "train_tokens_per_second": 6315.615
+    },
+    {
+      "epoch": 0.7264540905608263,
+      "grad_norm": 0.23554377257823944,
+      "learning_rate": 5e-06,
+      "loss": 0.9565,
+      "num_input_tokens_seen": 272631360,
+      "step": 600,
+      "train_runtime": 43166.6123,
+      "train_tokens_per_second": 6315.792
+    },
+    {
+      "epoch": 0.7276648473784277,
+      "grad_norm": 0.24061642587184906,
+      "learning_rate": 5e-06,
+      "loss": 0.9714,
+      "num_input_tokens_seen": 273087768,
+      "step": 601,
+      "train_runtime": 43237.8394,
+      "train_tokens_per_second": 6315.944
+    },
+    {
+      "epoch": 0.7288756041960291,
+      "grad_norm": 0.23701608180999756,
+      "learning_rate": 5e-06,
+      "loss": 0.9918,
+      "num_input_tokens_seen": 273545024,
+      "step": 602,
+      "train_runtime": 43309.1444,
+      "train_tokens_per_second": 6316.103
+    },
+    {
+      "epoch": 0.7300863610136304,
+      "grad_norm": 0.23831920325756073,
+      "learning_rate": 5e-06,
+      "loss": 0.9747,
+      "num_input_tokens_seen": 273993320,
+      "step": 603,
+      "train_runtime": 43379.1503,
+      "train_tokens_per_second": 6316.245
+    },
+    {
+      "epoch": 0.7312971178312319,
+      "grad_norm": 0.22237437963485718,
+      "learning_rate": 5e-06,
+      "loss": 0.9567,
+      "num_input_tokens_seen": 274442800,
+      "step": 604,
+      "train_runtime": 43448.8521,
+      "train_tokens_per_second": 6316.457
+    },
+    {
+      "epoch": 0.7325078746488333,
+      "grad_norm": 0.30931001901626587,
+      "learning_rate": 5e-06,
+      "loss": 0.9831,
+      "num_input_tokens_seen": 274887544,
+      "step": 605,
+      "train_runtime": 43517.5812,
+      "train_tokens_per_second": 6316.701
+    },
+    {
+      "epoch": 0.7337186314664346,
+      "grad_norm": 0.23581911623477936,
+      "learning_rate": 5e-06,
+      "loss": 0.9202,
+      "num_input_tokens_seen": 275352664,
+      "step": 606,
+      "train_runtime": 43590.2263,
+      "train_tokens_per_second": 6316.844
+    },
+    {
+      "epoch": 0.734929388284036,
+      "grad_norm": 0.2689816951751709,
+      "learning_rate": 5e-06,
+      "loss": 1.0085,
+      "num_input_tokens_seen": 275804984,
+      "step": 607,
+      "train_runtime": 43660.6992,
+      "train_tokens_per_second": 6317.008
+    },
+    {
+      "epoch": 0.7361401451016374,
+      "grad_norm": 0.2378932386636734,
+      "learning_rate": 5e-06,
+      "loss": 0.9458,
+      "num_input_tokens_seen": 276247352,
+      "step": 608,
+      "train_runtime": 43729.3613,
+      "train_tokens_per_second": 6317.205
+    },
+    {
+      "epoch": 0.7373509019192387,
+      "grad_norm": 0.22164365649223328,
+      "learning_rate": 5e-06,
+      "loss": 0.9847,
+      "num_input_tokens_seen": 276707568,
+      "step": 609,
+      "train_runtime": 43800.9856,
+      "train_tokens_per_second": 6317.382
+    },
+    {
+      "epoch": 0.7385616587368401,
+      "grad_norm": 0.23126821219921112,
+      "learning_rate": 5e-06,
+      "loss": 0.9935,
+      "num_input_tokens_seen": 277170312,
+      "step": 610,
+      "train_runtime": 43873.0149,
+      "train_tokens_per_second": 6317.558
+    },
+    {
+      "epoch": 0.7397724155544415,
+      "grad_norm": 0.23724284768104553,
+      "learning_rate": 5e-06,
+      "loss": 0.9627,
+      "num_input_tokens_seen": 277620736,
+      "step": 611,
+      "train_runtime": 43943.152,
+      "train_tokens_per_second": 6317.725
+    },
+    {
+      "epoch": 0.7409831723720429,
+      "grad_norm": 0.2428486943244934,
+      "learning_rate": 5e-06,
+      "loss": 0.9938,
+      "num_input_tokens_seen": 278074992,
+      "step": 612,
+      "train_runtime": 44013.5354,
+      "train_tokens_per_second": 6317.943
+    },
+    {
+      "epoch": 0.7421939291896442,
+      "grad_norm": 0.24035997688770294,
+      "learning_rate": 5e-06,
+      "loss": 0.9386,
+      "num_input_tokens_seen": 278525848,
+      "step": 613,
+      "train_runtime": 44083.3847,
+      "train_tokens_per_second": 6318.159
+    },
+    {
+      "epoch": 0.7434046860072456,
+      "grad_norm": 0.23970334231853485,
+      "learning_rate": 5e-06,
+      "loss": 0.9874,
+      "num_input_tokens_seen": 278966440,
+      "step": 614,
+      "train_runtime": 44151.8915,
+      "train_tokens_per_second": 6318.335
+    },
+    {
+      "epoch": 0.744615442824847,
+      "grad_norm": 0.213746577501297,
+      "learning_rate": 5e-06,
+      "loss": 0.9763,
+      "num_input_tokens_seen": 279449936,
+      "step": 615,
+      "train_runtime": 44227.7947,
+      "train_tokens_per_second": 6318.423
+    },
+    {
+      "epoch": 0.7458261996424483,
+      "grad_norm": 0.2598293423652649,
+      "learning_rate": 5e-06,
+      "loss": 0.9765,
+      "num_input_tokens_seen": 279890568,
+      "step": 616,
+      "train_runtime": 44296.6434,
+      "train_tokens_per_second": 6318.55
+    },
+    {
+      "epoch": 0.7470369564600498,
+      "grad_norm": 0.2453431487083435,
+      "learning_rate": 5e-06,
+      "loss": 0.9433,
+      "num_input_tokens_seen": 280349072,
+      "step": 617,
+      "train_runtime": 44367.5664,
+      "train_tokens_per_second": 6318.784
+    },
+    {
+      "epoch": 0.7482477132776512,
+      "grad_norm": 0.23078188300132751,
+      "learning_rate": 5e-06,
+      "loss": 0.9357,
+      "num_input_tokens_seen": 280821128,
+      "step": 618,
+      "train_runtime": 44441.7787,
+      "train_tokens_per_second": 6318.854
+    },
+    {
+      "epoch": 0.7494584700952525,
+      "grad_norm": 0.23313450813293457,
+      "learning_rate": 5e-06,
+      "loss": 0.9628,
+      "num_input_tokens_seen": 281279568,
+      "step": 619,
+      "train_runtime": 44513.2227,
+      "train_tokens_per_second": 6319.012
+    },
+    {
+      "epoch": 0.7506692269128539,
+      "grad_norm": 0.21814242005348206,
+      "learning_rate": 5e-06,
+      "loss": 0.9312,
+      "num_input_tokens_seen": 281738128,
+      "step": 620,
+      "train_runtime": 44584.8919,
+      "train_tokens_per_second": 6319.139
+    },
+    {
+      "epoch": 0.7518799837304553,
+      "grad_norm": 0.2563712000846863,
+      "learning_rate": 5e-06,
+      "loss": 0.9814,
+      "num_input_tokens_seen": 282181152,
+      "step": 621,
+      "train_runtime": 44653.7827,
+      "train_tokens_per_second": 6319.311
+    },
+    {
+      "epoch": 0.7530907405480567,
+      "grad_norm": 0.2649373412132263,
+      "learning_rate": 5e-06,
+      "loss": 1.0402,
+      "num_input_tokens_seen": 282631384,
+      "step": 622,
+      "train_runtime": 44724.7127,
+      "train_tokens_per_second": 6319.356
+    },
+    {
+      "epoch": 0.754301497365658,
+      "grad_norm": 0.22597451508045197,
+      "learning_rate": 5e-06,
+      "loss": 0.9611,
+      "num_input_tokens_seen": 283073568,
+      "step": 623,
+      "train_runtime": 44794.6422,
+      "train_tokens_per_second": 6319.362
+    },
+    {
+      "epoch": 0.7555122541832594,
+      "grad_norm": 0.24213433265686035,
+      "learning_rate": 5e-06,
+      "loss": 0.9404,
+      "num_input_tokens_seen": 283512448,
+      "step": 624,
+      "train_runtime": 44862.7569,
+      "train_tokens_per_second": 6319.55
+    },
+    {
+      "epoch": 0.7567230110008608,
+      "grad_norm": 0.2487850785255432,
+      "learning_rate": 5e-06,
+      "loss": 0.9387,
+      "num_input_tokens_seen": 283970752,
+      "step": 625,
+      "train_runtime": 44934.4627,
+      "train_tokens_per_second": 6319.665
+    },
+    {
+      "epoch": 0.7579337678184621,
+      "grad_norm": 0.2626650333404541,
+      "learning_rate": 5e-06,
+      "loss": 0.9924,
+      "num_input_tokens_seen": 284447624,
+      "step": 626,
+      "train_runtime": 45008.9717,
+      "train_tokens_per_second": 6319.798
+    },
+    {
+      "epoch": 0.7591445246360635,
+      "grad_norm": 0.24381890892982483,
+      "learning_rate": 5e-06,
+      "loss": 0.9668,
+      "num_input_tokens_seen": 284896224,
+      "step": 627,
+      "train_runtime": 45078.7734,
+      "train_tokens_per_second": 6319.964
+    },
+    {
+      "epoch": 0.7603552814536649,
+      "grad_norm": 0.22962401807308197,
+      "learning_rate": 5e-06,
+      "loss": 1.0086,
+      "num_input_tokens_seen": 285355952,
+      "step": 628,
+      "train_runtime": 45150.4275,
+      "train_tokens_per_second": 6320.116
+    },
+    {
+      "epoch": 0.7615660382712662,
+      "grad_norm": 0.23533271253108978,
+      "learning_rate": 5e-06,
+      "loss": 0.9176,
+      "num_input_tokens_seen": 285807352,
+      "step": 629,
+      "train_runtime": 45220.9764,
+      "train_tokens_per_second": 6320.238
+    },
+    {
+      "epoch": 0.7627767950888676,
+      "grad_norm": 0.24772769212722778,
+      "learning_rate": 5e-06,
+      "loss": 0.9566,
+      "num_input_tokens_seen": 286283944,
+      "step": 630,
+      "train_runtime": 45294.8924,
+      "train_tokens_per_second": 6320.447
+    },
+    {
+      "epoch": 0.763987551906469,
+      "grad_norm": 0.2620101571083069,
+      "learning_rate": 5e-06,
+      "loss": 0.9959,
+      "num_input_tokens_seen": 286733384,
+      "step": 631,
+      "train_runtime": 45364.8652,
+      "train_tokens_per_second": 6320.605
+    },
+    {
+      "epoch": 0.7651983087240705,
+      "grad_norm": 0.23930427432060242,
+      "learning_rate": 5e-06,
+      "loss": 0.9519,
+      "num_input_tokens_seen": 287216280,
+      "step": 632,
+      "train_runtime": 45439.9774,
+      "train_tokens_per_second": 6320.784
+    },
+    {
+      "epoch": 0.7664090655416718,
+      "grad_norm": 0.24364081025123596,
+      "learning_rate": 5e-06,
+      "loss": 1.033,
+      "num_input_tokens_seen": 287686200,
+      "step": 633,
+      "train_runtime": 45513.7576,
+      "train_tokens_per_second": 6320.862
+    },
+    {
+      "epoch": 0.7676198223592732,
+      "grad_norm": 0.2459454983472824,
+      "learning_rate": 5e-06,
+      "loss": 0.9851,
+      "num_input_tokens_seen": 288132976,
+      "step": 634,
+      "train_runtime": 45583.2033,
+      "train_tokens_per_second": 6321.034
+    },
+    {
+      "epoch": 0.7688305791768746,
+      "grad_norm": 0.2267904430627823,
+      "learning_rate": 5e-06,
+      "loss": 0.9701,
+      "num_input_tokens_seen": 288590576,
+      "step": 635,
+      "train_runtime": 45654.2868,
+      "train_tokens_per_second": 6321.215
+    },
+    {
+      "epoch": 0.7700413359944759,
+      "grad_norm": 0.2215666025876999,
+      "learning_rate": 5e-06,
+      "loss": 0.9455,
+      "num_input_tokens_seen": 289047888,
+      "step": 636,
+      "train_runtime": 45725.6961,
+      "train_tokens_per_second": 6321.345
+    },
+    {
+      "epoch": 0.7712520928120773,
+      "grad_norm": 0.23759250342845917,
+      "learning_rate": 5e-06,
+      "loss": 0.9361,
+      "num_input_tokens_seen": 289499480,
+      "step": 637,
+      "train_runtime": 45796.0887,
+      "train_tokens_per_second": 6321.489
+    },
+    {
+      "epoch": 0.7724628496296787,
+      "grad_norm": 0.23697270452976227,
+      "learning_rate": 5e-06,
+      "loss": 0.9343,
+      "num_input_tokens_seen": 289956856,
+      "step": 638,
+      "train_runtime": 45867.4221,
+      "train_tokens_per_second": 6321.63
+    },
+    {
+      "epoch": 0.77367360644728,
+      "grad_norm": 0.2574046552181244,
+      "learning_rate": 5e-06,
+      "loss": 1.0023,
+      "num_input_tokens_seen": 290374696,
+      "step": 639,
+      "train_runtime": 45932.2172,
+      "train_tokens_per_second": 6321.809
+    },
+    {
+      "epoch": 0.7748843632648814,
+      "grad_norm": 0.2575940489768982,
+      "learning_rate": 5e-06,
+      "loss": 0.9831,
+      "num_input_tokens_seen": 290844728,
+      "step": 640,
+      "train_runtime": 46005.7775,
+      "train_tokens_per_second": 6321.917
+    },
+    {
+      "epoch": 0.7760951200824828,
+      "grad_norm": 0.2475946545600891,
+      "learning_rate": 5e-06,
+      "loss": 1.0082,
+      "num_input_tokens_seen": 291292768,
+      "step": 641,
+      "train_runtime": 46075.669,
+      "train_tokens_per_second": 6322.052
+    },
+    {
+      "epoch": 0.7773058769000842,
+      "grad_norm": 0.27857834100723267,
+      "learning_rate": 5e-06,
+      "loss": 0.9734,
+      "num_input_tokens_seen": 291733344,
+      "step": 642,
+      "train_runtime": 46144.534,
+      "train_tokens_per_second": 6322.165
+    },
+    {
+      "epoch": 0.7785166337176855,
+      "grad_norm": 0.25765910744667053,
+      "learning_rate": 5e-06,
+      "loss": 0.9982,
+      "num_input_tokens_seen": 292171360,
+      "step": 643,
+      "train_runtime": 46212.6022,
+      "train_tokens_per_second": 6322.331
+    },
+    {
+      "epoch": 0.779727390535287,
+      "grad_norm": 0.2572195827960968,
+      "learning_rate": 5e-06,
+      "loss": 0.963,
+      "num_input_tokens_seen": 292612640,
+      "step": 644,
+      "train_runtime": 46281.1163,
+      "train_tokens_per_second": 6322.506
+    },
+    {
+      "epoch": 0.7809381473528884,
+      "grad_norm": 0.24165485799312592,
+      "learning_rate": 5e-06,
+      "loss": 1.0424,
+      "num_input_tokens_seen": 293053416,
+      "step": 645,
+      "train_runtime": 46349.6476,
+      "train_tokens_per_second": 6322.668
+    },
+    {
+      "epoch": 0.7821489041704897,
+      "grad_norm": 0.2371072620153427,
+      "learning_rate": 5e-06,
+      "loss": 0.9891,
+      "num_input_tokens_seen": 293522488,
+      "step": 646,
+      "train_runtime": 46422.9917,
+      "train_tokens_per_second": 6322.783
+    },
+    {
+      "epoch": 0.7833596609880911,
+      "grad_norm": 0.26184481382369995,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 293932816,
+      "step": 647,
+      "train_runtime": 46486.5204,
+      "train_tokens_per_second": 6322.969
+    },
+    {
+      "epoch": 0.7845704178056925,
+      "grad_norm": 0.2628776431083679,
+      "learning_rate": 5e-06,
+      "loss": 0.9613,
+      "num_input_tokens_seen": 294392880,
+      "step": 648,
+      "train_runtime": 46558.3764,
+      "train_tokens_per_second": 6323.092
+    },
+    {
+      "epoch": 0.7857811746232938,
+      "grad_norm": 0.2746836245059967,
+      "learning_rate": 5e-06,
+      "loss": 1.0326,
+      "num_input_tokens_seen": 294829032,
+      "step": 649,
+      "train_runtime": 46626.1232,
+      "train_tokens_per_second": 6323.259
+    },
+    {
+      "epoch": 0.7869919314408952,
+      "grad_norm": 0.23179323971271515,
+      "learning_rate": 5e-06,
+      "loss": 0.959,
+      "num_input_tokens_seen": 295266440,
+      "step": 650,
+      "train_runtime": 46694.3296,
+      "train_tokens_per_second": 6323.39
+    },
+    {
+      "epoch": 0.7882026882584966,
+      "grad_norm": 0.29162031412124634,
+      "learning_rate": 5e-06,
+      "loss": 1.0614,
+      "num_input_tokens_seen": 295707072,
+      "step": 651,
+      "train_runtime": 46763.2072,
+      "train_tokens_per_second": 6323.499
+    },
+    {
+      "epoch": 0.789413445076098,
+      "grad_norm": 0.24644595384597778,
+      "learning_rate": 5e-06,
+      "loss": 0.9355,
+      "num_input_tokens_seen": 296168304,
+      "step": 652,
+      "train_runtime": 46835.1671,
+      "train_tokens_per_second": 6323.631
+    },
+    {
+      "epoch": 0.7906242018936993,
+      "grad_norm": 0.22973157465457916,
+      "learning_rate": 5e-06,
+      "loss": 1.0039,
+      "num_input_tokens_seen": 296626648,
+      "step": 653,
+      "train_runtime": 46906.6535,
+      "train_tokens_per_second": 6323.765
+    },
+    {
+      "epoch": 0.7918349587113007,
+      "grad_norm": 0.22654931247234344,
+      "learning_rate": 5e-06,
+      "loss": 0.9769,
+      "num_input_tokens_seen": 297077224,
+      "step": 654,
+      "train_runtime": 46976.9907,
+      "train_tokens_per_second": 6323.888
+    },
+    {
+      "epoch": 0.7930457155289021,
+      "grad_norm": 0.25695592164993286,
+      "learning_rate": 5e-06,
+      "loss": 0.9681,
+      "num_input_tokens_seen": 297509888,
+      "step": 655,
+      "train_runtime": 47043.9093,
+      "train_tokens_per_second": 6324.089
+    },
+    {
+      "epoch": 0.7942564723465034,
+      "grad_norm": 0.2581423819065094,
+      "learning_rate": 5e-06,
+      "loss": 0.9989,
+      "num_input_tokens_seen": 297939024,
+      "step": 656,
+      "train_runtime": 47110.28,
+      "train_tokens_per_second": 6324.289
+    },
+    {
+      "epoch": 0.7954672291641048,
+      "grad_norm": 0.23372498154640198,
+      "learning_rate": 5e-06,
+      "loss": 1.0305,
+      "num_input_tokens_seen": 298407680,
+      "step": 657,
+      "train_runtime": 47183.4049,
+      "train_tokens_per_second": 6324.42
+    },
+    {
+      "epoch": 0.7966779859817062,
+      "grad_norm": 0.2330416738986969,
+      "learning_rate": 5e-06,
+      "loss": 0.9725,
+      "num_input_tokens_seen": 298854728,
+      "step": 658,
+      "train_runtime": 47253.2725,
+      "train_tokens_per_second": 6324.53
+    },
+    {
+      "epoch": 0.7978887427993075,
+      "grad_norm": 0.23654578626155853,
+      "learning_rate": 5e-06,
+      "loss": 0.9963,
+      "num_input_tokens_seen": 299300440,
+      "step": 659,
+      "train_runtime": 47322.7649,
+      "train_tokens_per_second": 6324.661
+    },
+    {
+      "epoch": 0.799099499616909,
+      "grad_norm": 0.2542232275009155,
+      "learning_rate": 5e-06,
+      "loss": 1.0448,
+      "num_input_tokens_seen": 299766136,
+      "step": 660,
+      "train_runtime": 47394.9974,
+      "train_tokens_per_second": 6324.848
+    },
+    {
+      "epoch": 0.8003102564345104,
+      "grad_norm": 0.24160121381282806,
+      "learning_rate": 5e-06,
+      "loss": 0.9603,
+      "num_input_tokens_seen": 300221640,
+      "step": 661,
+      "train_runtime": 47466.4669,
+      "train_tokens_per_second": 6324.921
+    },
+    {
+      "epoch": 0.8015210132521118,
+      "grad_norm": 0.22822356224060059,
+      "learning_rate": 5e-06,
+      "loss": 0.9958,
+      "num_input_tokens_seen": 300687184,
+      "step": 662,
+      "train_runtime": 47539.0298,
+      "train_tokens_per_second": 6325.059
+    },
+    {
+      "epoch": 0.8027317700697131,
+      "grad_norm": 0.2521500587463379,
+      "learning_rate": 5e-06,
+      "loss": 0.972,
+      "num_input_tokens_seen": 301123864,
+      "step": 663,
+      "train_runtime": 47607.2637,
+      "train_tokens_per_second": 6325.166
+    },
+    {
+      "epoch": 0.8039425268873145,
+      "grad_norm": 0.23535515367984772,
+      "learning_rate": 5e-06,
+      "loss": 0.9973,
+      "num_input_tokens_seen": 301584744,
+      "step": 664,
+      "train_runtime": 47679.0072,
+      "train_tokens_per_second": 6325.315
+    },
+    {
+      "epoch": 0.8051532837049159,
+      "grad_norm": 0.22911347448825836,
+      "learning_rate": 5e-06,
+      "loss": 0.964,
+      "num_input_tokens_seen": 302032008,
+      "step": 665,
+      "train_runtime": 47748.6252,
+      "train_tokens_per_second": 6325.46
+    },
+    {
+      "epoch": 0.8063640405225172,
+      "grad_norm": 0.2548276484012604,
+      "learning_rate": 5e-06,
+      "loss": 0.9764,
+      "num_input_tokens_seen": 302498592,
+      "step": 666,
+      "train_runtime": 47821.6069,
+      "train_tokens_per_second": 6325.563
+    },
+    {
+      "epoch": 0.8075747973401186,
+      "grad_norm": 0.24845871329307556,
+      "learning_rate": 5e-06,
+      "loss": 0.9747,
+      "num_input_tokens_seen": 302948968,
+      "step": 667,
+      "train_runtime": 47891.6883,
+      "train_tokens_per_second": 6325.711
+    },
+    {
+      "epoch": 0.80878555415772,
+      "grad_norm": 0.27543285489082336,
+      "learning_rate": 5e-06,
+      "loss": 1.0221,
+      "num_input_tokens_seen": 303394536,
+      "step": 668,
+      "train_runtime": 47961.0975,
+      "train_tokens_per_second": 6325.846
+    },
+    {
+      "epoch": 0.8099963109753213,
+      "grad_norm": 0.22285109758377075,
+      "learning_rate": 5e-06,
+      "loss": 0.9823,
+      "num_input_tokens_seen": 303869992,
+      "step": 669,
+      "train_runtime": 48035.6906,
+      "train_tokens_per_second": 6325.921
+    },
+    {
+      "epoch": 0.8112070677929227,
+      "grad_norm": 0.2208424061536789,
+      "learning_rate": 5e-06,
+      "loss": 0.916,
+      "num_input_tokens_seen": 304338112,
+      "step": 670,
+      "train_runtime": 48108.8012,
+      "train_tokens_per_second": 6326.038
+    },
+    {
+      "epoch": 0.8124178246105241,
+      "grad_norm": 0.23547379672527313,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 304770896,
+      "step": 671,
+      "train_runtime": 48175.679,
+      "train_tokens_per_second": 6326.24
+    },
+    {
+      "epoch": 0.8136285814281256,
+      "grad_norm": 0.3341003656387329,
+      "learning_rate": 5e-06,
+      "loss": 0.9109,
+      "num_input_tokens_seen": 305218712,
+      "step": 672,
+      "train_runtime": 48245.4679,
+      "train_tokens_per_second": 6326.371
+    },
+    {
+      "epoch": 0.8148393382457269,
+      "grad_norm": 0.3057156205177307,
+      "learning_rate": 5e-06,
+      "loss": 0.9952,
+      "num_input_tokens_seen": 305656008,
+      "step": 673,
+      "train_runtime": 48313.4759,
+      "train_tokens_per_second": 6326.517
+    },
+    {
+      "epoch": 0.8160500950633283,
+      "grad_norm": 0.2505541741847992,
+      "learning_rate": 5e-06,
+      "loss": 0.9644,
+      "num_input_tokens_seen": 306112992,
+      "step": 674,
+      "train_runtime": 48386.3399,
+      "train_tokens_per_second": 6326.434
+    },
+    {
+      "epoch": 0.8172608518809297,
+      "grad_norm": 0.28934425115585327,
+      "learning_rate": 5e-06,
+      "loss": 0.9361,
+      "num_input_tokens_seen": 306569648,
+      "step": 675,
+      "train_runtime": 48457.067,
+      "train_tokens_per_second": 6326.624
+    },
+    {
+      "epoch": 0.818471608698531,
+      "grad_norm": 0.24182599782943726,
+      "learning_rate": 5e-06,
+      "loss": 0.9022,
+      "num_input_tokens_seen": 307035984,
+      "step": 676,
+      "train_runtime": 48529.7381,
+      "train_tokens_per_second": 6326.76
+    },
+    {
+      "epoch": 0.8196823655161324,
+      "grad_norm": 0.23037275671958923,
+      "learning_rate": 5e-06,
+      "loss": 0.9832,
+      "num_input_tokens_seen": 307477064,
+      "step": 677,
+      "train_runtime": 48598.2501,
+      "train_tokens_per_second": 6326.916
+    },
+    {
+      "epoch": 0.8208931223337338,
+      "grad_norm": 0.26939913630485535,
+      "learning_rate": 5e-06,
+      "loss": 0.9765,
+      "num_input_tokens_seen": 307930568,
+      "step": 678,
+      "train_runtime": 48668.4558,
+      "train_tokens_per_second": 6327.108
+    },
+    {
+      "epoch": 0.8221038791513351,
+      "grad_norm": 0.2629682719707489,
+      "learning_rate": 5e-06,
+      "loss": 0.9513,
+      "num_input_tokens_seen": 308377608,
+      "step": 679,
+      "train_runtime": 48737.7561,
+      "train_tokens_per_second": 6327.284
+    },
+    {
+      "epoch": 0.8233146359689365,
+      "grad_norm": 0.2294158786535263,
+      "learning_rate": 5e-06,
+      "loss": 0.972,
+      "num_input_tokens_seen": 308838600,
+      "step": 680,
+      "train_runtime": 48810.1043,
+      "train_tokens_per_second": 6327.35
+    },
+    {
+      "epoch": 0.8245253927865379,
+      "grad_norm": 0.22822599112987518,
+      "learning_rate": 5e-06,
+      "loss": 0.936,
+      "num_input_tokens_seen": 309318664,
+      "step": 681,
+      "train_runtime": 48887.5021,
+      "train_tokens_per_second": 6327.152
+    },
+    {
+      "epoch": 0.8257361496041393,
+      "grad_norm": 0.24199745059013367,
+      "learning_rate": 5e-06,
+      "loss": 1.0328,
+      "num_input_tokens_seen": 309745744,
+      "step": 682,
+      "train_runtime": 48957.3644,
+      "train_tokens_per_second": 6326.847
+    },
+    {
+      "epoch": 0.8269469064217406,
+      "grad_norm": 0.23330043256282806,
+      "learning_rate": 5e-06,
+      "loss": 0.9579,
+      "num_input_tokens_seen": 310184288,
+      "step": 683,
+      "train_runtime": 49029.1375,
+      "train_tokens_per_second": 6326.53
+    },
+    {
+      "epoch": 0.828157663239342,
+      "grad_norm": 0.22911278903484344,
+      "learning_rate": 5e-06,
+      "loss": 1.0027,
+      "num_input_tokens_seen": 310639208,
+      "step": 684,
+      "train_runtime": 49102.2981,
+      "train_tokens_per_second": 6326.368
+    },
+    {
+      "epoch": 0.8293684200569434,
+      "grad_norm": 0.23975107073783875,
+      "learning_rate": 5e-06,
+      "loss": 0.9599,
+      "num_input_tokens_seen": 311102208,
+      "step": 685,
+      "train_runtime": 49177.6776,
+      "train_tokens_per_second": 6326.086
+    },
+    {
+      "epoch": 0.8305791768745447,
+      "grad_norm": 0.271192729473114,
+      "learning_rate": 5e-06,
+      "loss": 0.9861,
+      "num_input_tokens_seen": 311544336,
+      "step": 686,
+      "train_runtime": 49250.6236,
+      "train_tokens_per_second": 6325.693
+    },
+    {
+      "epoch": 0.8317899336921462,
+      "grad_norm": 0.2387111783027649,
+      "learning_rate": 5e-06,
+      "loss": 0.9506,
+      "num_input_tokens_seen": 311991128,
+      "step": 687,
+      "train_runtime": 49323.9975,
+      "train_tokens_per_second": 6325.341
+    },
+    {
+      "epoch": 0.8330006905097476,
+      "grad_norm": 0.24908512830734253,
+      "learning_rate": 5e-06,
+      "loss": 0.9557,
+      "num_input_tokens_seen": 312461408,
+      "step": 688,
+      "train_runtime": 49402.3748,
+      "train_tokens_per_second": 6324.826
+    },
+    {
+      "epoch": 0.8342114473273489,
+      "grad_norm": 0.2281702756881714,
+      "learning_rate": 5e-06,
+      "loss": 0.9523,
+      "num_input_tokens_seen": 312916448,
+      "step": 689,
+      "train_runtime": 49476.816,
+      "train_tokens_per_second": 6324.507
+    },
+    {
+      "epoch": 0.8354222041449503,
+      "grad_norm": 0.23677456378936768,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 313376968,
+      "step": 690,
+      "train_runtime": 49552.5358,
+      "train_tokens_per_second": 6324.136
+    },
+    {
+      "epoch": 0.8366329609625517,
+      "grad_norm": 0.23301224410533905,
+      "learning_rate": 5e-06,
+      "loss": 0.9741,
+      "num_input_tokens_seen": 313834800,
+      "step": 691,
+      "train_runtime": 49627.9277,
+      "train_tokens_per_second": 6323.754
+    },
+    {
+      "epoch": 0.8378437177801531,
+      "grad_norm": 0.28598400950431824,
+      "learning_rate": 5e-06,
+      "loss": 0.9854,
+      "num_input_tokens_seen": 314290560,
+      "step": 692,
+      "train_runtime": 49703.1803,
+      "train_tokens_per_second": 6323.349
+    },
+    {
+      "epoch": 0.8390544745977544,
+      "grad_norm": 0.24205778539180756,
+      "learning_rate": 5e-06,
+      "loss": 0.9253,
+      "num_input_tokens_seen": 314767360,
+      "step": 693,
+      "train_runtime": 49781.9765,
+      "train_tokens_per_second": 6322.918
+    },
+    {
+      "epoch": 0.8402652314153558,
+      "grad_norm": 0.25196146965026855,
+      "learning_rate": 5e-06,
+      "loss": 0.9518,
+      "num_input_tokens_seen": 315210832,
+      "step": 694,
+      "train_runtime": 49854.8652,
+      "train_tokens_per_second": 6322.569
+    },
+    {
+      "epoch": 0.8414759882329572,
+      "grad_norm": 0.2362397164106369,
+      "learning_rate": 5e-06,
+      "loss": 0.9407,
+      "num_input_tokens_seen": 315669384,
+      "step": 695,
+      "train_runtime": 49930.4912,
+      "train_tokens_per_second": 6322.177
+    },
+    {
+      "epoch": 0.8426867450505585,
+      "grad_norm": 0.23664698004722595,
+      "learning_rate": 5e-06,
+      "loss": 0.9684,
+      "num_input_tokens_seen": 316108928,
+      "step": 696,
+      "train_runtime": 50002.7456,
+      "train_tokens_per_second": 6321.831
+    },
+    {
+      "epoch": 0.8438975018681599,
+      "grad_norm": 0.23944173753261566,
+      "learning_rate": 5e-06,
+      "loss": 0.9395,
+      "num_input_tokens_seen": 316566328,
+      "step": 697,
+      "train_runtime": 50077.929,
+      "train_tokens_per_second": 6321.474
+    },
+    {
+      "epoch": 0.8451082586857613,
+      "grad_norm": 0.22662094235420227,
+      "learning_rate": 5e-06,
+      "loss": 0.9686,
+      "num_input_tokens_seen": 317031176,
+      "step": 698,
+      "train_runtime": 50154.9704,
+      "train_tokens_per_second": 6321.032
+    },
+    {
+      "epoch": 0.8463190155033626,
+      "grad_norm": 0.22922109067440033,
+      "learning_rate": 5e-06,
+      "loss": 0.9671,
+      "num_input_tokens_seen": 317478472,
+      "step": 699,
+      "train_runtime": 50228.3177,
+      "train_tokens_per_second": 6320.707
+    },
+    {
+      "epoch": 0.847529772320964,
+      "grad_norm": 0.26036337018013,
+      "learning_rate": 5e-06,
+      "loss": 0.9642,
+      "num_input_tokens_seen": 317940344,
+      "step": 700,
+      "train_runtime": 50304.238,
+      "train_tokens_per_second": 6320.349
+    },
+    {
+      "epoch": 0.8487405291385655,
+      "grad_norm": 0.22809621691703796,
+      "learning_rate": 5e-06,
+      "loss": 0.952,
+      "num_input_tokens_seen": 318407112,
+      "step": 701,
+      "train_runtime": 50381.1432,
+      "train_tokens_per_second": 6319.966
+    },
+    {
+      "epoch": 0.8499512859561669,
+      "grad_norm": 0.228465273976326,
+      "learning_rate": 5e-06,
+      "loss": 0.9005,
+      "num_input_tokens_seen": 318858464,
+      "step": 702,
+      "train_runtime": 50454.8922,
+      "train_tokens_per_second": 6319.674
+    },
+    {
+      "epoch": 0.8511620427737682,
+      "grad_norm": 0.2660825550556183,
+      "learning_rate": 5e-06,
+      "loss": 0.9698,
+      "num_input_tokens_seen": 319300520,
+      "step": 703,
+      "train_runtime": 50527.48,
+      "train_tokens_per_second": 6319.344
+    },
+    {
+      "epoch": 0.8523727995913696,
+      "grad_norm": 0.2166413962841034,
+      "learning_rate": 5e-06,
+      "loss": 0.9611,
+      "num_input_tokens_seen": 319756696,
+      "step": 704,
+      "train_runtime": 50602.7456,
+      "train_tokens_per_second": 6318.959
+    },
+    {
+      "epoch": 0.853583556408971,
+      "grad_norm": 0.22596792876720428,
+      "learning_rate": 5e-06,
+      "loss": 0.9911,
+      "num_input_tokens_seen": 320225520,
+      "step": 705,
+      "train_runtime": 50680.0879,
+      "train_tokens_per_second": 6318.567
+    },
+    {
+      "epoch": 0.8547943132265723,
+      "grad_norm": 0.24560396373271942,
+      "learning_rate": 5e-06,
+      "loss": 0.9301,
+      "num_input_tokens_seen": 320689552,
+      "step": 706,
+      "train_runtime": 50756.6212,
+      "train_tokens_per_second": 6318.182
+    },
+    {
+      "epoch": 0.8560050700441737,
+      "grad_norm": 0.2799171805381775,
+      "learning_rate": 5e-06,
+      "loss": 0.9853,
+      "num_input_tokens_seen": 321135128,
+      "step": 707,
+      "train_runtime": 50829.7956,
+      "train_tokens_per_second": 6317.852
+    },
+    {
+      "epoch": 0.8572158268617751,
+      "grad_norm": 0.24234268069267273,
+      "learning_rate": 5e-06,
+      "loss": 0.9667,
+      "num_input_tokens_seen": 321592464,
+      "step": 708,
+      "train_runtime": 50905.3416,
+      "train_tokens_per_second": 6317.46
+    },
+    {
+      "epoch": 0.8584265836793764,
+      "grad_norm": 0.24366381764411926,
+      "learning_rate": 5e-06,
+      "loss": 0.9408,
+      "num_input_tokens_seen": 322030856,
+      "step": 709,
+      "train_runtime": 50977.5327,
+      "train_tokens_per_second": 6317.113
+    },
+    {
+      "epoch": 0.8596373404969778,
+      "grad_norm": 0.23462019860744476,
+      "learning_rate": 5e-06,
+      "loss": 0.9617,
+      "num_input_tokens_seen": 322488840,
+      "step": 710,
+      "train_runtime": 51053.0683,
+      "train_tokens_per_second": 6316.738
+    },
+    {
+      "epoch": 0.8608480973145792,
+      "grad_norm": 0.23850728571414948,
+      "learning_rate": 5e-06,
+      "loss": 0.9618,
+      "num_input_tokens_seen": 322956064,
+      "step": 711,
+      "train_runtime": 51130.2729,
+      "train_tokens_per_second": 6316.338
+    },
+    {
+      "epoch": 0.8620588541321806,
+      "grad_norm": 0.24310947954654694,
+      "learning_rate": 5e-06,
+      "loss": 0.9352,
+      "num_input_tokens_seen": 323404816,
+      "step": 712,
+      "train_runtime": 51204.0732,
+      "train_tokens_per_second": 6315.998
+    },
+    {
+      "epoch": 0.8632696109497819,
+      "grad_norm": 0.2608128786087036,
+      "learning_rate": 5e-06,
+      "loss": 0.9402,
+      "num_input_tokens_seen": 323876440,
+      "step": 713,
+      "train_runtime": 51281.1334,
+      "train_tokens_per_second": 6315.704
+    },
+    {
+      "epoch": 0.8644803677673834,
+      "grad_norm": 0.2339504510164261,
+      "learning_rate": 5e-06,
+      "loss": 0.9117,
+      "num_input_tokens_seen": 324335024,
+      "step": 714,
+      "train_runtime": 51356.6378,
+      "train_tokens_per_second": 6315.348
+    },
+    {
+      "epoch": 0.8656911245849848,
+      "grad_norm": 0.23948872089385986,
+      "learning_rate": 5e-06,
+      "loss": 0.9073,
+      "num_input_tokens_seen": 324788680,
+      "step": 715,
+      "train_runtime": 51430.9403,
+      "train_tokens_per_second": 6315.045
+    },
+    {
+      "epoch": 0.8669018814025861,
+      "grad_norm": 0.23080047965049744,
+      "learning_rate": 5e-06,
+      "loss": 0.9569,
+      "num_input_tokens_seen": 325265904,
+      "step": 716,
+      "train_runtime": 51509.6255,
+      "train_tokens_per_second": 6314.663
+    },
+    {
+      "epoch": 0.8681126382201875,
+      "grad_norm": 0.2425810992717743,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 325749024,
+      "step": 717,
+      "train_runtime": 51589.2266,
+      "train_tokens_per_second": 6314.284
+    },
+    {
+      "epoch": 0.8693233950377889,
+      "grad_norm": 0.24254527688026428,
+      "learning_rate": 5e-06,
+      "loss": 0.9758,
+      "num_input_tokens_seen": 326205360,
+      "step": 718,
+      "train_runtime": 51663.9314,
+      "train_tokens_per_second": 6313.986
+    },
+    {
+      "epoch": 0.8705341518553902,
+      "grad_norm": 0.2271261066198349,
+      "learning_rate": 5e-06,
+      "loss": 0.9523,
+      "num_input_tokens_seen": 326656568,
+      "step": 719,
+      "train_runtime": 51737.7083,
+      "train_tokens_per_second": 6313.704
+    },
+    {
+      "epoch": 0.8717449086729916,
+      "grad_norm": 0.28275179862976074,
+      "learning_rate": 5e-06,
+      "loss": 0.9955,
+      "num_input_tokens_seen": 327100936,
+      "step": 720,
+      "train_runtime": 51810.5603,
+      "train_tokens_per_second": 6313.403
+    },
+    {
+      "epoch": 0.872955665490593,
+      "grad_norm": 0.2485657036304474,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 327555136,
+      "step": 721,
+      "train_runtime": 51884.7425,
+      "train_tokens_per_second": 6313.13
+    },
+    {
+      "epoch": 0.8741664223081944,
+      "grad_norm": 0.26533499360084534,
+      "learning_rate": 5e-06,
+      "loss": 0.9911,
+      "num_input_tokens_seen": 328014560,
+      "step": 722,
+      "train_runtime": 51960.0639,
+      "train_tokens_per_second": 6312.821
+    },
+    {
+      "epoch": 0.8753771791257957,
+      "grad_norm": 0.21716679632663727,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 328476336,
+      "step": 723,
+      "train_runtime": 52035.9362,
+      "train_tokens_per_second": 6312.49
+    },
+    {
+      "epoch": 0.8765879359433971,
+      "grad_norm": 0.238169863820076,
+      "learning_rate": 5e-06,
+      "loss": 0.9927,
+      "num_input_tokens_seen": 328903336,
+      "step": 724,
+      "train_runtime": 52106.2514,
+      "train_tokens_per_second": 6312.167
+    },
+    {
+      "epoch": 0.8777986927609985,
+      "grad_norm": 0.23495762050151825,
+      "learning_rate": 5e-06,
+      "loss": 0.9438,
+      "num_input_tokens_seen": 329351280,
+      "step": 725,
+      "train_runtime": 52179.605,
+      "train_tokens_per_second": 6311.878
+    },
+    {
+      "epoch": 0.8790094495785998,
+      "grad_norm": 0.2645426094532013,
+      "learning_rate": 5e-06,
+      "loss": 0.9552,
+      "num_input_tokens_seen": 329810048,
+      "step": 726,
+      "train_runtime": 52255.2056,
+      "train_tokens_per_second": 6311.525
+    },
+    {
+      "epoch": 0.8802202063962012,
+      "grad_norm": 0.2440696507692337,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 330266952,
+      "step": 727,
+      "train_runtime": 52330.1379,
+      "train_tokens_per_second": 6311.219
+    },
+    {
+      "epoch": 0.8814309632138027,
+      "grad_norm": 0.28334546089172363,
+      "learning_rate": 5e-06,
+      "loss": 0.9749,
+      "num_input_tokens_seen": 330725072,
+      "step": 728,
+      "train_runtime": 52405.845,
+      "train_tokens_per_second": 6310.843
+    },
+    {
+      "epoch": 0.882641720031404,
+      "grad_norm": 0.25327134132385254,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 331165624,
+      "step": 729,
+      "train_runtime": 52477.7764,
+      "train_tokens_per_second": 6310.588
+    },
+    {
+      "epoch": 0.8838524768490054,
+      "grad_norm": 0.23178185522556305,
+      "learning_rate": 5e-06,
+      "loss": 0.9606,
+      "num_input_tokens_seen": 331625256,
+      "step": 730,
+      "train_runtime": 52553.8007,
+      "train_tokens_per_second": 6310.205
+    },
+    {
+      "epoch": 0.8850632336666068,
+      "grad_norm": 0.23952724039554596,
+      "learning_rate": 5e-06,
+      "loss": 0.9585,
+      "num_input_tokens_seen": 332060176,
+      "step": 731,
+      "train_runtime": 52625.0909,
+      "train_tokens_per_second": 6309.921
+    },
+    {
+      "epoch": 0.8862739904842082,
+      "grad_norm": 0.23698952794075012,
+      "learning_rate": 5e-06,
+      "loss": 0.8797,
+      "num_input_tokens_seen": 332509640,
+      "step": 732,
+      "train_runtime": 52699.071,
+      "train_tokens_per_second": 6309.592
+    },
+    {
+      "epoch": 0.8874847473018095,
+      "grad_norm": 0.22318892180919647,
+      "learning_rate": 5e-06,
+      "loss": 0.9486,
+      "num_input_tokens_seen": 332946752,
+      "step": 733,
+      "train_runtime": 52771.1507,
+      "train_tokens_per_second": 6309.257
+    },
+    {
+      "epoch": 0.8886955041194109,
+      "grad_norm": 0.22661879658699036,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 333408976,
+      "step": 734,
+      "train_runtime": 52847.3029,
+      "train_tokens_per_second": 6308.912
+    },
+    {
+      "epoch": 0.8899062609370123,
+      "grad_norm": 0.22661250829696655,
+      "learning_rate": 5e-06,
+      "loss": 1.0203,
+      "num_input_tokens_seen": 333864040,
+      "step": 735,
+      "train_runtime": 52921.7765,
+      "train_tokens_per_second": 6308.633
+    },
+    {
+      "epoch": 0.8911170177546136,
+      "grad_norm": 0.23365598917007446,
+      "learning_rate": 5e-06,
+      "loss": 1.0197,
+      "num_input_tokens_seen": 334328000,
+      "step": 736,
+      "train_runtime": 52997.7307,
+      "train_tokens_per_second": 6308.346
+    },
+    {
+      "epoch": 0.892327774572215,
+      "grad_norm": 0.25835007429122925,
+      "learning_rate": 5e-06,
+      "loss": 1.001,
+      "num_input_tokens_seen": 334761336,
+      "step": 737,
+      "train_runtime": 53068.9411,
+      "train_tokens_per_second": 6308.046
+    },
+    {
+      "epoch": 0.8935385313898164,
+      "grad_norm": 0.23492054641246796,
+      "learning_rate": 5e-06,
+      "loss": 0.9808,
+      "num_input_tokens_seen": 335218464,
+      "step": 738,
+      "train_runtime": 53143.7831,
+      "train_tokens_per_second": 6307.764
+    },
+    {
+      "epoch": 0.8947492882074177,
+      "grad_norm": 0.23521077632904053,
+      "learning_rate": 5e-06,
+      "loss": 0.9753,
+      "num_input_tokens_seen": 335663288,
+      "step": 739,
+      "train_runtime": 53216.7657,
+      "train_tokens_per_second": 6307.473
+    },
+    {
+      "epoch": 0.8959600450250191,
+      "grad_norm": 0.24233105778694153,
+      "learning_rate": 5e-06,
+      "loss": 0.9669,
+      "num_input_tokens_seen": 336143112,
+      "step": 740,
+      "train_runtime": 53295.4261,
+      "train_tokens_per_second": 6307.166
+    },
+    {
+      "epoch": 0.8971708018426205,
+      "grad_norm": 0.22769199311733246,
+      "learning_rate": 5e-06,
+      "loss": 0.9462,
+      "num_input_tokens_seen": 336620632,
+      "step": 741,
+      "train_runtime": 53373.6272,
+      "train_tokens_per_second": 6306.872
+    },
+    {
+      "epoch": 0.898381558660222,
+      "grad_norm": 0.2259906679391861,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 337087384,
+      "step": 742,
+      "train_runtime": 53450.3668,
+      "train_tokens_per_second": 6306.55
+    },
+    {
+      "epoch": 0.8995923154778233,
+      "grad_norm": 0.24663208425045013,
+      "learning_rate": 5e-06,
+      "loss": 0.9739,
+      "num_input_tokens_seen": 337516840,
+      "step": 743,
+      "train_runtime": 53521.0012,
+      "train_tokens_per_second": 6306.25
+    },
+    {
+      "epoch": 0.9008030722954247,
+      "grad_norm": 0.24597318470478058,
+      "learning_rate": 5e-06,
+      "loss": 0.9405,
+      "num_input_tokens_seen": 337978032,
+      "step": 744,
+      "train_runtime": 53596.7412,
+      "train_tokens_per_second": 6305.944
+    },
+    {
+      "epoch": 0.9020138291130261,
+      "grad_norm": 0.24945300817489624,
+      "learning_rate": 5e-06,
+      "loss": 0.9487,
+      "num_input_tokens_seen": 338429744,
+      "step": 745,
+      "train_runtime": 53671.4992,
+      "train_tokens_per_second": 6305.576
+    },
+    {
+      "epoch": 0.9032245859306274,
+      "grad_norm": 0.26230573654174805,
+      "learning_rate": 5e-06,
+      "loss": 0.9708,
+      "num_input_tokens_seen": 338908032,
+      "step": 746,
+      "train_runtime": 53750.8266,
+      "train_tokens_per_second": 6305.169
+    },
+    {
+      "epoch": 0.9044353427482288,
+      "grad_norm": 0.23558348417282104,
+      "learning_rate": 5e-06,
+      "loss": 1.0117,
+      "num_input_tokens_seen": 339376168,
+      "step": 747,
+      "train_runtime": 53828.3567,
+      "train_tokens_per_second": 6304.784
+    },
+    {
+      "epoch": 0.9056460995658302,
+      "grad_norm": 0.23316293954849243,
+      "learning_rate": 5e-06,
+      "loss": 0.962,
+      "num_input_tokens_seen": 339825168,
+      "step": 748,
+      "train_runtime": 53902.2806,
+      "train_tokens_per_second": 6304.467
+    },
+    {
+      "epoch": 0.9068568563834315,
+      "grad_norm": 0.243992418050766,
+      "learning_rate": 5e-06,
+      "loss": 0.983,
+      "num_input_tokens_seen": 340304336,
+      "step": 749,
+      "train_runtime": 53981.4498,
+      "train_tokens_per_second": 6304.098
+    },
+    {
+      "epoch": 0.9080676132010329,
+      "grad_norm": 0.2598229646682739,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 340743064,
+      "step": 750,
+      "train_runtime": 54053.3316,
+      "train_tokens_per_second": 6303.831
+    },
+    {
+      "epoch": 0.9092783700186343,
+      "grad_norm": 0.24613091349601746,
+      "learning_rate": 5e-06,
+      "loss": 0.9527,
+      "num_input_tokens_seen": 341210112,
+      "step": 751,
+      "train_runtime": 54130.9437,
+      "train_tokens_per_second": 6303.421
+    },
+    {
+      "epoch": 0.9104891268362357,
+      "grad_norm": 0.24349863827228546,
+      "learning_rate": 5e-06,
+      "loss": 0.9261,
+      "num_input_tokens_seen": 341671160,
+      "step": 752,
+      "train_runtime": 54207.4785,
+      "train_tokens_per_second": 6303.026
+    },
+    {
+      "epoch": 0.911699883653837,
+      "grad_norm": 0.22625428438186646,
+      "learning_rate": 5e-06,
+      "loss": 0.9711,
+      "num_input_tokens_seen": 342126008,
+      "step": 753,
+      "train_runtime": 54282.3751,
+      "train_tokens_per_second": 6302.709
+    },
+    {
+      "epoch": 0.9129106404714384,
+      "grad_norm": 0.2454047054052353,
+      "learning_rate": 5e-06,
+      "loss": 0.9962,
+      "num_input_tokens_seen": 342589536,
+      "step": 754,
+      "train_runtime": 54359.1523,
+      "train_tokens_per_second": 6302.334
+    },
+    {
+      "epoch": 0.9141213972890398,
+      "grad_norm": 0.2505525052547455,
+      "learning_rate": 5e-06,
+      "loss": 0.9888,
+      "num_input_tokens_seen": 343050616,
+      "step": 755,
+      "train_runtime": 54434.9812,
+      "train_tokens_per_second": 6302.025
+    },
+    {
+      "epoch": 0.9153321541066411,
+      "grad_norm": 0.24787583947181702,
+      "learning_rate": 5e-06,
+      "loss": 0.9694,
+      "num_input_tokens_seen": 343502480,
+      "step": 756,
+      "train_runtime": 54509.554,
+      "train_tokens_per_second": 6301.693
+    },
+    {
+      "epoch": 0.9165429109242426,
+      "grad_norm": 0.2458108365535736,
+      "learning_rate": 5e-06,
+      "loss": 0.9712,
+      "num_input_tokens_seen": 343979832,
+      "step": 757,
+      "train_runtime": 54588.3291,
+      "train_tokens_per_second": 6301.344
+    },
+    {
+      "epoch": 0.917753667741844,
+      "grad_norm": 0.2579139173030853,
+      "learning_rate": 5e-06,
+      "loss": 0.9966,
+      "num_input_tokens_seen": 344423888,
+      "step": 758,
+      "train_runtime": 54661.823,
+      "train_tokens_per_second": 6300.995
+    },
+    {
+      "epoch": 0.9189644245594453,
+      "grad_norm": 0.24939359724521637,
+      "learning_rate": 5e-06,
+      "loss": 0.9396,
+      "num_input_tokens_seen": 344888696,
+      "step": 759,
+      "train_runtime": 54738.5951,
+      "train_tokens_per_second": 6300.649
+    },
+    {
+      "epoch": 0.9201751813770467,
+      "grad_norm": 0.25321266055107117,
+      "learning_rate": 5e-06,
+      "loss": 0.9294,
+      "num_input_tokens_seen": 345349032,
+      "step": 760,
+      "train_runtime": 54814.3689,
+      "train_tokens_per_second": 6300.338
+    },
+    {
+      "epoch": 0.9213859381946481,
+      "grad_norm": 0.25097349286079407,
+      "learning_rate": 5e-06,
+      "loss": 0.9652,
+      "num_input_tokens_seen": 345787136,
+      "step": 761,
+      "train_runtime": 54886.4068,
+      "train_tokens_per_second": 6300.051
+    },
+    {
+      "epoch": 0.9225966950122495,
+      "grad_norm": 0.2374579906463623,
+      "learning_rate": 5e-06,
+      "loss": 0.9305,
+      "num_input_tokens_seen": 346227736,
+      "step": 762,
+      "train_runtime": 54958.6615,
+      "train_tokens_per_second": 6299.785
+    },
+    {
+      "epoch": 0.9238074518298508,
+      "grad_norm": 0.24115844070911407,
+      "learning_rate": 5e-06,
+      "loss": 0.9923,
+      "num_input_tokens_seen": 346675680,
+      "step": 763,
+      "train_runtime": 55032.5683,
+      "train_tokens_per_second": 6299.464
+    },
+    {
+      "epoch": 0.9250182086474522,
+      "grad_norm": 0.24648192524909973,
+      "learning_rate": 5e-06,
+      "loss": 0.9706,
+      "num_input_tokens_seen": 347127480,
+      "step": 764,
+      "train_runtime": 55106.8858,
+      "train_tokens_per_second": 6299.167
+    },
+    {
+      "epoch": 0.9262289654650536,
+      "grad_norm": 0.22947219014167786,
+      "learning_rate": 5e-06,
+      "loss": 1.0213,
+      "num_input_tokens_seen": 347585736,
+      "step": 765,
+      "train_runtime": 55183.0077,
+      "train_tokens_per_second": 6298.782
+    },
+    {
+      "epoch": 0.9274397222826549,
+      "grad_norm": 0.23317500948905945,
+      "learning_rate": 5e-06,
+      "loss": 0.9755,
+      "num_input_tokens_seen": 348040224,
+      "step": 766,
+      "train_runtime": 55258.3609,
+      "train_tokens_per_second": 6298.417
+    },
+    {
+      "epoch": 0.9286504791002563,
+      "grad_norm": 0.24681779742240906,
+      "learning_rate": 5e-06,
+      "loss": 0.9838,
+      "num_input_tokens_seen": 348489688,
+      "step": 767,
+      "train_runtime": 55332.4442,
+      "train_tokens_per_second": 6298.108
+    },
+    {
+      "epoch": 0.9298612359178577,
+      "grad_norm": 0.2522102892398834,
+      "learning_rate": 5e-06,
+      "loss": 1.0349,
+      "num_input_tokens_seen": 348958600,
+      "step": 768,
+      "train_runtime": 55410.2472,
+      "train_tokens_per_second": 6297.727
+    },
+    {
+      "epoch": 0.931071992735459,
+      "grad_norm": 0.2546612024307251,
+      "learning_rate": 5e-06,
+      "loss": 0.9432,
+      "num_input_tokens_seen": 349397976,
+      "step": 769,
+      "train_runtime": 55482.6793,
+      "train_tokens_per_second": 6297.424
+    },
+    {
+      "epoch": 0.9322827495530605,
+      "grad_norm": 0.2435491979122162,
+      "learning_rate": 5e-06,
+      "loss": 0.9651,
+      "num_input_tokens_seen": 349854280,
+      "step": 770,
+      "train_runtime": 55558.3888,
+      "train_tokens_per_second": 6297.056
+    },
+    {
+      "epoch": 0.9334935063706619,
+      "grad_norm": 0.2178066521883011,
+      "learning_rate": 5e-06,
+      "loss": 0.9513,
+      "num_input_tokens_seen": 350322312,
+      "step": 771,
+      "train_runtime": 55636.2099,
+      "train_tokens_per_second": 6296.66
+    },
+    {
+      "epoch": 0.9347042631882633,
+      "grad_norm": 0.23473484814167023,
+      "learning_rate": 5e-06,
+      "loss": 0.9474,
+      "num_input_tokens_seen": 350791976,
+      "step": 772,
+      "train_runtime": 55713.2299,
+      "train_tokens_per_second": 6296.386
+    },
+    {
+      "epoch": 0.9359150200058646,
+      "grad_norm": 0.2700430750846863,
+      "learning_rate": 5e-06,
+      "loss": 0.9686,
+      "num_input_tokens_seen": 351249760,
+      "step": 773,
+      "train_runtime": 55789.3346,
+      "train_tokens_per_second": 6296.002
+    },
+    {
+      "epoch": 0.937125776823466,
+      "grad_norm": 0.22990594804286957,
+      "learning_rate": 5e-06,
+      "loss": 0.9592,
+      "num_input_tokens_seen": 351709136,
+      "step": 774,
+      "train_runtime": 55865.6502,
+      "train_tokens_per_second": 6295.624
+    },
+    {
+      "epoch": 0.9383365336410674,
+      "grad_norm": 0.23456795513629913,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 352185984,
+      "step": 775,
+      "train_runtime": 55944.6884,
+      "train_tokens_per_second": 6295.253
+    },
+    {
+      "epoch": 0.9395472904586687,
+      "grad_norm": 0.2309848964214325,
+      "learning_rate": 5e-06,
+      "loss": 0.9881,
+      "num_input_tokens_seen": 352631888,
+      "step": 776,
+      "train_runtime": 56018.3574,
+      "train_tokens_per_second": 6294.934
+    },
+    {
+      "epoch": 0.9407580472762701,
+      "grad_norm": 0.2821614146232605,
+      "learning_rate": 5e-06,
+      "loss": 1.0289,
+      "num_input_tokens_seen": 353056656,
+      "step": 777,
+      "train_runtime": 56088.0171,
+      "train_tokens_per_second": 6294.69
+    },
+    {
+      "epoch": 0.9419688040938715,
+      "grad_norm": 0.24919262528419495,
+      "learning_rate": 5e-06,
+      "loss": 0.9536,
+      "num_input_tokens_seen": 353529936,
+      "step": 778,
+      "train_runtime": 56166.3971,
+      "train_tokens_per_second": 6294.332
+    },
+    {
+      "epoch": 0.9431795609114728,
+      "grad_norm": 0.23871028423309326,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 353990320,
+      "step": 779,
+      "train_runtime": 56242.127,
+      "train_tokens_per_second": 6294.042
+    },
+    {
+      "epoch": 0.9443903177290742,
+      "grad_norm": 0.23189355432987213,
+      "learning_rate": 5e-06,
+      "loss": 0.9835,
+      "num_input_tokens_seen": 354452392,
+      "step": 780,
+      "train_runtime": 56318.8627,
+      "train_tokens_per_second": 6293.671
+    },
+    {
+      "epoch": 0.9456010745466756,
+      "grad_norm": 0.2740236520767212,
+      "learning_rate": 5e-06,
+      "loss": 0.9532,
+      "num_input_tokens_seen": 354899024,
+      "step": 781,
+      "train_runtime": 56393.0697,
+      "train_tokens_per_second": 6293.309
+    },
+    {
+      "epoch": 0.946811831364277,
+      "grad_norm": 0.2556408643722534,
+      "learning_rate": 5e-06,
+      "loss": 0.9444,
+      "num_input_tokens_seen": 355343056,
+      "step": 782,
+      "train_runtime": 56466.3117,
+      "train_tokens_per_second": 6293.01
+    },
+    {
+      "epoch": 0.9480225881818783,
+      "grad_norm": 0.23555780947208405,
+      "learning_rate": 5e-06,
+      "loss": 0.9397,
+      "num_input_tokens_seen": 355818304,
+      "step": 783,
+      "train_runtime": 56545.0247,
+      "train_tokens_per_second": 6292.654
+    },
+    {
+      "epoch": 0.9492333449994798,
+      "grad_norm": 0.25604984164237976,
+      "learning_rate": 5e-06,
+      "loss": 0.9677,
+      "num_input_tokens_seen": 356251568,
+      "step": 784,
+      "train_runtime": 56616.3994,
+      "train_tokens_per_second": 6292.374
+    },
+    {
+      "epoch": 0.9504441018170812,
+      "grad_norm": 0.24111999571323395,
+      "learning_rate": 5e-06,
+      "loss": 0.957,
+      "num_input_tokens_seen": 356696296,
+      "step": 785,
+      "train_runtime": 56689.6311,
+      "train_tokens_per_second": 6292.091
+    },
+    {
+      "epoch": 0.9516548586346825,
+      "grad_norm": 0.22817663848400116,
+      "learning_rate": 5e-06,
+      "loss": 0.9279,
+      "num_input_tokens_seen": 357149968,
+      "step": 786,
+      "train_runtime": 56764.8748,
+      "train_tokens_per_second": 6291.742
+    },
+    {
+      "epoch": 0.9528656154522839,
+      "grad_norm": 0.256910115480423,
+      "learning_rate": 5e-06,
+      "loss": 0.9302,
+      "num_input_tokens_seen": 357599288,
+      "step": 787,
+      "train_runtime": 56839.306,
+      "train_tokens_per_second": 6291.408
+    },
+    {
+      "epoch": 0.9540763722698853,
+      "grad_norm": 0.2196292132139206,
+      "learning_rate": 5e-06,
+      "loss": 0.9459,
+      "num_input_tokens_seen": 358069328,
+      "step": 788,
+      "train_runtime": 56917.2118,
+      "train_tokens_per_second": 6291.055
+    },
+    {
+      "epoch": 0.9552871290874866,
+      "grad_norm": 0.22421136498451233,
+      "learning_rate": 5e-06,
+      "loss": 0.9084,
+      "num_input_tokens_seen": 358534160,
+      "step": 789,
+      "train_runtime": 56994.4255,
+      "train_tokens_per_second": 6290.688
+    },
+    {
+      "epoch": 0.956497885905088,
+      "grad_norm": 0.22506392002105713,
+      "learning_rate": 5e-06,
+      "loss": 0.8446,
+      "num_input_tokens_seen": 358973624,
+      "step": 790,
+      "train_runtime": 57067.011,
+      "train_tokens_per_second": 6290.388
+    },
+    {
+      "epoch": 0.9577086427226894,
+      "grad_norm": 0.2432793378829956,
+      "learning_rate": 5e-06,
+      "loss": 0.9813,
+      "num_input_tokens_seen": 359419408,
+      "step": 791,
+      "train_runtime": 57140.9306,
+      "train_tokens_per_second": 6290.052
+    },
+    {
+      "epoch": 0.9589193995402908,
+      "grad_norm": 0.2352157086133957,
+      "learning_rate": 5e-06,
+      "loss": 0.9851,
+      "num_input_tokens_seen": 359883088,
+      "step": 792,
+      "train_runtime": 57218.0451,
+      "train_tokens_per_second": 6289.678
+    },
+    {
+      "epoch": 0.9601301563578921,
+      "grad_norm": 0.2471296638250351,
+      "learning_rate": 5e-06,
+      "loss": 0.9857,
+      "num_input_tokens_seen": 360354088,
+      "step": 793,
+      "train_runtime": 57295.7766,
+      "train_tokens_per_second": 6289.366
+    },
+    {
+      "epoch": 0.9613409131754935,
+      "grad_norm": 0.24908725917339325,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 360816256,
+      "step": 794,
+      "train_runtime": 57371.6725,
+      "train_tokens_per_second": 6289.101
+    },
+    {
+      "epoch": 0.9625516699930949,
+      "grad_norm": 0.24670016765594482,
+      "learning_rate": 5e-06,
+      "loss": 0.9673,
+      "num_input_tokens_seen": 361274880,
+      "step": 795,
+      "train_runtime": 57447.7271,
+      "train_tokens_per_second": 6288.758
+    },
+    {
+      "epoch": 0.9637624268106962,
+      "grad_norm": 0.23842549324035645,
+      "learning_rate": 5e-06,
+      "loss": 0.9775,
+      "num_input_tokens_seen": 361733008,
+      "step": 796,
+      "train_runtime": 57523.5615,
+      "train_tokens_per_second": 6288.432
+    },
+    {
+      "epoch": 0.9649731836282976,
+      "grad_norm": 0.24963422119617462,
+      "learning_rate": 5e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 362200552,
+      "step": 797,
+      "train_runtime": 57601.2521,
+      "train_tokens_per_second": 6288.067
+    },
+    {
+      "epoch": 0.9661839404458991,
+      "grad_norm": 0.2490622103214264,
+      "learning_rate": 5e-06,
+      "loss": 0.9485,
+      "num_input_tokens_seen": 362658336,
+      "step": 798,
+      "train_runtime": 57676.4994,
+      "train_tokens_per_second": 6287.801
+    },
+    {
+      "epoch": 0.9673946972635004,
+      "grad_norm": 0.2377602905035019,
+      "learning_rate": 5e-06,
+      "loss": 0.9424,
+      "num_input_tokens_seen": 363103008,
+      "step": 799,
+      "train_runtime": 57749.703,
+      "train_tokens_per_second": 6287.53
+    },
+    {
+      "epoch": 0.9686054540811018,
+      "grad_norm": 0.24257516860961914,
+      "learning_rate": 5e-06,
+      "loss": 0.9765,
+      "num_input_tokens_seen": 363561496,
+      "step": 800,
+      "train_runtime": 57825.6172,
+      "train_tokens_per_second": 6287.205
+    },
+    {
+      "epoch": 0.9698162108987032,
+      "grad_norm": 0.22745341062545776,
+      "learning_rate": 5e-06,
+      "loss": 0.9451,
+      "num_input_tokens_seen": 364027560,
+      "step": 801,
+      "train_runtime": 57902.6387,
+      "train_tokens_per_second": 6286.891
+    },
+    {
+      "epoch": 0.9710269677163046,
+      "grad_norm": 0.24128001928329468,
+      "learning_rate": 5e-06,
+      "loss": 0.9569,
+      "num_input_tokens_seen": 364476736,
+      "step": 802,
+      "train_runtime": 57977.0904,
+      "train_tokens_per_second": 6286.565
+    },
+    {
+      "epoch": 0.9722377245339059,
+      "grad_norm": 0.2616693675518036,
+      "learning_rate": 5e-06,
+      "loss": 1.0019,
+      "num_input_tokens_seen": 364907784,
+      "step": 803,
+      "train_runtime": 58048.2061,
+      "train_tokens_per_second": 6286.289
+    },
+    {
+      "epoch": 0.9734484813515073,
+      "grad_norm": 0.2624351680278778,
+      "learning_rate": 5e-06,
+      "loss": 0.9582,
+      "num_input_tokens_seen": 365354112,
+      "step": 804,
+      "train_runtime": 58121.7175,
+      "train_tokens_per_second": 6286.017
+    },
+    {
+      "epoch": 0.9746592381691087,
+      "grad_norm": 0.24158768355846405,
+      "learning_rate": 5e-06,
+      "loss": 0.9769,
+      "num_input_tokens_seen": 365795992,
+      "step": 805,
+      "train_runtime": 58194.7377,
+      "train_tokens_per_second": 6285.723
+    },
+    {
+      "epoch": 0.97586999498671,
+      "grad_norm": 0.23048560321331024,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 366247480,
+      "step": 806,
+      "train_runtime": 58269.4576,
+      "train_tokens_per_second": 6285.411
+    },
+    {
+      "epoch": 0.9770807518043114,
+      "grad_norm": 0.23612691462039948,
+      "learning_rate": 5e-06,
+      "loss": 0.969,
+      "num_input_tokens_seen": 366707864,
+      "step": 807,
+      "train_runtime": 58345.6241,
+      "train_tokens_per_second": 6285.096
+    },
+    {
+      "epoch": 0.9782915086219128,
+      "grad_norm": 0.23956720530986786,
+      "learning_rate": 5e-06,
+      "loss": 0.9427,
+      "num_input_tokens_seen": 367171912,
+      "step": 808,
+      "train_runtime": 58421.8288,
+      "train_tokens_per_second": 6284.841
+    },
+    {
+      "epoch": 0.9795022654395141,
+      "grad_norm": 0.2306690812110901,
+      "learning_rate": 5e-06,
+      "loss": 0.9312,
+      "num_input_tokens_seen": 367626528,
+      "step": 809,
+      "train_runtime": 58497.4965,
+      "train_tokens_per_second": 6284.483
+    },
+    {
+      "epoch": 0.9807130222571155,
+      "grad_norm": 0.23108424246311188,
+      "learning_rate": 5e-06,
+      "loss": 0.9354,
+      "num_input_tokens_seen": 368110672,
+      "step": 810,
+      "train_runtime": 58577.9152,
+      "train_tokens_per_second": 6284.12
+    },
+    {
+      "epoch": 0.981923779074717,
+      "grad_norm": 0.2248297929763794,
+      "learning_rate": 5e-06,
+      "loss": 0.9036,
+      "num_input_tokens_seen": 368567152,
+      "step": 811,
+      "train_runtime": 58653.4012,
+      "train_tokens_per_second": 6283.816
+    },
+    {
+      "epoch": 0.9831345358923184,
+      "grad_norm": 0.24311695992946625,
+      "learning_rate": 5e-06,
+      "loss": 1.0502,
+      "num_input_tokens_seen": 369025104,
+      "step": 812,
+      "train_runtime": 58729.1413,
+      "train_tokens_per_second": 6283.509
+    },
+    {
+      "epoch": 0.9843452927099197,
+      "grad_norm": 0.24215175211429596,
+      "learning_rate": 5e-06,
+      "loss": 0.9737,
+      "num_input_tokens_seen": 369475024,
+      "step": 813,
+      "train_runtime": 58803.2136,
+      "train_tokens_per_second": 6283.245
+    },
+    {
+      "epoch": 0.9855560495275211,
+      "grad_norm": 0.253462016582489,
+      "learning_rate": 5e-06,
+      "loss": 0.9832,
+      "num_input_tokens_seen": 369906600,
+      "step": 814,
+      "train_runtime": 58874.4874,
+      "train_tokens_per_second": 6282.969
+    },
+    {
+      "epoch": 0.9867668063451225,
+      "grad_norm": 0.23864710330963135,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 370367360,
+      "step": 815,
+      "train_runtime": 58950.3738,
+      "train_tokens_per_second": 6282.697
+    },
+    {
+      "epoch": 0.9879775631627238,
+      "grad_norm": 0.26924240589141846,
+      "learning_rate": 5e-06,
+      "loss": 0.9717,
+      "num_input_tokens_seen": 370837544,
+      "step": 816,
+      "train_runtime": 59028.3463,
+      "train_tokens_per_second": 6282.364
+    },
+    {
+      "epoch": 0.9891883199803252,
+      "grad_norm": 0.25375184416770935,
+      "learning_rate": 5e-06,
+      "loss": 0.9292,
+      "num_input_tokens_seen": 371321120,
+      "step": 817,
+      "train_runtime": 59108.6748,
+      "train_tokens_per_second": 6282.007
+    },
+    {
+      "epoch": 0.9903990767979266,
+      "grad_norm": 0.24142777919769287,
+      "learning_rate": 5e-06,
+      "loss": 0.9723,
+      "num_input_tokens_seen": 371770736,
+      "step": 818,
+      "train_runtime": 59183.2687,
+      "train_tokens_per_second": 6281.686
+    },
+    {
+      "epoch": 0.9916098336155279,
+      "grad_norm": 0.2367551475763321,
+      "learning_rate": 5e-06,
+      "loss": 1.0059,
+      "num_input_tokens_seen": 372212144,
+      "step": 819,
+      "train_runtime": 59256.3298,
+      "train_tokens_per_second": 6281.39
+    },
+    {
+      "epoch": 0.9928205904331293,
+      "grad_norm": 0.2153656780719757,
+      "learning_rate": 5e-06,
+      "loss": 0.922,
+      "num_input_tokens_seen": 372689824,
+      "step": 820,
+      "train_runtime": 59335.7827,
+      "train_tokens_per_second": 6281.03
+    },
+    {
+      "epoch": 0.9940313472507307,
+      "grad_norm": 0.25366196036338806,
+      "learning_rate": 5e-06,
+      "loss": 0.9453,
+      "num_input_tokens_seen": 373132840,
+      "step": 821,
+      "train_runtime": 59408.7438,
+      "train_tokens_per_second": 6280.773
+    },
+    {
+      "epoch": 0.9952421040683321,
+      "grad_norm": 0.2794412076473236,
+      "learning_rate": 5e-06,
+      "loss": 0.9247,
+      "num_input_tokens_seen": 373539032,
+      "step": 822,
+      "train_runtime": 59475.4747,
+      "train_tokens_per_second": 6280.556
+    },
+    {
+      "epoch": 0.9964528608859334,
+      "grad_norm": 0.24487674236297607,
+      "learning_rate": 5e-06,
+      "loss": 0.9423,
+      "num_input_tokens_seen": 374024816,
+      "step": 823,
+      "train_runtime": 59555.7552,
+      "train_tokens_per_second": 6280.246
+    },
+    {
+      "epoch": 0.9976636177035348,
+      "grad_norm": 0.2563667595386505,
+      "learning_rate": 5e-06,
+      "loss": 1.0405,
+      "num_input_tokens_seen": 374474376,
+      "step": 824,
+      "train_runtime": 59629.3553,
+      "train_tokens_per_second": 6280.034
+    },
+    {
+      "epoch": 0.9988743745211363,
+      "grad_norm": 0.23731544613838196,
+      "learning_rate": 5e-06,
+      "loss": 0.9858,
+      "num_input_tokens_seen": 374932816,
+      "step": 825,
+      "train_runtime": 59705.0846,
+      "train_tokens_per_second": 6279.747
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.2806185185909271,
+      "learning_rate": 5e-06,
+      "loss": 0.9485,
+      "num_input_tokens_seen": 375383896,
+      "step": 826,
+      "train_runtime": 59779.2015,
+      "train_tokens_per_second": 6279.507
+    },
+    {
+      "epoch": 1.0012107568176014,
+      "grad_norm": 0.32343029975891113,
+      "learning_rate": 5e-06,
+      "loss": 0.9351,
+      "num_input_tokens_seen": 375812944,
+      "step": 827,
+      "train_runtime": 59849.0654,
+      "train_tokens_per_second": 6279.345
+    },
+    {
+      "epoch": 1.0024215136352028,
+      "grad_norm": 0.26928800344467163,
+      "learning_rate": 5e-06,
+      "loss": 0.9809,
+      "num_input_tokens_seen": 376259432,
+      "step": 828,
+      "train_runtime": 59921.9342,
+      "train_tokens_per_second": 6279.16
+    },
+    {
+      "epoch": 1.0036322704528042,
+      "grad_norm": 0.25450897216796875,
+      "learning_rate": 5e-06,
+      "loss": 0.9789,
+      "num_input_tokens_seen": 376714864,
+      "step": 829,
+      "train_runtime": 59996.7049,
+      "train_tokens_per_second": 6278.926
+    },
+    {
+      "epoch": 1.0048430272704054,
+      "grad_norm": 0.28886231780052185,
+      "learning_rate": 5e-06,
+      "loss": 0.9311,
+      "num_input_tokens_seen": 377169072,
+      "step": 830,
+      "train_runtime": 60071.6622,
+      "train_tokens_per_second": 6278.652
+    },
+    {
+      "epoch": 1.0060537840880068,
+      "grad_norm": 0.24842868745326996,
+      "learning_rate": 5e-06,
+      "loss": 0.962,
+      "num_input_tokens_seen": 377620616,
+      "step": 831,
+      "train_runtime": 60145.504,
+      "train_tokens_per_second": 6278.451
+    },
+    {
+      "epoch": 1.0072645409056082,
+      "grad_norm": 0.25559040904045105,
+      "learning_rate": 5e-06,
+      "loss": 0.9614,
+      "num_input_tokens_seen": 378076536,
+      "step": 832,
+      "train_runtime": 60220.5226,
+      "train_tokens_per_second": 6278.201
+    },
+    {
+      "epoch": 1.0084752977232097,
+      "grad_norm": 0.25331735610961914,
+      "learning_rate": 5e-06,
+      "loss": 1.0003,
+      "num_input_tokens_seen": 378514920,
+      "step": 833,
+      "train_runtime": 60292.2197,
+      "train_tokens_per_second": 6278.006
+    },
+    {
+      "epoch": 1.009686054540811,
+      "grad_norm": 0.24362653493881226,
+      "learning_rate": 5e-06,
+      "loss": 0.9511,
+      "num_input_tokens_seen": 378977264,
+      "step": 834,
+      "train_runtime": 60368.2898,
+      "train_tokens_per_second": 6277.754
+    },
+    {
+      "epoch": 1.0108968113584125,
+      "grad_norm": 0.28384852409362793,
+      "learning_rate": 5e-06,
+      "loss": 0.9329,
+      "num_input_tokens_seen": 379436816,
+      "step": 835,
+      "train_runtime": 60444.0882,
+      "train_tokens_per_second": 6277.484
+    },
+    {
+      "epoch": 1.0121075681760137,
+      "grad_norm": 0.2487291693687439,
+      "learning_rate": 5e-06,
+      "loss": 0.9456,
+      "num_input_tokens_seen": 379905488,
+      "step": 836,
+      "train_runtime": 60521.0892,
+      "train_tokens_per_second": 6277.241
+    },
+    {
+      "epoch": 1.013318324993615,
+      "grad_norm": 0.23668697476387024,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 380351432,
+      "step": 837,
+      "train_runtime": 60594.3175,
+      "train_tokens_per_second": 6277.015
+    },
+    {
+      "epoch": 1.0145290818112165,
+      "grad_norm": 0.325173944234848,
+      "learning_rate": 5e-06,
+      "loss": 0.9809,
+      "num_input_tokens_seen": 380803728,
+      "step": 838,
+      "train_runtime": 60668.8616,
+      "train_tokens_per_second": 6276.757
+    },
+    {
+      "epoch": 1.015739838628818,
+      "grad_norm": 0.23116804659366608,
+      "learning_rate": 5e-06,
+      "loss": 0.9244,
+      "num_input_tokens_seen": 381263144,
+      "step": 839,
+      "train_runtime": 60744.5507,
+      "train_tokens_per_second": 6276.5
+    },
+    {
+      "epoch": 1.0169505954464193,
+      "grad_norm": 0.23826251924037933,
+      "learning_rate": 5e-06,
+      "loss": 0.9382,
+      "num_input_tokens_seen": 381700768,
+      "step": 840,
+      "train_runtime": 60816.1107,
+      "train_tokens_per_second": 6276.31
+    },
+    {
+      "epoch": 1.0181613522640207,
+      "grad_norm": 0.2259143888950348,
+      "learning_rate": 5e-06,
+      "loss": 0.9372,
+      "num_input_tokens_seen": 382148144,
+      "step": 841,
+      "train_runtime": 60889.5245,
+      "train_tokens_per_second": 6276.09
+    },
+    {
+      "epoch": 1.0193721090816221,
+      "grad_norm": 0.254041463136673,
+      "learning_rate": 5e-06,
+      "loss": 0.9983,
+      "num_input_tokens_seen": 382596744,
+      "step": 842,
+      "train_runtime": 60963.3714,
+      "train_tokens_per_second": 6275.846
+    },
+    {
+      "epoch": 1.0205828658992233,
+      "grad_norm": 0.2320503443479538,
+      "learning_rate": 5e-06,
+      "loss": 0.9858,
+      "num_input_tokens_seen": 383049456,
+      "step": 843,
+      "train_runtime": 61037.609,
+      "train_tokens_per_second": 6275.63
+    },
+    {
+      "epoch": 1.0217936227168247,
+      "grad_norm": 0.2377566397190094,
+      "learning_rate": 5e-06,
+      "loss": 0.9202,
+      "num_input_tokens_seen": 383507960,
+      "step": 844,
+      "train_runtime": 61113.2522,
+      "train_tokens_per_second": 6275.365
+    },
+    {
+      "epoch": 1.0230043795344261,
+      "grad_norm": 0.23518335819244385,
+      "learning_rate": 5e-06,
+      "loss": 0.9178,
+      "num_input_tokens_seen": 383957320,
+      "step": 845,
+      "train_runtime": 61187.3572,
+      "train_tokens_per_second": 6275.109
+    },
+    {
+      "epoch": 1.0242151363520275,
+      "grad_norm": 0.2533697187900543,
+      "learning_rate": 5e-06,
+      "loss": 0.9678,
+      "num_input_tokens_seen": 384423264,
+      "step": 846,
+      "train_runtime": 61264.2471,
+      "train_tokens_per_second": 6274.839
+    },
+    {
+      "epoch": 1.025425893169629,
+      "grad_norm": 0.23266910016536713,
+      "learning_rate": 5e-06,
+      "loss": 0.9683,
+      "num_input_tokens_seen": 384880984,
+      "step": 847,
+      "train_runtime": 61339.9009,
+      "train_tokens_per_second": 6274.562
+    },
+    {
+      "epoch": 1.0266366499872304,
+      "grad_norm": 0.26946571469306946,
+      "learning_rate": 5e-06,
+      "loss": 0.9402,
+      "num_input_tokens_seen": 385329376,
+      "step": 848,
+      "train_runtime": 61413.5181,
+      "train_tokens_per_second": 6274.341
+    },
+    {
+      "epoch": 1.0278474068048318,
+      "grad_norm": 0.24856071174144745,
+      "learning_rate": 5e-06,
+      "loss": 0.9894,
+      "num_input_tokens_seen": 385777592,
+      "step": 849,
+      "train_runtime": 61487.4406,
+      "train_tokens_per_second": 6274.088
+    },
+    {
+      "epoch": 1.029058163622433,
+      "grad_norm": 0.2351611852645874,
+      "learning_rate": 5e-06,
+      "loss": 1.0025,
+      "num_input_tokens_seen": 386234720,
+      "step": 850,
+      "train_runtime": 61562.9352,
+      "train_tokens_per_second": 6273.819
+    },
+    {
+      "epoch": 1.0302689204400344,
+      "grad_norm": 0.2401961088180542,
+      "learning_rate": 5e-06,
+      "loss": 0.9382,
+      "num_input_tokens_seen": 386694424,
+      "step": 851,
+      "train_runtime": 61638.1399,
+      "train_tokens_per_second": 6273.623
+    },
+    {
+      "epoch": 1.0314796772576358,
+      "grad_norm": 0.22459951043128967,
+      "learning_rate": 5e-06,
+      "loss": 0.9601,
+      "num_input_tokens_seen": 387157680,
+      "step": 852,
+      "train_runtime": 61714.3484,
+      "train_tokens_per_second": 6273.382
+    },
+    {
+      "epoch": 1.0326904340752372,
+      "grad_norm": 0.234735906124115,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 387600544,
+      "step": 853,
+      "train_runtime": 61787.81,
+      "train_tokens_per_second": 6273.091
+    },
+    {
+      "epoch": 1.0339011908928386,
+      "grad_norm": 0.25244709849357605,
+      "learning_rate": 5e-06,
+      "loss": 0.9456,
+      "num_input_tokens_seen": 388051704,
+      "step": 854,
+      "train_runtime": 61862.1932,
+      "train_tokens_per_second": 6272.841
+    },
+    {
+      "epoch": 1.03511194771044,
+      "grad_norm": 0.2344299554824829,
+      "learning_rate": 5e-06,
+      "loss": 0.9304,
+      "num_input_tokens_seen": 388502672,
+      "step": 855,
+      "train_runtime": 61936.0349,
+      "train_tokens_per_second": 6272.644
+    },
+    {
+      "epoch": 1.0363227045280414,
+      "grad_norm": 0.23790518939495087,
+      "learning_rate": 5e-06,
+      "loss": 0.9557,
+      "num_input_tokens_seen": 388966360,
+      "step": 856,
+      "train_runtime": 62013.0899,
+      "train_tokens_per_second": 6272.327
+    },
+    {
+      "epoch": 1.0375334613456426,
+      "grad_norm": 0.227335587143898,
+      "learning_rate": 5e-06,
+      "loss": 0.9626,
+      "num_input_tokens_seen": 389459840,
+      "step": 857,
+      "train_runtime": 62094.4481,
+      "train_tokens_per_second": 6272.056
+    },
+    {
+      "epoch": 1.038744218163244,
+      "grad_norm": 0.24627360701560974,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 389920728,
+      "step": 858,
+      "train_runtime": 62170.1606,
+      "train_tokens_per_second": 6271.831
+    },
+    {
+      "epoch": 1.0399549749808454,
+      "grad_norm": 0.23155222833156586,
+      "learning_rate": 5e-06,
+      "loss": 0.9678,
+      "num_input_tokens_seen": 390406000,
+      "step": 859,
+      "train_runtime": 62250.3499,
+      "train_tokens_per_second": 6271.547
+    },
+    {
+      "epoch": 1.0411657317984468,
+      "grad_norm": 0.24751697480678558,
+      "learning_rate": 5e-06,
+      "loss": 0.8877,
+      "num_input_tokens_seen": 390852104,
+      "step": 860,
+      "train_runtime": 62324.5278,
+      "train_tokens_per_second": 6271.241
+    },
+    {
+      "epoch": 1.0423764886160483,
+      "grad_norm": 0.24071338772773743,
+      "learning_rate": 5e-06,
+      "loss": 0.9907,
+      "num_input_tokens_seen": 391293032,
+      "step": 861,
+      "train_runtime": 62397.4491,
+      "train_tokens_per_second": 6270.978
+    },
+    {
+      "epoch": 1.0435872454336497,
+      "grad_norm": 0.22940731048583984,
+      "learning_rate": 5e-06,
+      "loss": 0.9161,
+      "num_input_tokens_seen": 391770176,
+      "step": 862,
+      "train_runtime": 62476.2215,
+      "train_tokens_per_second": 6270.709
+    },
+    {
+      "epoch": 1.0447980022512509,
+      "grad_norm": 0.2349405437707901,
+      "learning_rate": 5e-06,
+      "loss": 0.9215,
+      "num_input_tokens_seen": 392244600,
+      "step": 863,
+      "train_runtime": 62555.2897,
+      "train_tokens_per_second": 6270.367
+    },
+    {
+      "epoch": 1.0460087590688523,
+      "grad_norm": 0.24631568789482117,
+      "learning_rate": 5e-06,
+      "loss": 1.0027,
+      "num_input_tokens_seen": 392696832,
+      "step": 864,
+      "train_runtime": 62629.7506,
+      "train_tokens_per_second": 6270.132
+    },
+    {
+      "epoch": 1.0472195158864537,
+      "grad_norm": 0.22788004577159882,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 393167904,
+      "step": 865,
+      "train_runtime": 62707.7818,
+      "train_tokens_per_second": 6269.842
+    },
+    {
+      "epoch": 1.048430272704055,
+      "grad_norm": 0.25337284803390503,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 393614280,
+      "step": 866,
+      "train_runtime": 62781.9156,
+      "train_tokens_per_second": 6269.549
+    },
+    {
+      "epoch": 1.0496410295216565,
+      "grad_norm": 0.24765488505363464,
+      "learning_rate": 5e-06,
+      "loss": 0.9575,
+      "num_input_tokens_seen": 394048632,
+      "step": 867,
+      "train_runtime": 62853.869,
+      "train_tokens_per_second": 6269.282
+    },
+    {
+      "epoch": 1.050851786339258,
+      "grad_norm": 0.2693709135055542,
+      "learning_rate": 5e-06,
+      "loss": 0.922,
+      "num_input_tokens_seen": 394509160,
+      "step": 868,
+      "train_runtime": 62930.1041,
+      "train_tokens_per_second": 6269.005
+    },
+    {
+      "epoch": 1.0520625431568593,
+      "grad_norm": 0.2373555600643158,
+      "learning_rate": 5e-06,
+      "loss": 0.9446,
+      "num_input_tokens_seen": 394987880,
+      "step": 869,
+      "train_runtime": 63009.5701,
+      "train_tokens_per_second": 6268.697
+    },
+    {
+      "epoch": 1.0532732999744605,
+      "grad_norm": 0.22769400477409363,
+      "learning_rate": 5e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 395451368,
+      "step": 870,
+      "train_runtime": 63086.1339,
+      "train_tokens_per_second": 6268.436
+    },
+    {
+      "epoch": 1.054484056792062,
+      "grad_norm": 0.27482476830482483,
+      "learning_rate": 5e-06,
+      "loss": 1.0033,
+      "num_input_tokens_seen": 395906456,
+      "step": 871,
+      "train_runtime": 63161.4527,
+      "train_tokens_per_second": 6268.166
+    },
+    {
+      "epoch": 1.0556948136096633,
+      "grad_norm": 0.3092348873615265,
+      "learning_rate": 5e-06,
+      "loss": 0.925,
+      "num_input_tokens_seen": 396368728,
+      "step": 872,
+      "train_runtime": 63237.3574,
+      "train_tokens_per_second": 6267.952
+    },
+    {
+      "epoch": 1.0569055704272647,
+      "grad_norm": 0.24406789243221283,
+      "learning_rate": 5e-06,
+      "loss": 0.9352,
+      "num_input_tokens_seen": 396819384,
+      "step": 873,
+      "train_runtime": 63311.4228,
+      "train_tokens_per_second": 6267.738
+    },
+    {
+      "epoch": 1.0581163272448662,
+      "grad_norm": 0.23081360757350922,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 397266008,
+      "step": 874,
+      "train_runtime": 63385.1132,
+      "train_tokens_per_second": 6267.497
+    },
+    {
+      "epoch": 1.0593270840624676,
+      "grad_norm": 0.23777136206626892,
+      "learning_rate": 5e-06,
+      "loss": 0.9109,
+      "num_input_tokens_seen": 397710296,
+      "step": 875,
+      "train_runtime": 63458.1334,
+      "train_tokens_per_second": 6267.286
+    },
+    {
+      "epoch": 1.0605378408800687,
+      "grad_norm": 0.27890682220458984,
+      "learning_rate": 5e-06,
+      "loss": 0.9501,
+      "num_input_tokens_seen": 398160280,
+      "step": 876,
+      "train_runtime": 63532.2973,
+      "train_tokens_per_second": 6267.053
+    },
+    {
+      "epoch": 1.0617485976976702,
+      "grad_norm": 0.31578439474105835,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 398617704,
+      "step": 877,
+      "train_runtime": 63607.8411,
+      "train_tokens_per_second": 6266.801
+    },
+    {
+      "epoch": 1.0629593545152716,
+      "grad_norm": 0.265449583530426,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 399065392,
+      "step": 878,
+      "train_runtime": 63681.9925,
+      "train_tokens_per_second": 6266.534
+    },
+    {
+      "epoch": 1.064170111332873,
+      "grad_norm": 0.23809348046779633,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 399511384,
+      "step": 879,
+      "train_runtime": 63755.2338,
+      "train_tokens_per_second": 6266.331
+    },
+    {
+      "epoch": 1.0653808681504744,
+      "grad_norm": 0.23853924870491028,
+      "learning_rate": 5e-06,
+      "loss": 0.9333,
+      "num_input_tokens_seen": 399962128,
+      "step": 880,
+      "train_runtime": 63829.5915,
+      "train_tokens_per_second": 6266.093
+    },
+    {
+      "epoch": 1.0665916249680758,
+      "grad_norm": 0.2612011432647705,
+      "learning_rate": 5e-06,
+      "loss": 0.9688,
+      "num_input_tokens_seen": 400415080,
+      "step": 881,
+      "train_runtime": 63904.2631,
+      "train_tokens_per_second": 6265.859
+    },
+    {
+      "epoch": 1.0678023817856772,
+      "grad_norm": 0.24397185444831848,
+      "learning_rate": 5e-06,
+      "loss": 0.9522,
+      "num_input_tokens_seen": 400891320,
+      "step": 882,
+      "train_runtime": 63982.8326,
+      "train_tokens_per_second": 6265.608
+    },
+    {
+      "epoch": 1.0690131386032784,
+      "grad_norm": 0.22875207662582397,
+      "learning_rate": 5e-06,
+      "loss": 0.8692,
+      "num_input_tokens_seen": 401342120,
+      "step": 883,
+      "train_runtime": 64057.1181,
+      "train_tokens_per_second": 6265.379
+    },
+    {
+      "epoch": 1.0702238954208798,
+      "grad_norm": 0.2462654709815979,
+      "learning_rate": 5e-06,
+      "loss": 0.9387,
+      "num_input_tokens_seen": 401803896,
+      "step": 884,
+      "train_runtime": 64132.7561,
+      "train_tokens_per_second": 6265.19
+    },
+    {
+      "epoch": 1.0714346522384812,
+      "grad_norm": 0.24718287587165833,
+      "learning_rate": 5e-06,
+      "loss": 0.9991,
+      "num_input_tokens_seen": 402272664,
+      "step": 885,
+      "train_runtime": 64209.9502,
+      "train_tokens_per_second": 6264.958
+    },
+    {
+      "epoch": 1.0726454090560826,
+      "grad_norm": 0.24072563648223877,
+      "learning_rate": 5e-06,
+      "loss": 0.9287,
+      "num_input_tokens_seen": 402723056,
+      "step": 886,
+      "train_runtime": 64284.2525,
+      "train_tokens_per_second": 6264.723
+    },
+    {
+      "epoch": 1.073856165873684,
+      "grad_norm": 0.2594250440597534,
+      "learning_rate": 5e-06,
+      "loss": 0.96,
+      "num_input_tokens_seen": 403187280,
+      "step": 887,
+      "train_runtime": 64360.8895,
+      "train_tokens_per_second": 6264.477
+    },
+    {
+      "epoch": 1.0750669226912855,
+      "grad_norm": 0.23461049795150757,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 403634976,
+      "step": 888,
+      "train_runtime": 64434.6937,
+      "train_tokens_per_second": 6264.249
+    },
+    {
+      "epoch": 1.0762776795088869,
+      "grad_norm": 0.26398470997810364,
+      "learning_rate": 5e-06,
+      "loss": 0.9979,
+      "num_input_tokens_seen": 404074752,
+      "step": 889,
+      "train_runtime": 64506.9752,
+      "train_tokens_per_second": 6264.047
+    },
+    {
+      "epoch": 1.077488436326488,
+      "grad_norm": 0.22275783121585846,
+      "learning_rate": 5e-06,
+      "loss": 0.9295,
+      "num_input_tokens_seen": 404526048,
+      "step": 890,
+      "train_runtime": 64581.6885,
+      "train_tokens_per_second": 6263.789
+    },
+    {
+      "epoch": 1.0786991931440895,
+      "grad_norm": 0.24403129518032074,
+      "learning_rate": 5e-06,
+      "loss": 0.988,
+      "num_input_tokens_seen": 404977352,
+      "step": 891,
+      "train_runtime": 64656.3632,
+      "train_tokens_per_second": 6263.534
+    },
+    {
+      "epoch": 1.0799099499616909,
+      "grad_norm": 0.22611185908317566,
+      "learning_rate": 5e-06,
+      "loss": 0.9323,
+      "num_input_tokens_seen": 405472656,
+      "step": 892,
+      "train_runtime": 64738.2809,
+      "train_tokens_per_second": 6263.26
+    },
+    {
+      "epoch": 1.0811207067792923,
+      "grad_norm": 0.24935585260391235,
+      "learning_rate": 5e-06,
+      "loss": 0.9754,
+      "num_input_tokens_seen": 405915216,
+      "step": 893,
+      "train_runtime": 64811.4632,
+      "train_tokens_per_second": 6263.016
+    },
+    {
+      "epoch": 1.0823314635968937,
+      "grad_norm": 0.23537464439868927,
+      "learning_rate": 5e-06,
+      "loss": 0.9882,
+      "num_input_tokens_seen": 406358328,
+      "step": 894,
+      "train_runtime": 64884.6774,
+      "train_tokens_per_second": 6262.778
+    },
+    {
+      "epoch": 1.083542220414495,
+      "grad_norm": 0.25859230756759644,
+      "learning_rate": 5e-06,
+      "loss": 1.0094,
+      "num_input_tokens_seen": 406792080,
+      "step": 895,
+      "train_runtime": 64956.3923,
+      "train_tokens_per_second": 6262.541
+    },
+    {
+      "epoch": 1.0847529772320965,
+      "grad_norm": 0.2601807117462158,
+      "learning_rate": 5e-06,
+      "loss": 1.0062,
+      "num_input_tokens_seen": 407236568,
+      "step": 896,
+      "train_runtime": 65029.8834,
+      "train_tokens_per_second": 6262.299
+    },
+    {
+      "epoch": 1.0859637340496977,
+      "grad_norm": 0.25152677297592163,
+      "learning_rate": 5e-06,
+      "loss": 0.9604,
+      "num_input_tokens_seen": 407694016,
+      "step": 897,
+      "train_runtime": 65105.3988,
+      "train_tokens_per_second": 6262.062
+    },
+    {
+      "epoch": 1.0871744908672991,
+      "grad_norm": 0.2490074634552002,
+      "learning_rate": 5e-06,
+      "loss": 0.9767,
+      "num_input_tokens_seen": 408139040,
+      "step": 898,
+      "train_runtime": 65178.6583,
+      "train_tokens_per_second": 6261.851
+    },
+    {
+      "epoch": 1.0883852476849005,
+      "grad_norm": 0.2619398534297943,
+      "learning_rate": 5e-06,
+      "loss": 0.9195,
+      "num_input_tokens_seen": 408609256,
+      "step": 899,
+      "train_runtime": 65255.5022,
+      "train_tokens_per_second": 6261.683
+    },
+    {
+      "epoch": 1.089596004502502,
+      "grad_norm": 0.22217896580696106,
+      "learning_rate": 5e-06,
+      "loss": 0.9578,
+      "num_input_tokens_seen": 409081904,
+      "step": 900,
+      "train_runtime": 65333.4837,
+      "train_tokens_per_second": 6261.443
+    },
+    {
+      "epoch": 1.0908067613201033,
+      "grad_norm": 0.26266419887542725,
+      "learning_rate": 5e-06,
+      "loss": 0.9423,
+      "num_input_tokens_seen": 409534064,
+      "step": 901,
+      "train_runtime": 65407.6873,
+      "train_tokens_per_second": 6261.253
+    },
+    {
+      "epoch": 1.0920175181377048,
+      "grad_norm": 0.23616282641887665,
+      "learning_rate": 5e-06,
+      "loss": 0.9667,
+      "num_input_tokens_seen": 410013440,
+      "step": 902,
+      "train_runtime": 65486.7075,
+      "train_tokens_per_second": 6261.018
+    },
+    {
+      "epoch": 1.093228274955306,
+      "grad_norm": 0.2340526580810547,
+      "learning_rate": 5e-06,
+      "loss": 0.9399,
+      "num_input_tokens_seen": 410466096,
+      "step": 903,
+      "train_runtime": 65561.0012,
+      "train_tokens_per_second": 6260.827
+    },
+    {
+      "epoch": 1.0944390317729074,
+      "grad_norm": 0.22588470578193665,
+      "learning_rate": 5e-06,
+      "loss": 0.9486,
+      "num_input_tokens_seen": 410910864,
+      "step": 904,
+      "train_runtime": 65634.0777,
+      "train_tokens_per_second": 6260.633
+    },
+    {
+      "epoch": 1.0956497885905088,
+      "grad_norm": 0.22636951506137848,
+      "learning_rate": 5e-06,
+      "loss": 0.934,
+      "num_input_tokens_seen": 411365264,
+      "step": 905,
+      "train_runtime": 65708.6219,
+      "train_tokens_per_second": 6260.446
+    },
+    {
+      "epoch": 1.0968605454081102,
+      "grad_norm": 0.2439277172088623,
+      "learning_rate": 5e-06,
+      "loss": 0.8909,
+      "num_input_tokens_seen": 411829656,
+      "step": 906,
+      "train_runtime": 65785.1231,
+      "train_tokens_per_second": 6260.225
+    },
+    {
+      "epoch": 1.0980713022257116,
+      "grad_norm": 0.24524036049842834,
+      "learning_rate": 5e-06,
+      "loss": 0.9994,
+      "num_input_tokens_seen": 412289888,
+      "step": 907,
+      "train_runtime": 65860.7063,
+      "train_tokens_per_second": 6260.028
+    },
+    {
+      "epoch": 1.099282059043313,
+      "grad_norm": 0.23185384273529053,
+      "learning_rate": 5e-06,
+      "loss": 0.9854,
+      "num_input_tokens_seen": 412763840,
+      "step": 908,
+      "train_runtime": 65938.5276,
+      "train_tokens_per_second": 6259.828
+    },
+    {
+      "epoch": 1.1004928158609144,
+      "grad_norm": 0.22845549881458282,
+      "learning_rate": 5e-06,
+      "loss": 0.9688,
+      "num_input_tokens_seen": 413225160,
+      "step": 909,
+      "train_runtime": 66014.5341,
+      "train_tokens_per_second": 6259.609
+    },
+    {
+      "epoch": 1.1017035726785156,
+      "grad_norm": 0.24248257279396057,
+      "learning_rate": 5e-06,
+      "loss": 0.9407,
+      "num_input_tokens_seen": 413667032,
+      "step": 910,
+      "train_runtime": 66086.6471,
+      "train_tokens_per_second": 6259.465
+    },
+    {
+      "epoch": 1.102914329496117,
+      "grad_norm": 0.2400379329919815,
+      "learning_rate": 5e-06,
+      "loss": 0.9766,
+      "num_input_tokens_seen": 414113888,
+      "step": 911,
+      "train_runtime": 66159.6556,
+      "train_tokens_per_second": 6259.311
+    },
+    {
+      "epoch": 1.1041250863137184,
+      "grad_norm": 0.2528563439846039,
+      "learning_rate": 5e-06,
+      "loss": 0.9031,
+      "num_input_tokens_seen": 414556384,
+      "step": 912,
+      "train_runtime": 66232.8368,
+      "train_tokens_per_second": 6259.076
+    },
+    {
+      "epoch": 1.1053358431313198,
+      "grad_norm": 0.23828411102294922,
+      "learning_rate": 5e-06,
+      "loss": 0.9605,
+      "num_input_tokens_seen": 415033736,
+      "step": 913,
+      "train_runtime": 66311.6819,
+      "train_tokens_per_second": 6258.833
+    },
+    {
+      "epoch": 1.1065465999489212,
+      "grad_norm": 0.2361602932214737,
+      "learning_rate": 5e-06,
+      "loss": 0.9757,
+      "num_input_tokens_seen": 415471768,
+      "step": 914,
+      "train_runtime": 66383.8663,
+      "train_tokens_per_second": 6258.626
+    },
+    {
+      "epoch": 1.1077573567665226,
+      "grad_norm": 0.25282710790634155,
+      "learning_rate": 5e-06,
+      "loss": 0.9595,
+      "num_input_tokens_seen": 415920848,
+      "step": 915,
+      "train_runtime": 66457.5615,
+      "train_tokens_per_second": 6258.443
+    },
+    {
+      "epoch": 1.1089681135841238,
+      "grad_norm": 0.24360793828964233,
+      "learning_rate": 5e-06,
+      "loss": 0.9652,
+      "num_input_tokens_seen": 416359384,
+      "step": 916,
+      "train_runtime": 66529.0151,
+      "train_tokens_per_second": 6258.313
+    },
+    {
+      "epoch": 1.1101788704017252,
+      "grad_norm": 0.24343234300613403,
+      "learning_rate": 5e-06,
+      "loss": 0.9539,
+      "num_input_tokens_seen": 416791408,
+      "step": 917,
+      "train_runtime": 66599.6517,
+      "train_tokens_per_second": 6258.162
+    },
+    {
+      "epoch": 1.1113896272193267,
+      "grad_norm": 0.22756776213645935,
+      "learning_rate": 5e-06,
+      "loss": 0.9909,
+      "num_input_tokens_seen": 417240208,
+      "step": 918,
+      "train_runtime": 66673.3949,
+      "train_tokens_per_second": 6257.972
+    },
+    {
+      "epoch": 1.112600384036928,
+      "grad_norm": 0.24931581318378448,
+      "learning_rate": 5e-06,
+      "loss": 0.9645,
+      "num_input_tokens_seen": 417696072,
+      "step": 919,
+      "train_runtime": 66747.9073,
+      "train_tokens_per_second": 6257.815
+    },
+    {
+      "epoch": 1.1138111408545295,
+      "grad_norm": 0.2384309619665146,
+      "learning_rate": 5e-06,
+      "loss": 0.9136,
+      "num_input_tokens_seen": 418138568,
+      "step": 920,
+      "train_runtime": 66820.2813,
+      "train_tokens_per_second": 6257.659
+    },
+    {
+      "epoch": 1.115021897672131,
+      "grad_norm": 0.2728740870952606,
+      "learning_rate": 5e-06,
+      "loss": 0.9831,
+      "num_input_tokens_seen": 418582560,
+      "step": 921,
+      "train_runtime": 66893.2348,
+      "train_tokens_per_second": 6257.472
+    },
+    {
+      "epoch": 1.1162326544897323,
+      "grad_norm": 0.22459077835083008,
+      "learning_rate": 5e-06,
+      "loss": 0.9284,
+      "num_input_tokens_seen": 419046112,
+      "step": 922,
+      "train_runtime": 66969.9731,
+      "train_tokens_per_second": 6257.224
+    },
+    {
+      "epoch": 1.1174434113073335,
+      "grad_norm": 0.22039759159088135,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 419517280,
+      "step": 923,
+      "train_runtime": 67047.7728,
+      "train_tokens_per_second": 6256.991
+    },
+    {
+      "epoch": 1.118654168124935,
+      "grad_norm": 0.251267671585083,
+      "learning_rate": 5e-06,
+      "loss": 0.9654,
+      "num_input_tokens_seen": 419968712,
+      "step": 924,
+      "train_runtime": 67121.4437,
+      "train_tokens_per_second": 6256.849
+    },
+    {
+      "epoch": 1.1198649249425363,
+      "grad_norm": 0.24382558465003967,
+      "learning_rate": 5e-06,
+      "loss": 0.9589,
+      "num_input_tokens_seen": 420406984,
+      "step": 925,
+      "train_runtime": 67193.015,
+      "train_tokens_per_second": 6256.707
+    },
+    {
+      "epoch": 1.1210756817601377,
+      "grad_norm": 0.22386138141155243,
+      "learning_rate": 5e-06,
+      "loss": 0.9313,
+      "num_input_tokens_seen": 420861848,
+      "step": 926,
+      "train_runtime": 67267.6486,
+      "train_tokens_per_second": 6256.527
+    },
+    {
+      "epoch": 1.1222864385777391,
+      "grad_norm": 0.21948383748531342,
+      "learning_rate": 5e-06,
+      "loss": 0.9729,
+      "num_input_tokens_seen": 421331168,
+      "step": 927,
+      "train_runtime": 67345.0933,
+      "train_tokens_per_second": 6256.301
+    },
+    {
+      "epoch": 1.1234971953953405,
+      "grad_norm": 0.2778039574623108,
+      "learning_rate": 5e-06,
+      "loss": 1.016,
+      "num_input_tokens_seen": 421758736,
+      "step": 928,
+      "train_runtime": 67414.5044,
+      "train_tokens_per_second": 6256.202
+    },
+    {
+      "epoch": 1.124707952212942,
+      "grad_norm": 0.2170412689447403,
+      "learning_rate": 5e-06,
+      "loss": 0.9539,
+      "num_input_tokens_seen": 422211592,
+      "step": 929,
+      "train_runtime": 67488.8275,
+      "train_tokens_per_second": 6256.022
+    },
+    {
+      "epoch": 1.1259187090305431,
+      "grad_norm": 0.25213587284088135,
+      "learning_rate": 5e-06,
+      "loss": 0.8931,
+      "num_input_tokens_seen": 422680032,
+      "step": 930,
+      "train_runtime": 67566.688,
+      "train_tokens_per_second": 6255.746
+    },
+    {
+      "epoch": 1.1271294658481446,
+      "grad_norm": 0.23005911707878113,
+      "learning_rate": 5e-06,
+      "loss": 0.9915,
+      "num_input_tokens_seen": 423140064,
+      "step": 931,
+      "train_runtime": 67642.6868,
+      "train_tokens_per_second": 6255.518
+    },
+    {
+      "epoch": 1.128340222665746,
+      "grad_norm": 0.25569239258766174,
+      "learning_rate": 5e-06,
+      "loss": 0.9817,
+      "num_input_tokens_seen": 423618400,
+      "step": 932,
+      "train_runtime": 67721.4977,
+      "train_tokens_per_second": 6255.302
+    },
+    {
+      "epoch": 1.1295509794833474,
+      "grad_norm": 0.2626954913139343,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 424089544,
+      "step": 933,
+      "train_runtime": 67799.5609,
+      "train_tokens_per_second": 6255.049
+    },
+    {
+      "epoch": 1.1307617363009488,
+      "grad_norm": 0.2500688135623932,
+      "learning_rate": 5e-06,
+      "loss": 1.0022,
+      "num_input_tokens_seen": 424567696,
+      "step": 934,
+      "train_runtime": 67878.4197,
+      "train_tokens_per_second": 6254.826
+    },
+    {
+      "epoch": 1.1319724931185502,
+      "grad_norm": 0.23637151718139648,
+      "learning_rate": 5e-06,
+      "loss": 1.0038,
+      "num_input_tokens_seen": 425008992,
+      "step": 935,
+      "train_runtime": 67951.2851,
+      "train_tokens_per_second": 6254.613
+    },
+    {
+      "epoch": 1.1331832499361516,
+      "grad_norm": 0.22515641152858734,
+      "learning_rate": 5e-06,
+      "loss": 0.9132,
+      "num_input_tokens_seen": 425487232,
+      "step": 936,
+      "train_runtime": 68030.5016,
+      "train_tokens_per_second": 6254.36
+    },
+    {
+      "epoch": 1.1343940067537528,
+      "grad_norm": 0.22837060689926147,
+      "learning_rate": 5e-06,
+      "loss": 0.9165,
+      "num_input_tokens_seen": 425957792,
+      "step": 937,
+      "train_runtime": 68107.9582,
+      "train_tokens_per_second": 6254.156
+    },
+    {
+      "epoch": 1.1356047635713542,
+      "grad_norm": 0.2596193552017212,
+      "learning_rate": 5e-06,
+      "loss": 0.95,
+      "num_input_tokens_seen": 426428528,
+      "step": 938,
+      "train_runtime": 68185.8307,
+      "train_tokens_per_second": 6253.917
+    },
+    {
+      "epoch": 1.1368155203889556,
+      "grad_norm": 0.23047588765621185,
+      "learning_rate": 5e-06,
+      "loss": 0.9153,
+      "num_input_tokens_seen": 426877936,
+      "step": 939,
+      "train_runtime": 68259.9737,
+      "train_tokens_per_second": 6253.708
+    },
+    {
+      "epoch": 1.138026277206557,
+      "grad_norm": 0.22194674611091614,
+      "learning_rate": 5e-06,
+      "loss": 0.9353,
+      "num_input_tokens_seen": 427332784,
+      "step": 940,
+      "train_runtime": 68334.9772,
+      "train_tokens_per_second": 6253.5
+    },
+    {
+      "epoch": 1.1392370340241584,
+      "grad_norm": 0.2305593639612198,
+      "learning_rate": 5e-06,
+      "loss": 0.9578,
+      "num_input_tokens_seen": 427770848,
+      "step": 941,
+      "train_runtime": 68406.5809,
+      "train_tokens_per_second": 6253.358
+    },
+    {
+      "epoch": 1.1404477908417598,
+      "grad_norm": 0.2662777900695801,
+      "learning_rate": 5e-06,
+      "loss": 0.9606,
+      "num_input_tokens_seen": 428218112,
+      "step": 942,
+      "train_runtime": 68479.8162,
+      "train_tokens_per_second": 6253.202
+    },
+    {
+      "epoch": 1.141658547659361,
+      "grad_norm": 0.26229748129844666,
+      "learning_rate": 5e-06,
+      "loss": 0.9166,
+      "num_input_tokens_seen": 428684216,
+      "step": 943,
+      "train_runtime": 68556.798,
+      "train_tokens_per_second": 6252.979
+    },
+    {
+      "epoch": 1.1428693044769624,
+      "grad_norm": 0.22433774173259735,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "num_input_tokens_seen": 429177656,
+      "step": 944,
+      "train_runtime": 68638.2099,
+      "train_tokens_per_second": 6252.751
+    },
+    {
+      "epoch": 1.1440800612945639,
+      "grad_norm": 0.23602762818336487,
+      "learning_rate": 5e-06,
+      "loss": 0.9273,
+      "num_input_tokens_seen": 429659776,
+      "step": 945,
+      "train_runtime": 68717.5939,
+      "train_tokens_per_second": 6252.544
+    },
+    {
+      "epoch": 1.1452908181121653,
+      "grad_norm": 0.246641144156456,
+      "learning_rate": 5e-06,
+      "loss": 0.9523,
+      "num_input_tokens_seen": 430124728,
+      "step": 946,
+      "train_runtime": 68793.6291,
+      "train_tokens_per_second": 6252.392
+    },
+    {
+      "epoch": 1.1465015749297667,
+      "grad_norm": 0.2760850787162781,
+      "learning_rate": 5e-06,
+      "loss": 0.9436,
+      "num_input_tokens_seen": 430575992,
+      "step": 947,
+      "train_runtime": 68868.1445,
+      "train_tokens_per_second": 6252.179
+    },
+    {
+      "epoch": 1.147712331747368,
+      "grad_norm": 0.24327822029590607,
+      "learning_rate": 5e-06,
+      "loss": 0.9575,
+      "num_input_tokens_seen": 431013928,
+      "step": 948,
+      "train_runtime": 68940.3142,
+      "train_tokens_per_second": 6251.987
+    },
+    {
+      "epoch": 1.1489230885649695,
+      "grad_norm": 0.24040260910987854,
+      "learning_rate": 5e-06,
+      "loss": 0.9448,
+      "num_input_tokens_seen": 431462608,
+      "step": 949,
+      "train_runtime": 69014.5475,
+      "train_tokens_per_second": 6251.763
+    },
+    {
+      "epoch": 1.1501338453825707,
+      "grad_norm": 0.23738116025924683,
+      "learning_rate": 5e-06,
+      "loss": 0.9312,
+      "num_input_tokens_seen": 431919616,
+      "step": 950,
+      "train_runtime": 69089.8288,
+      "train_tokens_per_second": 6251.566
+    },
+    {
+      "epoch": 1.151344602200172,
+      "grad_norm": 0.26888352632522583,
+      "learning_rate": 5e-06,
+      "loss": 1.0274,
+      "num_input_tokens_seen": 432378360,
+      "step": 951,
+      "train_runtime": 69166.0174,
+      "train_tokens_per_second": 6251.312
+    },
+    {
+      "epoch": 1.1525553590177735,
+      "grad_norm": 0.3020702600479126,
+      "learning_rate": 5e-06,
+      "loss": 0.966,
+      "num_input_tokens_seen": 432815336,
+      "step": 952,
+      "train_runtime": 69238.0188,
+      "train_tokens_per_second": 6251.122
+    },
+    {
+      "epoch": 1.153766115835375,
+      "grad_norm": 0.23694109916687012,
+      "learning_rate": 5e-06,
+      "loss": 0.9676,
+      "num_input_tokens_seen": 433256224,
+      "step": 953,
+      "train_runtime": 69310.4665,
+      "train_tokens_per_second": 6250.949
+    },
+    {
+      "epoch": 1.1549768726529763,
+      "grad_norm": 0.26480624079704285,
+      "learning_rate": 5e-06,
+      "loss": 0.9864,
+      "num_input_tokens_seen": 433691568,
+      "step": 954,
+      "train_runtime": 69382.337,
+      "train_tokens_per_second": 6250.749
+    },
+    {
+      "epoch": 1.1561876294705777,
+      "grad_norm": 0.2512606382369995,
+      "learning_rate": 5e-06,
+      "loss": 0.9802,
+      "num_input_tokens_seen": 434141344,
+      "step": 955,
+      "train_runtime": 69456.6448,
+      "train_tokens_per_second": 6250.537
+    },
+    {
+      "epoch": 1.157398386288179,
+      "grad_norm": 0.2603987455368042,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 434571288,
+      "step": 956,
+      "train_runtime": 69527.4526,
+      "train_tokens_per_second": 6250.355
+    },
+    {
+      "epoch": 1.1586091431057803,
+      "grad_norm": 0.2712121903896332,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 435010000,
+      "step": 957,
+      "train_runtime": 69599.8559,
+      "train_tokens_per_second": 6250.157
+    },
+    {
+      "epoch": 1.1598198999233817,
+      "grad_norm": 0.2328772246837616,
+      "learning_rate": 5e-06,
+      "loss": 0.9054,
+      "num_input_tokens_seen": 435464528,
+      "step": 958,
+      "train_runtime": 69673.8246,
+      "train_tokens_per_second": 6250.045
+    },
+    {
+      "epoch": 1.1610306567409832,
+      "grad_norm": 0.23724646866321564,
+      "learning_rate": 5e-06,
+      "loss": 0.9686,
+      "num_input_tokens_seen": 435929064,
+      "step": 959,
+      "train_runtime": 69747.3951,
+      "train_tokens_per_second": 6250.112
+    },
+    {
+      "epoch": 1.1622414135585846,
+      "grad_norm": 0.2300594449043274,
+      "learning_rate": 5e-06,
+      "loss": 0.9641,
+      "num_input_tokens_seen": 436379864,
+      "step": 960,
+      "train_runtime": 69821.0669,
+      "train_tokens_per_second": 6249.974
+    },
+    {
+      "epoch": 1.163452170376186,
+      "grad_norm": 0.24695640802383423,
+      "learning_rate": 5e-06,
+      "loss": 0.985,
+      "num_input_tokens_seen": 436818672,
+      "step": 961,
+      "train_runtime": 69893.2539,
+      "train_tokens_per_second": 6249.797
+    },
+    {
+      "epoch": 1.1646629271937874,
+      "grad_norm": 0.25464367866516113,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 437256528,
+      "step": 962,
+      "train_runtime": 69965.6023,
+      "train_tokens_per_second": 6249.593
+    },
+    {
+      "epoch": 1.1658736840113888,
+      "grad_norm": 0.23890846967697144,
+      "learning_rate": 5e-06,
+      "loss": 0.9812,
+      "num_input_tokens_seen": 437704184,
+      "step": 963,
+      "train_runtime": 70039.3875,
+      "train_tokens_per_second": 6249.401
+    },
+    {
+      "epoch": 1.16708444082899,
+      "grad_norm": 0.22985456883907318,
+      "learning_rate": 5e-06,
+      "loss": 0.9547,
+      "num_input_tokens_seen": 438157616,
+      "step": 964,
+      "train_runtime": 70114.4049,
+      "train_tokens_per_second": 6249.181
+    },
+    {
+      "epoch": 1.1682951976465914,
+      "grad_norm": 0.2481573075056076,
+      "learning_rate": 5e-06,
+      "loss": 0.9783,
+      "num_input_tokens_seen": 438604112,
+      "step": 965,
+      "train_runtime": 70187.4586,
+      "train_tokens_per_second": 6249.038
+    },
+    {
+      "epoch": 1.1695059544641928,
+      "grad_norm": 0.23532527685165405,
+      "learning_rate": 5e-06,
+      "loss": 0.9783,
+      "num_input_tokens_seen": 439082896,
+      "step": 966,
+      "train_runtime": 70266.4555,
+      "train_tokens_per_second": 6248.827
+    },
+    {
+      "epoch": 1.1707167112817942,
+      "grad_norm": 0.2518933117389679,
+      "learning_rate": 5e-06,
+      "loss": 0.9852,
+      "num_input_tokens_seen": 439533512,
+      "step": 967,
+      "train_runtime": 70340.9795,
+      "train_tokens_per_second": 6248.612
+    },
+    {
+      "epoch": 1.1719274680993956,
+      "grad_norm": 0.22327609360218048,
+      "learning_rate": 5e-06,
+      "loss": 0.9746,
+      "num_input_tokens_seen": 440017968,
+      "step": 968,
+      "train_runtime": 70421.2059,
+      "train_tokens_per_second": 6248.373
+    },
+    {
+      "epoch": 1.173138224916997,
+      "grad_norm": 0.21766787767410278,
+      "learning_rate": 5e-06,
+      "loss": 0.9427,
+      "num_input_tokens_seen": 440485848,
+      "step": 969,
+      "train_runtime": 70498.8622,
+      "train_tokens_per_second": 6248.127
+    },
+    {
+      "epoch": 1.1743489817345982,
+      "grad_norm": 0.24497343599796295,
+      "learning_rate": 5e-06,
+      "loss": 0.9164,
+      "num_input_tokens_seen": 440958848,
+      "step": 970,
+      "train_runtime": 70577.0563,
+      "train_tokens_per_second": 6247.906
+    },
+    {
+      "epoch": 1.1755597385521996,
+      "grad_norm": 0.24692267179489136,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 441430568,
+      "step": 971,
+      "train_runtime": 70654.5666,
+      "train_tokens_per_second": 6247.729
+    },
+    {
+      "epoch": 1.176770495369801,
+      "grad_norm": 0.2446671724319458,
+      "learning_rate": 5e-06,
+      "loss": 1.0036,
+      "num_input_tokens_seen": 441870464,
+      "step": 972,
+      "train_runtime": 70726.7808,
+      "train_tokens_per_second": 6247.569
+    },
+    {
+      "epoch": 1.1779812521874025,
+      "grad_norm": 0.22598214447498322,
+      "learning_rate": 5e-06,
+      "loss": 0.9359,
+      "num_input_tokens_seen": 442325960,
+      "step": 973,
+      "train_runtime": 70802.4686,
+      "train_tokens_per_second": 6247.324
+    },
+    {
+      "epoch": 1.1791920090050039,
+      "grad_norm": 0.23768270015716553,
+      "learning_rate": 5e-06,
+      "loss": 0.9584,
+      "num_input_tokens_seen": 442783712,
+      "step": 974,
+      "train_runtime": 70878.7415,
+      "train_tokens_per_second": 6247.059
+    },
+    {
+      "epoch": 1.1804027658226053,
+      "grad_norm": 0.2732614576816559,
+      "learning_rate": 5e-06,
+      "loss": 0.992,
+      "num_input_tokens_seen": 443235984,
+      "step": 975,
+      "train_runtime": 70953.8006,
+      "train_tokens_per_second": 6246.825
+    },
+    {
+      "epoch": 1.1816135226402067,
+      "grad_norm": 0.22531206905841827,
+      "learning_rate": 5e-06,
+      "loss": 0.9176,
+      "num_input_tokens_seen": 443689408,
+      "step": 976,
+      "train_runtime": 71028.2155,
+      "train_tokens_per_second": 6246.664
+    },
+    {
+      "epoch": 1.1828242794578079,
+      "grad_norm": 0.246334969997406,
+      "learning_rate": 5e-06,
+      "loss": 0.9678,
+      "num_input_tokens_seen": 444127032,
+      "step": 977,
+      "train_runtime": 71099.99,
+      "train_tokens_per_second": 6246.513
+    },
+    {
+      "epoch": 1.1840350362754093,
+      "grad_norm": 0.2669452428817749,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 444581568,
+      "step": 978,
+      "train_runtime": 71175.2703,
+      "train_tokens_per_second": 6246.293
+    },
+    {
+      "epoch": 1.1852457930930107,
+      "grad_norm": 0.24605169892311096,
+      "learning_rate": 5e-06,
+      "loss": 0.9629,
+      "num_input_tokens_seen": 445041736,
+      "step": 979,
+      "train_runtime": 71251.1753,
+      "train_tokens_per_second": 6246.097
+    },
+    {
+      "epoch": 1.1864565499106121,
+      "grad_norm": 0.2738041877746582,
+      "learning_rate": 5e-06,
+      "loss": 0.9536,
+      "num_input_tokens_seen": 445507072,
+      "step": 980,
+      "train_runtime": 71328.1089,
+      "train_tokens_per_second": 6245.884
+    },
+    {
+      "epoch": 1.1876673067282135,
+      "grad_norm": 0.23345020413398743,
+      "learning_rate": 5e-06,
+      "loss": 0.9208,
+      "num_input_tokens_seen": 445989088,
+      "step": 981,
+      "train_runtime": 71407.5879,
+      "train_tokens_per_second": 6245.682
+    },
+    {
+      "epoch": 1.188878063545815,
+      "grad_norm": 0.24863320589065552,
+      "learning_rate": 5e-06,
+      "loss": 1.0073,
+      "num_input_tokens_seen": 446459192,
+      "step": 982,
+      "train_runtime": 71485.3609,
+      "train_tokens_per_second": 6245.463
+    },
+    {
+      "epoch": 1.1900888203634161,
+      "grad_norm": 0.230724036693573,
+      "learning_rate": 5e-06,
+      "loss": 0.9858,
+      "num_input_tokens_seen": 446904400,
+      "step": 983,
+      "train_runtime": 71558.8839,
+      "train_tokens_per_second": 6245.268
+    },
+    {
+      "epoch": 1.1912995771810175,
+      "grad_norm": 0.26054030656814575,
+      "learning_rate": 5e-06,
+      "loss": 0.9527,
+      "num_input_tokens_seen": 447363192,
+      "step": 984,
+      "train_runtime": 71634.9114,
+      "train_tokens_per_second": 6245.044
+    },
+    {
+      "epoch": 1.192510333998619,
+      "grad_norm": 0.24276606738567352,
+      "learning_rate": 5e-06,
+      "loss": 0.9529,
+      "num_input_tokens_seen": 447817104,
+      "step": 985,
+      "train_runtime": 71709.3132,
+      "train_tokens_per_second": 6244.895
+    },
+    {
+      "epoch": 1.1937210908162204,
+      "grad_norm": 0.24462191760540009,
+      "learning_rate": 5e-06,
+      "loss": 0.9536,
+      "num_input_tokens_seen": 448278224,
+      "step": 986,
+      "train_runtime": 71785.9847,
+      "train_tokens_per_second": 6244.648
+    },
+    {
+      "epoch": 1.1949318476338218,
+      "grad_norm": 0.2560247778892517,
+      "learning_rate": 5e-06,
+      "loss": 0.9833,
+      "num_input_tokens_seen": 448739320,
+      "step": 987,
+      "train_runtime": 71861.9391,
+      "train_tokens_per_second": 6244.464
+    },
+    {
+      "epoch": 1.1961426044514232,
+      "grad_norm": 0.24045203626155853,
+      "learning_rate": 5e-06,
+      "loss": 0.9363,
+      "num_input_tokens_seen": 449186640,
+      "step": 988,
+      "train_runtime": 71935.9522,
+      "train_tokens_per_second": 6244.258
+    },
+    {
+      "epoch": 1.1973533612690246,
+      "grad_norm": 0.23872441053390503,
+      "learning_rate": 5e-06,
+      "loss": 0.8979,
+      "num_input_tokens_seen": 449653848,
+      "step": 989,
+      "train_runtime": 72012.385,
+      "train_tokens_per_second": 6244.118
+    },
+    {
+      "epoch": 1.1985641180866258,
+      "grad_norm": 0.28531908988952637,
+      "learning_rate": 5e-06,
+      "loss": 0.914,
+      "num_input_tokens_seen": 450080552,
+      "step": 990,
+      "train_runtime": 72082.6578,
+      "train_tokens_per_second": 6243.951
+    },
+    {
+      "epoch": 1.1997748749042272,
+      "grad_norm": 0.2463030368089676,
+      "learning_rate": 5e-06,
+      "loss": 0.9246,
+      "num_input_tokens_seen": 450513000,
+      "step": 991,
+      "train_runtime": 72153.7158,
+      "train_tokens_per_second": 6243.795
+    },
+    {
+      "epoch": 1.2009856317218286,
+      "grad_norm": 0.23530061542987823,
+      "learning_rate": 5e-06,
+      "loss": 0.9557,
+      "num_input_tokens_seen": 450955120,
+      "step": 992,
+      "train_runtime": 72226.4633,
+      "train_tokens_per_second": 6243.627
+    },
+    {
+      "epoch": 1.20219638853943,
+      "grad_norm": 0.246900275349617,
+      "learning_rate": 5e-06,
+      "loss": 0.8806,
+      "num_input_tokens_seen": 451394736,
+      "step": 993,
+      "train_runtime": 72298.4949,
+      "train_tokens_per_second": 6243.487
+    },
+    {
+      "epoch": 1.2034071453570314,
+      "grad_norm": 0.25331759452819824,
+      "learning_rate": 5e-06,
+      "loss": 1.0287,
+      "num_input_tokens_seen": 451851352,
+      "step": 994,
+      "train_runtime": 72373.4673,
+      "train_tokens_per_second": 6243.329
+    },
+    {
+      "epoch": 1.2046179021746328,
+      "grad_norm": 0.23674815893173218,
+      "learning_rate": 5e-06,
+      "loss": 0.9687,
+      "num_input_tokens_seen": 452305600,
+      "step": 995,
+      "train_runtime": 72448.5085,
+      "train_tokens_per_second": 6243.132
+    },
+    {
+      "epoch": 1.205828658992234,
+      "grad_norm": 0.24373270571231842,
+      "learning_rate": 5e-06,
+      "loss": 0.9765,
+      "num_input_tokens_seen": 452773312,
+      "step": 996,
+      "train_runtime": 72525.8954,
+      "train_tokens_per_second": 6242.919
+    },
+    {
+      "epoch": 1.2070394158098354,
+      "grad_norm": 0.2752549350261688,
+      "learning_rate": 5e-06,
+      "loss": 0.9142,
+      "num_input_tokens_seen": 453228432,
+      "step": 997,
+      "train_runtime": 72600.7249,
+      "train_tokens_per_second": 6242.754
+    },
+    {
+      "epoch": 1.2082501726274368,
+      "grad_norm": 0.2349204123020172,
+      "learning_rate": 5e-06,
+      "loss": 0.9476,
+      "num_input_tokens_seen": 453688736,
+      "step": 998,
+      "train_runtime": 72676.6277,
+      "train_tokens_per_second": 6242.567
+    },
+    {
+      "epoch": 1.2094609294450382,
+      "grad_norm": 0.23312972486019135,
+      "learning_rate": 5e-06,
+      "loss": 0.9553,
+      "num_input_tokens_seen": 454156576,
+      "step": 999,
+      "train_runtime": 72754.6022,
+      "train_tokens_per_second": 6242.307
+    },
+    {
+      "epoch": 1.2106716862626397,
+      "grad_norm": 0.24874716997146606,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 454614576,
+      "step": 1000,
+      "train_runtime": 72830.4183,
+      "train_tokens_per_second": 6242.098
+    },
+    {
+      "epoch": 1.211882443080241,
+      "grad_norm": 0.21960654854774475,
+      "learning_rate": 5e-06,
+      "loss": 0.9301,
+      "num_input_tokens_seen": 455060760,
+      "step": 1001,
+      "train_runtime": 72904.2157,
+      "train_tokens_per_second": 6241.899
+    },
+    {
+      "epoch": 1.2130931998978425,
+      "grad_norm": 0.23251725733280182,
+      "learning_rate": 5e-06,
+      "loss": 0.9488,
+      "num_input_tokens_seen": 455524632,
+      "step": 1002,
+      "train_runtime": 72981.2956,
+      "train_tokens_per_second": 6241.663
+    },
+    {
+      "epoch": 1.2143039567154439,
+      "grad_norm": 0.2484462857246399,
+      "learning_rate": 5e-06,
+      "loss": 0.9695,
+      "num_input_tokens_seen": 455985256,
+      "step": 1003,
+      "train_runtime": 73057.0852,
+      "train_tokens_per_second": 6241.493
+    },
+    {
+      "epoch": 1.215514713533045,
+      "grad_norm": 0.23444589972496033,
+      "learning_rate": 5e-06,
+      "loss": 0.9248,
+      "num_input_tokens_seen": 456447872,
+      "step": 1004,
+      "train_runtime": 73133.7066,
+      "train_tokens_per_second": 6241.279
+    },
+    {
+      "epoch": 1.2167254703506465,
+      "grad_norm": 0.23066623508930206,
+      "learning_rate": 5e-06,
+      "loss": 0.9341,
+      "num_input_tokens_seen": 456918240,
+      "step": 1005,
+      "train_runtime": 73211.6327,
+      "train_tokens_per_second": 6241.061
+    },
+    {
+      "epoch": 1.217936227168248,
+      "grad_norm": 0.26110243797302246,
+      "learning_rate": 5e-06,
+      "loss": 0.9673,
+      "num_input_tokens_seen": 457361960,
+      "step": 1006,
+      "train_runtime": 73284.6571,
+      "train_tokens_per_second": 6240.896
+    },
+    {
+      "epoch": 1.2191469839858493,
+      "grad_norm": 0.22857554256916046,
+      "learning_rate": 5e-06,
+      "loss": 0.9429,
+      "num_input_tokens_seen": 457829616,
+      "step": 1007,
+      "train_runtime": 73362.2686,
+      "train_tokens_per_second": 6240.669
+    },
+    {
+      "epoch": 1.2203577408034507,
+      "grad_norm": 0.21707653999328613,
+      "learning_rate": 5e-06,
+      "loss": 0.9058,
+      "num_input_tokens_seen": 458299576,
+      "step": 1008,
+      "train_runtime": 73440.2904,
+      "train_tokens_per_second": 6240.438
+    },
+    {
+      "epoch": 1.2215684976210521,
+      "grad_norm": 0.21953126788139343,
+      "learning_rate": 5e-06,
+      "loss": 0.9552,
+      "num_input_tokens_seen": 458744008,
+      "step": 1009,
+      "train_runtime": 73513.7035,
+      "train_tokens_per_second": 6240.252
+    },
+    {
+      "epoch": 1.2227792544386533,
+      "grad_norm": 0.24714279174804688,
+      "learning_rate": 5e-06,
+      "loss": 0.9093,
+      "num_input_tokens_seen": 459194536,
+      "step": 1010,
+      "train_runtime": 73589.1216,
+      "train_tokens_per_second": 6239.978
+    },
+    {
+      "epoch": 1.2239900112562547,
+      "grad_norm": 0.2624055743217468,
+      "learning_rate": 5e-06,
+      "loss": 0.9537,
+      "num_input_tokens_seen": 459658064,
+      "step": 1011,
+      "train_runtime": 73665.7012,
+      "train_tokens_per_second": 6239.784
+    },
+    {
+      "epoch": 1.2252007680738561,
+      "grad_norm": 0.24378705024719238,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 460102312,
+      "step": 1012,
+      "train_runtime": 73739.1174,
+      "train_tokens_per_second": 6239.596
+    },
+    {
+      "epoch": 1.2264115248914575,
+      "grad_norm": 0.2524285316467285,
+      "learning_rate": 5e-06,
+      "loss": 1.008,
+      "num_input_tokens_seen": 460530568,
+      "step": 1013,
+      "train_runtime": 73809.5347,
+      "train_tokens_per_second": 6239.445
+    },
+    {
+      "epoch": 1.227622281709059,
+      "grad_norm": 0.22694693505764008,
+      "learning_rate": 5e-06,
+      "loss": 0.9336,
+      "num_input_tokens_seen": 460976752,
+      "step": 1014,
+      "train_runtime": 73882.6824,
+      "train_tokens_per_second": 6239.307
+    },
+    {
+      "epoch": 1.2288330385266604,
+      "grad_norm": 0.24876870214939117,
+      "learning_rate": 5e-06,
+      "loss": 0.9167,
+      "num_input_tokens_seen": 461412360,
+      "step": 1015,
+      "train_runtime": 73954.7175,
+      "train_tokens_per_second": 6239.12
+    },
+    {
+      "epoch": 1.2300437953442618,
+      "grad_norm": 0.23304542899131775,
+      "learning_rate": 5e-06,
+      "loss": 0.937,
+      "num_input_tokens_seen": 461881936,
+      "step": 1016,
+      "train_runtime": 74032.0414,
+      "train_tokens_per_second": 6238.946
+    },
+    {
+      "epoch": 1.231254552161863,
+      "grad_norm": 0.2319115698337555,
+      "learning_rate": 5e-06,
+      "loss": 1.0273,
+      "num_input_tokens_seen": 462327848,
+      "step": 1017,
+      "train_runtime": 74105.762,
+      "train_tokens_per_second": 6238.757
+    },
+    {
+      "epoch": 1.2324653089794644,
+      "grad_norm": 0.2387470155954361,
+      "learning_rate": 5e-06,
+      "loss": 0.9402,
+      "num_input_tokens_seen": 462801768,
+      "step": 1018,
+      "train_runtime": 74184.7163,
+      "train_tokens_per_second": 6238.506
+    },
+    {
+      "epoch": 1.2336760657970658,
+      "grad_norm": 0.23503154516220093,
+      "learning_rate": 5e-06,
+      "loss": 0.9537,
+      "num_input_tokens_seen": 463250128,
+      "step": 1019,
+      "train_runtime": 74258.5041,
+      "train_tokens_per_second": 6238.344
+    },
+    {
+      "epoch": 1.2348868226146672,
+      "grad_norm": 0.2387133687734604,
+      "learning_rate": 5e-06,
+      "loss": 0.9841,
+      "num_input_tokens_seen": 463712976,
+      "step": 1020,
+      "train_runtime": 74335.47,
+      "train_tokens_per_second": 6238.112
+    },
+    {
+      "epoch": 1.2360975794322686,
+      "grad_norm": 0.2348925918340683,
+      "learning_rate": 5e-06,
+      "loss": 0.9325,
+      "num_input_tokens_seen": 464170752,
+      "step": 1021,
+      "train_runtime": 74411.2711,
+      "train_tokens_per_second": 6237.909
+    },
+    {
+      "epoch": 1.23730833624987,
+      "grad_norm": 0.2409505844116211,
+      "learning_rate": 5e-06,
+      "loss": 1.0182,
+      "num_input_tokens_seen": 464620440,
+      "step": 1022,
+      "train_runtime": 74485.4943,
+      "train_tokens_per_second": 6237.731
+    },
+    {
+      "epoch": 1.2385190930674712,
+      "grad_norm": 0.2405453324317932,
+      "learning_rate": 5e-06,
+      "loss": 0.9672,
+      "num_input_tokens_seen": 465074072,
+      "step": 1023,
+      "train_runtime": 74560.4666,
+      "train_tokens_per_second": 6237.542
+    },
+    {
+      "epoch": 1.2397298498850726,
+      "grad_norm": 0.2541082799434662,
+      "learning_rate": 5e-06,
+      "loss": 0.9502,
+      "num_input_tokens_seen": 465526872,
+      "step": 1024,
+      "train_runtime": 74635.3173,
+      "train_tokens_per_second": 6237.354
+    },
+    {
+      "epoch": 1.240940606702674,
+      "grad_norm": 0.233840674161911,
+      "learning_rate": 5e-06,
+      "loss": 0.9982,
+      "num_input_tokens_seen": 465969728,
+      "step": 1025,
+      "train_runtime": 74708.3224,
+      "train_tokens_per_second": 6237.186
+    },
+    {
+      "epoch": 1.2421513635202754,
+      "grad_norm": 0.2615164518356323,
+      "learning_rate": 5e-06,
+      "loss": 0.9789,
+      "num_input_tokens_seen": 466432952,
+      "step": 1026,
+      "train_runtime": 74784.9859,
+      "train_tokens_per_second": 6236.987
+    },
+    {
+      "epoch": 1.2433621203378769,
+      "grad_norm": 0.25451064109802246,
+      "learning_rate": 5e-06,
+      "loss": 0.9876,
+      "num_input_tokens_seen": 466859880,
+      "step": 1027,
+      "train_runtime": 74855.3509,
+      "train_tokens_per_second": 6236.827
+    },
+    {
+      "epoch": 1.2445728771554783,
+      "grad_norm": 0.23738832771778107,
+      "learning_rate": 5e-06,
+      "loss": 0.9718,
+      "num_input_tokens_seen": 467312216,
+      "step": 1028,
+      "train_runtime": 74929.7678,
+      "train_tokens_per_second": 6236.67
+    },
+    {
+      "epoch": 1.2457836339730797,
+      "grad_norm": 0.23887260258197784,
+      "learning_rate": 5e-06,
+      "loss": 0.964,
+      "num_input_tokens_seen": 467762744,
+      "step": 1029,
+      "train_runtime": 75003.9938,
+      "train_tokens_per_second": 6236.504
+    },
+    {
+      "epoch": 1.2469943907906809,
+      "grad_norm": 0.2599722743034363,
+      "learning_rate": 5e-06,
+      "loss": 0.9842,
+      "num_input_tokens_seen": 468221536,
+      "step": 1030,
+      "train_runtime": 75079.9409,
+      "train_tokens_per_second": 6236.307
+    },
+    {
+      "epoch": 1.2482051476082823,
+      "grad_norm": 0.2669295072555542,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 468654896,
+      "step": 1031,
+      "train_runtime": 75151.0551,
+      "train_tokens_per_second": 6236.172
+    },
+    {
+      "epoch": 1.2494159044258837,
+      "grad_norm": 0.23142068088054657,
+      "learning_rate": 5e-06,
+      "loss": 0.9743,
+      "num_input_tokens_seen": 469100424,
+      "step": 1032,
+      "train_runtime": 75224.2634,
+      "train_tokens_per_second": 6236.025
+    },
+    {
+      "epoch": 1.250626661243485,
+      "grad_norm": 0.24564848840236664,
+      "learning_rate": 5e-06,
+      "loss": 0.9775,
+      "num_input_tokens_seen": 469557312,
+      "step": 1033,
+      "train_runtime": 75299.8089,
+      "train_tokens_per_second": 6235.837
+    },
+    {
+      "epoch": 1.2518374180610865,
+      "grad_norm": 0.2531740069389343,
+      "learning_rate": 5e-06,
+      "loss": 0.9778,
+      "num_input_tokens_seen": 469993728,
+      "step": 1034,
+      "train_runtime": 75371.0171,
+      "train_tokens_per_second": 6235.736
+    },
+    {
+      "epoch": 1.253048174878688,
+      "grad_norm": 0.2566632330417633,
+      "learning_rate": 5e-06,
+      "loss": 0.9607,
+      "num_input_tokens_seen": 470435832,
+      "step": 1035,
+      "train_runtime": 75444.0382,
+      "train_tokens_per_second": 6235.56
+    },
+    {
+      "epoch": 1.254258931696289,
+      "grad_norm": 0.2733544111251831,
+      "learning_rate": 5e-06,
+      "loss": 0.9229,
+      "num_input_tokens_seen": 470881848,
+      "step": 1036,
+      "train_runtime": 75517.9642,
+      "train_tokens_per_second": 6235.362
+    },
+    {
+      "epoch": 1.2554696885138905,
+      "grad_norm": 0.22786258161067963,
+      "learning_rate": 5e-06,
+      "loss": 0.9479,
+      "num_input_tokens_seen": 471347472,
+      "step": 1037,
+      "train_runtime": 75594.9234,
+      "train_tokens_per_second": 6235.174
+    },
+    {
+      "epoch": 1.256680445331492,
+      "grad_norm": 0.2446991503238678,
+      "learning_rate": 5e-06,
+      "loss": 0.9554,
+      "num_input_tokens_seen": 471795376,
+      "step": 1038,
+      "train_runtime": 75668.7229,
+      "train_tokens_per_second": 6235.012
+    },
+    {
+      "epoch": 1.2578912021490933,
+      "grad_norm": 0.26110076904296875,
+      "learning_rate": 5e-06,
+      "loss": 0.9515,
+      "num_input_tokens_seen": 472220096,
+      "step": 1039,
+      "train_runtime": 75737.7809,
+      "train_tokens_per_second": 6234.934
+    },
+    {
+      "epoch": 1.2591019589666947,
+      "grad_norm": 0.24883201718330383,
+      "learning_rate": 5e-06,
+      "loss": 0.9497,
+      "num_input_tokens_seen": 472677208,
+      "step": 1040,
+      "train_runtime": 75812.9693,
+      "train_tokens_per_second": 6234.78
+    },
+    {
+      "epoch": 1.2603127157842962,
+      "grad_norm": 0.2285858392715454,
+      "learning_rate": 5e-06,
+      "loss": 0.9709,
+      "num_input_tokens_seen": 473140032,
+      "step": 1041,
+      "train_runtime": 75889.2935,
+      "train_tokens_per_second": 6234.608
+    },
+    {
+      "epoch": 1.2615234726018976,
+      "grad_norm": 0.2190844714641571,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 473600272,
+      "step": 1042,
+      "train_runtime": 75964.9162,
+      "train_tokens_per_second": 6234.461
+    },
+    {
+      "epoch": 1.262734229419499,
+      "grad_norm": 0.2370315045118332,
+      "learning_rate": 5e-06,
+      "loss": 0.971,
+      "num_input_tokens_seen": 474054944,
+      "step": 1043,
+      "train_runtime": 76039.0777,
+      "train_tokens_per_second": 6234.359
+    },
+    {
+      "epoch": 1.2639449862371002,
+      "grad_norm": 0.22360284626483917,
+      "learning_rate": 5e-06,
+      "loss": 0.9638,
+      "num_input_tokens_seen": 474536696,
+      "step": 1044,
+      "train_runtime": 76118.2238,
+      "train_tokens_per_second": 6234.206
+    },
+    {
+      "epoch": 1.2651557430547016,
+      "grad_norm": 0.25233903527259827,
+      "learning_rate": 5e-06,
+      "loss": 0.8986,
+      "num_input_tokens_seen": 474994584,
+      "step": 1045,
+      "train_runtime": 76194.1156,
+      "train_tokens_per_second": 6234.006
+    },
+    {
+      "epoch": 1.266366499872303,
+      "grad_norm": 0.2806606888771057,
+      "learning_rate": 5e-06,
+      "loss": 0.9721,
+      "num_input_tokens_seen": 475437456,
+      "step": 1046,
+      "train_runtime": 76266.4104,
+      "train_tokens_per_second": 6233.904
+    },
+    {
+      "epoch": 1.2675772566899044,
+      "grad_norm": 0.23013675212860107,
+      "learning_rate": 5e-06,
+      "loss": 0.9835,
+      "num_input_tokens_seen": 475885056,
+      "step": 1047,
+      "train_runtime": 76340.2753,
+      "train_tokens_per_second": 6233.735
+    },
+    {
+      "epoch": 1.2687880135075058,
+      "grad_norm": 0.2585345208644867,
+      "learning_rate": 5e-06,
+      "loss": 0.9556,
+      "num_input_tokens_seen": 476330056,
+      "step": 1048,
+      "train_runtime": 76413.1727,
+      "train_tokens_per_second": 6233.612
+    },
+    {
+      "epoch": 1.269998770325107,
+      "grad_norm": 0.27313679456710815,
+      "learning_rate": 5e-06,
+      "loss": 0.9655,
+      "num_input_tokens_seen": 476790288,
+      "step": 1049,
+      "train_runtime": 76488.7274,
+      "train_tokens_per_second": 6233.471
+    },
+    {
+      "epoch": 1.2712095271427084,
+      "grad_norm": 0.22804471850395203,
+      "learning_rate": 5e-06,
+      "loss": 0.9798,
+      "num_input_tokens_seen": 477237680,
+      "step": 1050,
+      "train_runtime": 76562.66,
+      "train_tokens_per_second": 6233.295
+    },
+    {
+      "epoch": 1.2724202839603098,
+      "grad_norm": 0.23282477259635925,
+      "learning_rate": 5e-06,
+      "loss": 0.9485,
+      "num_input_tokens_seen": 477711928,
+      "step": 1051,
+      "train_runtime": 76641.8583,
+      "train_tokens_per_second": 6233.042
+    },
+    {
+      "epoch": 1.2736310407779112,
+      "grad_norm": 0.2197505533695221,
+      "learning_rate": 5e-06,
+      "loss": 0.9604,
+      "num_input_tokens_seen": 478171336,
+      "step": 1052,
+      "train_runtime": 76717.5391,
+      "train_tokens_per_second": 6232.882
+    },
+    {
+      "epoch": 1.2748417975955126,
+      "grad_norm": 0.2753906846046448,
+      "learning_rate": 5e-06,
+      "loss": 0.9519,
+      "num_input_tokens_seen": 478594376,
+      "step": 1053,
+      "train_runtime": 76786.3869,
+      "train_tokens_per_second": 6232.802
+    },
+    {
+      "epoch": 1.276052554413114,
+      "grad_norm": 0.23567403852939606,
+      "learning_rate": 5e-06,
+      "loss": 0.9258,
+      "num_input_tokens_seen": 479057744,
+      "step": 1054,
+      "train_runtime": 76862.8595,
+      "train_tokens_per_second": 6232.63
+    },
+    {
+      "epoch": 1.2772633112307155,
+      "grad_norm": 0.2323777824640274,
+      "learning_rate": 5e-06,
+      "loss": 0.9507,
+      "num_input_tokens_seen": 479530368,
+      "step": 1055,
+      "train_runtime": 76940.9952,
+      "train_tokens_per_second": 6232.443
+    },
+    {
+      "epoch": 1.2784740680483169,
+      "grad_norm": 0.24186258018016815,
+      "learning_rate": 5e-06,
+      "loss": 0.9227,
+      "num_input_tokens_seen": 479994304,
+      "step": 1056,
+      "train_runtime": 77017.947,
+      "train_tokens_per_second": 6232.24
+    },
+    {
+      "epoch": 1.2796848248659183,
+      "grad_norm": 0.2798727750778198,
+      "learning_rate": 5e-06,
+      "loss": 0.9632,
+      "num_input_tokens_seen": 480447768,
+      "step": 1057,
+      "train_runtime": 77093.054,
+      "train_tokens_per_second": 6232.05
+    },
+    {
+      "epoch": 1.2808955816835195,
+      "grad_norm": 0.2540852427482605,
+      "learning_rate": 5e-06,
+      "loss": 0.9633,
+      "num_input_tokens_seen": 480890376,
+      "step": 1058,
+      "train_runtime": 77166.9256,
+      "train_tokens_per_second": 6231.82
+    },
+    {
+      "epoch": 1.2821063385011209,
+      "grad_norm": 0.23041221499443054,
+      "learning_rate": 5e-06,
+      "loss": 0.9052,
+      "num_input_tokens_seen": 481360496,
+      "step": 1059,
+      "train_runtime": 77244.961,
+      "train_tokens_per_second": 6231.61
+    },
+    {
+      "epoch": 1.2833170953187223,
+      "grad_norm": 0.24767398834228516,
+      "learning_rate": 5e-06,
+      "loss": 0.9332,
+      "num_input_tokens_seen": 481821264,
+      "step": 1060,
+      "train_runtime": 77321.082,
+      "train_tokens_per_second": 6231.435
+    },
+    {
+      "epoch": 1.2845278521363237,
+      "grad_norm": 0.25022172927856445,
+      "learning_rate": 5e-06,
+      "loss": 0.9481,
+      "num_input_tokens_seen": 482278160,
+      "step": 1061,
+      "train_runtime": 77396.3485,
+      "train_tokens_per_second": 6231.278
+    },
+    {
+      "epoch": 1.285738608953925,
+      "grad_norm": 0.25090205669403076,
+      "learning_rate": 5e-06,
+      "loss": 0.9319,
+      "num_input_tokens_seen": 482732096,
+      "step": 1062,
+      "train_runtime": 77471.2094,
+      "train_tokens_per_second": 6231.116
+    },
+    {
+      "epoch": 1.2869493657715263,
+      "grad_norm": 0.24102523922920227,
+      "learning_rate": 5e-06,
+      "loss": 0.9033,
+      "num_input_tokens_seen": 483182128,
+      "step": 1063,
+      "train_runtime": 77545.2333,
+      "train_tokens_per_second": 6230.971
+    },
+    {
+      "epoch": 1.2881601225891277,
+      "grad_norm": 0.22408998012542725,
+      "learning_rate": 5e-06,
+      "loss": 0.9583,
+      "num_input_tokens_seen": 483634912,
+      "step": 1064,
+      "train_runtime": 77619.6948,
+      "train_tokens_per_second": 6230.827
+    },
+    {
+      "epoch": 1.2893708794067291,
+      "grad_norm": 0.22242091596126556,
+      "learning_rate": 5e-06,
+      "loss": 0.8963,
+      "num_input_tokens_seen": 484082184,
+      "step": 1065,
+      "train_runtime": 77693.1389,
+      "train_tokens_per_second": 6230.694
+    },
+    {
+      "epoch": 1.2905816362243305,
+      "grad_norm": 0.24296538531780243,
+      "learning_rate": 5e-06,
+      "loss": 0.9512,
+      "num_input_tokens_seen": 484538336,
+      "step": 1066,
+      "train_runtime": 77767.9496,
+      "train_tokens_per_second": 6230.566
+    },
+    {
+      "epoch": 1.291792393041932,
+      "grad_norm": 0.2800133526325226,
+      "learning_rate": 5e-06,
+      "loss": 1.0084,
+      "num_input_tokens_seen": 484979760,
+      "step": 1067,
+      "train_runtime": 77840.1247,
+      "train_tokens_per_second": 6230.46
+    },
+    {
+      "epoch": 1.2930031498595334,
+      "grad_norm": 0.26364296674728394,
+      "learning_rate": 5e-06,
+      "loss": 0.9158,
+      "num_input_tokens_seen": 485451992,
+      "step": 1068,
+      "train_runtime": 77919.0701,
+      "train_tokens_per_second": 6230.208
+    },
+    {
+      "epoch": 1.2942139066771348,
+      "grad_norm": 0.23616540431976318,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 485907896,
+      "step": 1069,
+      "train_runtime": 77994.4035,
+      "train_tokens_per_second": 6230.035
+    },
+    {
+      "epoch": 1.2954246634947362,
+      "grad_norm": 0.2279627025127411,
+      "learning_rate": 5e-06,
+      "loss": 0.9279,
+      "num_input_tokens_seen": 486374992,
+      "step": 1070,
+      "train_runtime": 78071.146,
+      "train_tokens_per_second": 6229.894
+    },
+    {
+      "epoch": 1.2966354203123374,
+      "grad_norm": 0.2602773904800415,
+      "learning_rate": 5e-06,
+      "loss": 0.9288,
+      "num_input_tokens_seen": 486846584,
+      "step": 1071,
+      "train_runtime": 78149.9854,
+      "train_tokens_per_second": 6229.644
+    },
+    {
+      "epoch": 1.2978461771299388,
+      "grad_norm": 0.2592213451862335,
+      "learning_rate": 5e-06,
+      "loss": 0.9707,
+      "num_input_tokens_seen": 487299176,
+      "step": 1072,
+      "train_runtime": 78224.87,
+      "train_tokens_per_second": 6229.466
+    },
+    {
+      "epoch": 1.2990569339475402,
+      "grad_norm": 0.23838956654071808,
+      "learning_rate": 5e-06,
+      "loss": 0.9459,
+      "num_input_tokens_seen": 487738752,
+      "step": 1073,
+      "train_runtime": 78297.4076,
+      "train_tokens_per_second": 6229.309
+    },
+    {
+      "epoch": 1.3002676907651416,
+      "grad_norm": 0.2431815266609192,
+      "learning_rate": 5e-06,
+      "loss": 1.0018,
+      "num_input_tokens_seen": 488179592,
+      "step": 1074,
+      "train_runtime": 78369.9512,
+      "train_tokens_per_second": 6229.168
+    },
+    {
+      "epoch": 1.301478447582743,
+      "grad_norm": 0.2688054144382477,
+      "learning_rate": 5e-06,
+      "loss": 0.9754,
+      "num_input_tokens_seen": 488624232,
+      "step": 1075,
+      "train_runtime": 78442.9355,
+      "train_tokens_per_second": 6229.041
+    },
+    {
+      "epoch": 1.3026892044003442,
+      "grad_norm": 0.2385970801115036,
+      "learning_rate": 5e-06,
+      "loss": 0.9063,
+      "num_input_tokens_seen": 489046568,
+      "step": 1076,
+      "train_runtime": 78511.9197,
+      "train_tokens_per_second": 6228.947
+    },
+    {
+      "epoch": 1.3038999612179456,
+      "grad_norm": 0.23294121026992798,
+      "learning_rate": 5e-06,
+      "loss": 0.9876,
+      "num_input_tokens_seen": 489514704,
+      "step": 1077,
+      "train_runtime": 78589.3633,
+      "train_tokens_per_second": 6228.765
+    },
+    {
+      "epoch": 1.305110718035547,
+      "grad_norm": 0.2477468103170395,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 489948088,
+      "step": 1078,
+      "train_runtime": 78660.5285,
+      "train_tokens_per_second": 6228.64
+    },
+    {
+      "epoch": 1.3063214748531484,
+      "grad_norm": 0.2480383664369583,
+      "learning_rate": 5e-06,
+      "loss": 0.9577,
+      "num_input_tokens_seen": 490385808,
+      "step": 1079,
+      "train_runtime": 78732.9706,
+      "train_tokens_per_second": 6228.468
+    },
+    {
+      "epoch": 1.3075322316707498,
+      "grad_norm": 0.2859964668750763,
+      "learning_rate": 5e-06,
+      "loss": 0.9368,
+      "num_input_tokens_seen": 490856832,
+      "step": 1080,
+      "train_runtime": 78811.3881,
+      "train_tokens_per_second": 6228.248
+    },
+    {
+      "epoch": 1.3087429884883512,
+      "grad_norm": 0.2931101620197296,
+      "learning_rate": 5e-06,
+      "loss": 0.9727,
+      "num_input_tokens_seen": 491314392,
+      "step": 1081,
+      "train_runtime": 78887.1437,
+      "train_tokens_per_second": 6228.067
+    },
+    {
+      "epoch": 1.3099537453059527,
+      "grad_norm": 0.27014395594596863,
+      "learning_rate": 5e-06,
+      "loss": 0.9503,
+      "num_input_tokens_seen": 491759208,
+      "step": 1082,
+      "train_runtime": 78960.4837,
+      "train_tokens_per_second": 6227.915
+    },
+    {
+      "epoch": 1.311164502123554,
+      "grad_norm": 0.2364778369665146,
+      "learning_rate": 5e-06,
+      "loss": 0.9087,
+      "num_input_tokens_seen": 492218016,
+      "step": 1083,
+      "train_runtime": 79036.6786,
+      "train_tokens_per_second": 6227.716
+    },
+    {
+      "epoch": 1.3123752589411553,
+      "grad_norm": 0.2594203054904938,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 492683488,
+      "step": 1084,
+      "train_runtime": 79112.9413,
+      "train_tokens_per_second": 6227.597
+    },
+    {
+      "epoch": 1.3135860157587567,
+      "grad_norm": 0.2824831008911133,
+      "learning_rate": 5e-06,
+      "loss": 0.9782,
+      "num_input_tokens_seen": 493126536,
+      "step": 1085,
+      "train_runtime": 79186.2287,
+      "train_tokens_per_second": 6227.428
+    },
+    {
+      "epoch": 1.314796772576358,
+      "grad_norm": 0.2868604063987732,
+      "learning_rate": 5e-06,
+      "loss": 0.9473,
+      "num_input_tokens_seen": 493574776,
+      "step": 1086,
+      "train_runtime": 79260.2797,
+      "train_tokens_per_second": 6227.265
+    },
+    {
+      "epoch": 1.3160075293939595,
+      "grad_norm": 0.24373245239257812,
+      "learning_rate": 5e-06,
+      "loss": 0.9111,
+      "num_input_tokens_seen": 494018800,
+      "step": 1087,
+      "train_runtime": 79333.7195,
+      "train_tokens_per_second": 6227.097
+    },
+    {
+      "epoch": 1.317218286211561,
+      "grad_norm": 0.23148846626281738,
+      "learning_rate": 5e-06,
+      "loss": 0.9671,
+      "num_input_tokens_seen": 494459824,
+      "step": 1088,
+      "train_runtime": 79406.5726,
+      "train_tokens_per_second": 6226.938
+    },
+    {
+      "epoch": 1.318429043029162,
+      "grad_norm": 0.2403024286031723,
+      "learning_rate": 5e-06,
+      "loss": 0.9115,
+      "num_input_tokens_seen": 494928432,
+      "step": 1089,
+      "train_runtime": 79484.2329,
+      "train_tokens_per_second": 6226.75
+    },
+    {
+      "epoch": 1.3196397998467635,
+      "grad_norm": 0.2649286389350891,
+      "learning_rate": 5e-06,
+      "loss": 0.9377,
+      "num_input_tokens_seen": 495391952,
+      "step": 1090,
+      "train_runtime": 79560.7838,
+      "train_tokens_per_second": 6226.585
+    },
+    {
+      "epoch": 1.320850556664365,
+      "grad_norm": 0.24317079782485962,
+      "learning_rate": 5e-06,
+      "loss": 0.9451,
+      "num_input_tokens_seen": 495859560,
+      "step": 1091,
+      "train_runtime": 79637.6715,
+      "train_tokens_per_second": 6226.445
+    },
+    {
+      "epoch": 1.3220613134819663,
+      "grad_norm": 0.25734710693359375,
+      "learning_rate": 5e-06,
+      "loss": 0.9564,
+      "num_input_tokens_seen": 496335008,
+      "step": 1092,
+      "train_runtime": 79716.5771,
+      "train_tokens_per_second": 6226.246
+    },
+    {
+      "epoch": 1.3232720702995677,
+      "grad_norm": 0.230266273021698,
+      "learning_rate": 5e-06,
+      "loss": 1.0006,
+      "num_input_tokens_seen": 496792520,
+      "step": 1093,
+      "train_runtime": 79791.7859,
+      "train_tokens_per_second": 6226.111
+    },
+    {
+      "epoch": 1.3244828271171691,
+      "grad_norm": 0.2398468255996704,
+      "learning_rate": 5e-06,
+      "loss": 0.9919,
+      "num_input_tokens_seen": 497244656,
+      "step": 1094,
+      "train_runtime": 79866.2963,
+      "train_tokens_per_second": 6225.964
+    },
+    {
+      "epoch": 1.3256935839347705,
+      "grad_norm": 0.25273364782333374,
+      "learning_rate": 5e-06,
+      "loss": 0.9356,
+      "num_input_tokens_seen": 497737648,
+      "step": 1095,
+      "train_runtime": 79947.6758,
+      "train_tokens_per_second": 6225.793
+    },
+    {
+      "epoch": 1.326904340752372,
+      "grad_norm": 0.2629864513874054,
+      "learning_rate": 5e-06,
+      "loss": 0.9285,
+      "num_input_tokens_seen": 498211544,
+      "step": 1096,
+      "train_runtime": 80026.228,
+      "train_tokens_per_second": 6225.603
+    },
+    {
+      "epoch": 1.3281150975699734,
+      "grad_norm": 0.24348442256450653,
+      "learning_rate": 5e-06,
+      "loss": 0.9928,
+      "num_input_tokens_seen": 498667784,
+      "step": 1097,
+      "train_runtime": 80101.4968,
+      "train_tokens_per_second": 6225.449
+    },
+    {
+      "epoch": 1.3293258543875746,
+      "grad_norm": 0.24186153709888458,
+      "learning_rate": 5e-06,
+      "loss": 0.9611,
+      "num_input_tokens_seen": 499107448,
+      "step": 1098,
+      "train_runtime": 80174.2686,
+      "train_tokens_per_second": 6225.282
+    },
+    {
+      "epoch": 1.330536611205176,
+      "grad_norm": 0.28597867488861084,
+      "learning_rate": 5e-06,
+      "loss": 0.9198,
+      "num_input_tokens_seen": 499571536,
+      "step": 1099,
+      "train_runtime": 80251.374,
+      "train_tokens_per_second": 6225.084
+    },
+    {
+      "epoch": 1.3317473680227774,
+      "grad_norm": 0.25400543212890625,
+      "learning_rate": 5e-06,
+      "loss": 0.9536,
+      "num_input_tokens_seen": 500007376,
+      "step": 1100,
+      "train_runtime": 80323.5809,
+      "train_tokens_per_second": 6224.914
+    },
+    {
+      "epoch": 1.3329581248403788,
+      "grad_norm": 0.26500222086906433,
+      "learning_rate": 5e-06,
+      "loss": 0.998,
+      "num_input_tokens_seen": 500462880,
+      "step": 1101,
+      "train_runtime": 80398.5711,
+      "train_tokens_per_second": 6224.773
+    },
+    {
+      "epoch": 1.3341688816579802,
+      "grad_norm": 0.28662461042404175,
+      "learning_rate": 5e-06,
+      "loss": 0.9472,
+      "num_input_tokens_seen": 500914736,
+      "step": 1102,
+      "train_runtime": 80473.0011,
+      "train_tokens_per_second": 6224.631
+    },
+    {
+      "epoch": 1.3353796384755814,
+      "grad_norm": 0.2489413022994995,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 501386272,
+      "step": 1103,
+      "train_runtime": 80550.876,
+      "train_tokens_per_second": 6224.467
+    },
+    {
+      "epoch": 1.3365903952931828,
+      "grad_norm": 0.22808928787708282,
+      "learning_rate": 5e-06,
+      "loss": 0.9119,
+      "num_input_tokens_seen": 501848592,
+      "step": 1104,
+      "train_runtime": 80627.7778,
+      "train_tokens_per_second": 6224.264
+    },
+    {
+      "epoch": 1.3378011521107842,
+      "grad_norm": 0.23136869072914124,
+      "learning_rate": 5e-06,
+      "loss": 0.958,
+      "num_input_tokens_seen": 502286176,
+      "step": 1105,
+      "train_runtime": 80699.5576,
+      "train_tokens_per_second": 6224.15
+    },
+    {
+      "epoch": 1.3390119089283856,
+      "grad_norm": 0.22823567688465118,
+      "learning_rate": 5e-06,
+      "loss": 0.9324,
+      "num_input_tokens_seen": 502742112,
+      "step": 1106,
+      "train_runtime": 80775.4724,
+      "train_tokens_per_second": 6223.945
+    },
+    {
+      "epoch": 1.340222665745987,
+      "grad_norm": 0.2484605759382248,
+      "learning_rate": 5e-06,
+      "loss": 0.9735,
+      "num_input_tokens_seen": 503197712,
+      "step": 1107,
+      "train_runtime": 80850.7279,
+      "train_tokens_per_second": 6223.787
+    },
+    {
+      "epoch": 1.3414334225635884,
+      "grad_norm": 0.25765275955200195,
+      "learning_rate": 5e-06,
+      "loss": 0.953,
+      "num_input_tokens_seen": 503655864,
+      "step": 1108,
+      "train_runtime": 80926.4497,
+      "train_tokens_per_second": 6223.625
+    },
+    {
+      "epoch": 1.3426441793811899,
+      "grad_norm": 0.23261244595050812,
+      "learning_rate": 5e-06,
+      "loss": 0.923,
+      "num_input_tokens_seen": 504117992,
+      "step": 1109,
+      "train_runtime": 81002.8373,
+      "train_tokens_per_second": 6223.461
+    },
+    {
+      "epoch": 1.3438549361987913,
+      "grad_norm": 0.23450727760791779,
+      "learning_rate": 5e-06,
+      "loss": 0.9273,
+      "num_input_tokens_seen": 504574512,
+      "step": 1110,
+      "train_runtime": 81077.9846,
+      "train_tokens_per_second": 6223.323
+    },
+    {
+      "epoch": 1.3450656930163924,
+      "grad_norm": 0.2521567940711975,
+      "learning_rate": 5e-06,
+      "loss": 0.9632,
+      "num_input_tokens_seen": 505004192,
+      "step": 1111,
+      "train_runtime": 81148.4492,
+      "train_tokens_per_second": 6223.214
+    },
+    {
+      "epoch": 1.3462764498339939,
+      "grad_norm": 0.2506852447986603,
+      "learning_rate": 5e-06,
+      "loss": 0.9951,
+      "num_input_tokens_seen": 505460352,
+      "step": 1112,
+      "train_runtime": 81223.6058,
+      "train_tokens_per_second": 6223.072
+    },
+    {
+      "epoch": 1.3474872066515953,
+      "grad_norm": 0.2718031704425812,
+      "learning_rate": 5e-06,
+      "loss": 0.9664,
+      "num_input_tokens_seen": 505924544,
+      "step": 1113,
+      "train_runtime": 81300.2242,
+      "train_tokens_per_second": 6222.917
+    },
+    {
+      "epoch": 1.3486979634691967,
+      "grad_norm": 0.26461461186408997,
+      "learning_rate": 5e-06,
+      "loss": 0.9479,
+      "num_input_tokens_seen": 506374000,
+      "step": 1114,
+      "train_runtime": 81374.867,
+      "train_tokens_per_second": 6222.732
+    },
+    {
+      "epoch": 1.349908720286798,
+      "grad_norm": 0.23874284327030182,
+      "learning_rate": 5e-06,
+      "loss": 0.9868,
+      "num_input_tokens_seen": 506851568,
+      "step": 1115,
+      "train_runtime": 81454.5159,
+      "train_tokens_per_second": 6222.51
+    },
+    {
+      "epoch": 1.3511194771043993,
+      "grad_norm": 0.2469114065170288,
+      "learning_rate": 5e-06,
+      "loss": 0.9355,
+      "num_input_tokens_seen": 507321040,
+      "step": 1116,
+      "train_runtime": 81532.2647,
+      "train_tokens_per_second": 6222.335
+    },
+    {
+      "epoch": 1.3523302339220007,
+      "grad_norm": 0.2748368978500366,
+      "learning_rate": 5e-06,
+      "loss": 0.8878,
+      "num_input_tokens_seen": 507785192,
+      "step": 1117,
+      "train_runtime": 81608.7161,
+      "train_tokens_per_second": 6222.193
+    },
+    {
+      "epoch": 1.353540990739602,
+      "grad_norm": 0.25142693519592285,
+      "learning_rate": 5e-06,
+      "loss": 0.9127,
+      "num_input_tokens_seen": 508241704,
+      "step": 1118,
+      "train_runtime": 81683.6479,
+      "train_tokens_per_second": 6222.074
+    },
+    {
+      "epoch": 1.3547517475572035,
+      "grad_norm": 0.23072993755340576,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 508692400,
+      "step": 1119,
+      "train_runtime": 81758.1595,
+      "train_tokens_per_second": 6221.916
+    },
+    {
+      "epoch": 1.355962504374805,
+      "grad_norm": 0.22448928654193878,
+      "learning_rate": 5e-06,
+      "loss": 0.937,
+      "num_input_tokens_seen": 509133480,
+      "step": 1120,
+      "train_runtime": 81830.545,
+      "train_tokens_per_second": 6221.802
+    },
+    {
+      "epoch": 1.3571732611924063,
+      "grad_norm": 0.2378361076116562,
+      "learning_rate": 5e-06,
+      "loss": 0.9702,
+      "num_input_tokens_seen": 509569360,
+      "step": 1121,
+      "train_runtime": 81902.3306,
+      "train_tokens_per_second": 6221.671
+    },
+    {
+      "epoch": 1.3583840180100077,
+      "grad_norm": 0.23400956392288208,
+      "learning_rate": 5e-06,
+      "loss": 0.909,
+      "num_input_tokens_seen": 510010536,
+      "step": 1122,
+      "train_runtime": 81975.1662,
+      "train_tokens_per_second": 6221.525
+    },
+    {
+      "epoch": 1.3595947748276092,
+      "grad_norm": 0.24939168989658356,
+      "learning_rate": 5e-06,
+      "loss": 0.9008,
+      "num_input_tokens_seen": 510470824,
+      "step": 1123,
+      "train_runtime": 82051.5387,
+      "train_tokens_per_second": 6221.344
+    },
+    {
+      "epoch": 1.3608055316452103,
+      "grad_norm": 0.23065564036369324,
+      "learning_rate": 5e-06,
+      "loss": 0.9217,
+      "num_input_tokens_seen": 510941664,
+      "step": 1124,
+      "train_runtime": 82129.5737,
+      "train_tokens_per_second": 6221.165
+    },
+    {
+      "epoch": 1.3620162884628118,
+      "grad_norm": 0.270669162273407,
+      "learning_rate": 5e-06,
+      "loss": 0.9314,
+      "num_input_tokens_seen": 511387848,
+      "step": 1125,
+      "train_runtime": 82202.6173,
+      "train_tokens_per_second": 6221.065
+    },
+    {
+      "epoch": 1.3632270452804132,
+      "grad_norm": 0.2493094503879547,
+      "learning_rate": 5e-06,
+      "loss": 0.9661,
+      "num_input_tokens_seen": 511829632,
+      "step": 1126,
+      "train_runtime": 82275.3767,
+      "train_tokens_per_second": 6220.933
+    },
+    {
+      "epoch": 1.3644378020980146,
+      "grad_norm": 0.24099677801132202,
+      "learning_rate": 5e-06,
+      "loss": 0.9565,
+      "num_input_tokens_seen": 512284456,
+      "step": 1127,
+      "train_runtime": 82350.5397,
+      "train_tokens_per_second": 6220.778
+    },
+    {
+      "epoch": 1.365648558915616,
+      "grad_norm": 0.28274643421173096,
+      "learning_rate": 5e-06,
+      "loss": 0.9409,
+      "num_input_tokens_seen": 512735624,
+      "step": 1128,
+      "train_runtime": 82424.8965,
+      "train_tokens_per_second": 6220.64
+    },
+    {
+      "epoch": 1.3668593157332172,
+      "grad_norm": 0.24693673849105835,
+      "learning_rate": 5e-06,
+      "loss": 0.9281,
+      "num_input_tokens_seen": 513189840,
+      "step": 1129,
+      "train_runtime": 82499.5885,
+      "train_tokens_per_second": 6220.514
+    },
+    {
+      "epoch": 1.3680700725508186,
+      "grad_norm": 0.23583988845348358,
+      "learning_rate": 5e-06,
+      "loss": 0.858,
+      "num_input_tokens_seen": 513681000,
+      "step": 1130,
+      "train_runtime": 82581.1309,
+      "train_tokens_per_second": 6220.319
+    },
+    {
+      "epoch": 1.36928082936842,
+      "grad_norm": 0.23430530726909637,
+      "learning_rate": 5e-06,
+      "loss": 0.9629,
+      "num_input_tokens_seen": 514139520,
+      "step": 1131,
+      "train_runtime": 82656.5045,
+      "train_tokens_per_second": 6220.194
+    },
+    {
+      "epoch": 1.3704915861860214,
+      "grad_norm": 0.2671928405761719,
+      "learning_rate": 5e-06,
+      "loss": 0.9183,
+      "num_input_tokens_seen": 514585024,
+      "step": 1132,
+      "train_runtime": 82730.3681,
+      "train_tokens_per_second": 6220.026
+    },
+    {
+      "epoch": 1.3717023430036228,
+      "grad_norm": 0.2957673668861389,
+      "learning_rate": 5e-06,
+      "loss": 0.9404,
+      "num_input_tokens_seen": 515044760,
+      "step": 1133,
+      "train_runtime": 82806.7902,
+      "train_tokens_per_second": 6219.837
+    },
+    {
+      "epoch": 1.3729130998212242,
+      "grad_norm": 0.24210570752620697,
+      "learning_rate": 5e-06,
+      "loss": 0.9729,
+      "num_input_tokens_seen": 515503432,
+      "step": 1134,
+      "train_runtime": 82882.7978,
+      "train_tokens_per_second": 6219.667
+    },
+    {
+      "epoch": 1.3741238566388256,
+      "grad_norm": 0.25204458832740784,
+      "learning_rate": 5e-06,
+      "loss": 0.9571,
+      "num_input_tokens_seen": 515950480,
+      "step": 1135,
+      "train_runtime": 82956.8397,
+      "train_tokens_per_second": 6219.505
+    },
+    {
+      "epoch": 1.375334613456427,
+      "grad_norm": 0.25100481510162354,
+      "learning_rate": 5e-06,
+      "loss": 0.93,
+      "num_input_tokens_seen": 516403560,
+      "step": 1136,
+      "train_runtime": 83031.7598,
+      "train_tokens_per_second": 6219.35
+    },
+    {
+      "epoch": 1.3765453702740285,
+      "grad_norm": 0.2839900255203247,
+      "learning_rate": 5e-06,
+      "loss": 0.9969,
+      "num_input_tokens_seen": 516860512,
+      "step": 1137,
+      "train_runtime": 83107.2043,
+      "train_tokens_per_second": 6219.202
+    },
+    {
+      "epoch": 1.3777561270916296,
+      "grad_norm": 0.24296337366104126,
+      "learning_rate": 5e-06,
+      "loss": 0.9908,
+      "num_input_tokens_seen": 517309384,
+      "step": 1138,
+      "train_runtime": 83178.397,
+      "train_tokens_per_second": 6219.276
+    },
+    {
+      "epoch": 1.378966883909231,
+      "grad_norm": 0.2473958134651184,
+      "learning_rate": 5e-06,
+      "loss": 0.991,
+      "num_input_tokens_seen": 517764120,
+      "step": 1139,
+      "train_runtime": 83249.0866,
+      "train_tokens_per_second": 6219.457
+    },
+    {
+      "epoch": 1.3801776407268325,
+      "grad_norm": 0.26322364807128906,
+      "learning_rate": 5e-06,
+      "loss": 0.9685,
+      "num_input_tokens_seen": 518204792,
+      "step": 1140,
+      "train_runtime": 83317.1594,
+      "train_tokens_per_second": 6219.665
+    },
+    {
+      "epoch": 1.3813883975444339,
+      "grad_norm": 0.27684542536735535,
+      "learning_rate": 5e-06,
+      "loss": 0.9655,
+      "num_input_tokens_seen": 518647512,
+      "step": 1141,
+      "train_runtime": 83386.2555,
+      "train_tokens_per_second": 6219.82
+    },
+    {
+      "epoch": 1.3825991543620353,
+      "grad_norm": 0.24537670612335205,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 519100408,
+      "step": 1142,
+      "train_runtime": 83457.0116,
+      "train_tokens_per_second": 6219.974
+    },
+    {
+      "epoch": 1.3838099111796365,
+      "grad_norm": 0.23837308585643768,
+      "learning_rate": 5e-06,
+      "loss": 0.9082,
+      "num_input_tokens_seen": 519546976,
+      "step": 1143,
+      "train_runtime": 83526.2221,
+      "train_tokens_per_second": 6220.166
+    },
+    {
+      "epoch": 1.3850206679972379,
+      "grad_norm": 0.2371511310338974,
+      "learning_rate": 5e-06,
+      "loss": 0.9283,
+      "num_input_tokens_seen": 520011528,
+      "step": 1144,
+      "train_runtime": 83598.9547,
+      "train_tokens_per_second": 6220.311
+    },
+    {
+      "epoch": 1.3862314248148393,
+      "grad_norm": 0.22656875848770142,
+      "learning_rate": 5e-06,
+      "loss": 0.9689,
+      "num_input_tokens_seen": 520470056,
+      "step": 1145,
+      "train_runtime": 83670.3971,
+      "train_tokens_per_second": 6220.48
+    },
+    {
+      "epoch": 1.3874421816324407,
+      "grad_norm": 0.23803792893886566,
+      "learning_rate": 5e-06,
+      "loss": 0.9774,
+      "num_input_tokens_seen": 520904032,
+      "step": 1146,
+      "train_runtime": 83740.3252,
+      "train_tokens_per_second": 6220.468
+    },
+    {
+      "epoch": 1.3886529384500421,
+      "grad_norm": 0.21631726622581482,
+      "learning_rate": 5e-06,
+      "loss": 0.92,
+      "num_input_tokens_seen": 521369744,
+      "step": 1147,
+      "train_runtime": 83816.7878,
+      "train_tokens_per_second": 6220.35
+    },
+    {
+      "epoch": 1.3898636952676435,
+      "grad_norm": 0.237714946269989,
+      "learning_rate": 5e-06,
+      "loss": 0.9022,
+      "num_input_tokens_seen": 521831576,
+      "step": 1148,
+      "train_runtime": 83893.3078,
+      "train_tokens_per_second": 6220.181
+    },
+    {
+      "epoch": 1.391074452085245,
+      "grad_norm": 0.2461657077074051,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 522271136,
+      "step": 1149,
+      "train_runtime": 83965.4254,
+      "train_tokens_per_second": 6220.074
+    },
+    {
+      "epoch": 1.3922852089028463,
+      "grad_norm": 0.23177474737167358,
+      "learning_rate": 5e-06,
+      "loss": 0.9326,
+      "num_input_tokens_seen": 522723640,
+      "step": 1150,
+      "train_runtime": 84039.8413,
+      "train_tokens_per_second": 6219.95
+    },
+    {
+      "epoch": 1.3934959657204475,
+      "grad_norm": 0.24760431051254272,
+      "learning_rate": 5e-06,
+      "loss": 0.9544,
+      "num_input_tokens_seen": 523187496,
+      "step": 1151,
+      "train_runtime": 84116.6652,
+      "train_tokens_per_second": 6219.784
+    },
+    {
+      "epoch": 1.394706722538049,
+      "grad_norm": 0.24664926528930664,
+      "learning_rate": 5e-06,
+      "loss": 0.9197,
+      "num_input_tokens_seen": 523653368,
+      "step": 1152,
+      "train_runtime": 84193.8554,
+      "train_tokens_per_second": 6219.615
+    },
+    {
+      "epoch": 1.3959174793556504,
+      "grad_norm": 0.22697068750858307,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 524120216,
+      "step": 1153,
+      "train_runtime": 84271.1905,
+      "train_tokens_per_second": 6219.447
+    },
+    {
+      "epoch": 1.3971282361732518,
+      "grad_norm": 0.24017848074436188,
+      "learning_rate": 5e-06,
+      "loss": 0.9406,
+      "num_input_tokens_seen": 524588968,
+      "step": 1154,
+      "train_runtime": 84348.8248,
+      "train_tokens_per_second": 6219.28
+    },
+    {
+      "epoch": 1.3983389929908532,
+      "grad_norm": 0.24601654708385468,
+      "learning_rate": 5e-06,
+      "loss": 0.96,
+      "num_input_tokens_seen": 525035616,
+      "step": 1155,
+      "train_runtime": 84422.8617,
+      "train_tokens_per_second": 6219.117
+    },
+    {
+      "epoch": 1.3995497498084544,
+      "grad_norm": 0.22841405868530273,
+      "learning_rate": 5e-06,
+      "loss": 0.9359,
+      "num_input_tokens_seen": 525495368,
+      "step": 1156,
+      "train_runtime": 84498.4629,
+      "train_tokens_per_second": 6218.993
+    },
+    {
+      "epoch": 1.4007605066260558,
+      "grad_norm": 0.2503286302089691,
+      "learning_rate": 5e-06,
+      "loss": 0.9101,
+      "num_input_tokens_seen": 525936104,
+      "step": 1157,
+      "train_runtime": 84571.5115,
+      "train_tokens_per_second": 6218.833
+    },
+    {
+      "epoch": 1.4019712634436572,
+      "grad_norm": 0.24628864228725433,
+      "learning_rate": 5e-06,
+      "loss": 0.9777,
+      "num_input_tokens_seen": 526383960,
+      "step": 1158,
+      "train_runtime": 84645.7016,
+      "train_tokens_per_second": 6218.673
+    },
+    {
+      "epoch": 1.4031820202612586,
+      "grad_norm": 0.23224344849586487,
+      "learning_rate": 5e-06,
+      "loss": 0.9756,
+      "num_input_tokens_seen": 526842064,
+      "step": 1159,
+      "train_runtime": 84721.4748,
+      "train_tokens_per_second": 6218.519
+    },
+    {
+      "epoch": 1.40439277707886,
+      "grad_norm": 0.23669494688510895,
+      "learning_rate": 5e-06,
+      "loss": 0.9558,
+      "num_input_tokens_seen": 527274984,
+      "step": 1160,
+      "train_runtime": 84792.9592,
+      "train_tokens_per_second": 6218.382
+    },
+    {
+      "epoch": 1.4056035338964614,
+      "grad_norm": 0.2642204165458679,
+      "learning_rate": 5e-06,
+      "loss": 0.9927,
+      "num_input_tokens_seen": 527706216,
+      "step": 1161,
+      "train_runtime": 84864.0145,
+      "train_tokens_per_second": 6218.257
+    },
+    {
+      "epoch": 1.4068142907140628,
+      "grad_norm": 0.24115154147148132,
+      "learning_rate": 5e-06,
+      "loss": 0.9297,
+      "num_input_tokens_seen": 528178144,
+      "step": 1162,
+      "train_runtime": 84942.3429,
+      "train_tokens_per_second": 6218.078
+    },
+    {
+      "epoch": 1.4080250475316642,
+      "grad_norm": 0.23551017045974731,
+      "learning_rate": 5e-06,
+      "loss": 0.9862,
+      "num_input_tokens_seen": 528630424,
+      "step": 1163,
+      "train_runtime": 85017.0419,
+      "train_tokens_per_second": 6217.935
+    },
+    {
+      "epoch": 1.4092358043492654,
+      "grad_norm": 0.2298494577407837,
+      "learning_rate": 5e-06,
+      "loss": 0.9455,
+      "num_input_tokens_seen": 529081184,
+      "step": 1164,
+      "train_runtime": 85091.8299,
+      "train_tokens_per_second": 6217.767
+    },
+    {
+      "epoch": 1.4104465611668668,
+      "grad_norm": 0.22845524549484253,
+      "learning_rate": 5e-06,
+      "loss": 0.9526,
+      "num_input_tokens_seen": 529559640,
+      "step": 1165,
+      "train_runtime": 85170.8828,
+      "train_tokens_per_second": 6217.614
+    },
+    {
+      "epoch": 1.4116573179844683,
+      "grad_norm": 0.2308027297258377,
+      "learning_rate": 5e-06,
+      "loss": 0.8656,
+      "num_input_tokens_seen": 530022552,
+      "step": 1166,
+      "train_runtime": 85244.8514,
+      "train_tokens_per_second": 6217.649
+    },
+    {
+      "epoch": 1.4128680748020697,
+      "grad_norm": 0.2270365059375763,
+      "learning_rate": 5e-06,
+      "loss": 0.9853,
+      "num_input_tokens_seen": 530470680,
+      "step": 1167,
+      "train_runtime": 85314.7105,
+      "train_tokens_per_second": 6217.81
+    },
+    {
+      "epoch": 1.414078831619671,
+      "grad_norm": 0.23675860464572906,
+      "learning_rate": 5e-06,
+      "loss": 0.9707,
+      "num_input_tokens_seen": 530923672,
+      "step": 1168,
+      "train_runtime": 85385.4857,
+      "train_tokens_per_second": 6217.962
+    },
+    {
+      "epoch": 1.4152895884372723,
+      "grad_norm": 0.24494849145412445,
+      "learning_rate": 5e-06,
+      "loss": 1.0015,
+      "num_input_tokens_seen": 531378672,
+      "step": 1169,
+      "train_runtime": 85457.4364,
+      "train_tokens_per_second": 6218.051
+    },
+    {
+      "epoch": 1.4165003452548737,
+      "grad_norm": 0.2266804724931717,
+      "learning_rate": 5e-06,
+      "loss": 0.9243,
+      "num_input_tokens_seen": 531833320,
+      "step": 1170,
+      "train_runtime": 85530.4497,
+      "train_tokens_per_second": 6218.058
+    },
+    {
+      "epoch": 1.417711102072475,
+      "grad_norm": 0.25175556540489197,
+      "learning_rate": 5e-06,
+      "loss": 1.0028,
+      "num_input_tokens_seen": 532288648,
+      "step": 1171,
+      "train_runtime": 85604.5221,
+      "train_tokens_per_second": 6217.997
+    },
+    {
+      "epoch": 1.4189218588900765,
+      "grad_norm": 0.23558390140533447,
+      "learning_rate": 5e-06,
+      "loss": 0.9245,
+      "num_input_tokens_seen": 532735600,
+      "step": 1172,
+      "train_runtime": 85676.0209,
+      "train_tokens_per_second": 6218.025
+    },
+    {
+      "epoch": 1.420132615707678,
+      "grad_norm": 0.220907524228096,
+      "learning_rate": 5e-06,
+      "loss": 0.9561,
+      "num_input_tokens_seen": 533220744,
+      "step": 1173,
+      "train_runtime": 85753.6767,
+      "train_tokens_per_second": 6218.051
+    },
+    {
+      "epoch": 1.4213433725252793,
+      "grad_norm": 0.28133559226989746,
+      "learning_rate": 5e-06,
+      "loss": 0.9136,
+      "num_input_tokens_seen": 533681856,
+      "step": 1174,
+      "train_runtime": 85830.2269,
+      "train_tokens_per_second": 6217.878
+    },
+    {
+      "epoch": 1.4225541293428807,
+      "grad_norm": 0.2508618235588074,
+      "learning_rate": 5e-06,
+      "loss": 0.9846,
+      "num_input_tokens_seen": 534131488,
+      "step": 1175,
+      "train_runtime": 85905.1182,
+      "train_tokens_per_second": 6217.691
+    },
+    {
+      "epoch": 1.4237648861604821,
+      "grad_norm": 0.24241898953914642,
+      "learning_rate": 5e-06,
+      "loss": 0.948,
+      "num_input_tokens_seen": 534587808,
+      "step": 1176,
+      "train_runtime": 85980.4455,
+      "train_tokens_per_second": 6217.551
+    },
+    {
+      "epoch": 1.4249756429780835,
+      "grad_norm": 0.2333323061466217,
+      "learning_rate": 5e-06,
+      "loss": 0.9202,
+      "num_input_tokens_seen": 535059256,
+      "step": 1177,
+      "train_runtime": 86059.1263,
+      "train_tokens_per_second": 6217.345
+    },
+    {
+      "epoch": 1.4261863997956847,
+      "grad_norm": 0.2457004338502884,
+      "learning_rate": 5e-06,
+      "loss": 0.96,
+      "num_input_tokens_seen": 535516680,
+      "step": 1178,
+      "train_runtime": 86134.7746,
+      "train_tokens_per_second": 6217.195
+    },
+    {
+      "epoch": 1.4273971566132861,
+      "grad_norm": 0.2796451151371002,
+      "learning_rate": 5e-06,
+      "loss": 0.9294,
+      "num_input_tokens_seen": 535977480,
+      "step": 1179,
+      "train_runtime": 86211.7662,
+      "train_tokens_per_second": 6216.988
+    },
+    {
+      "epoch": 1.4286079134308876,
+      "grad_norm": 0.24755236506462097,
+      "learning_rate": 5e-06,
+      "loss": 0.9704,
+      "num_input_tokens_seen": 536456680,
+      "step": 1180,
+      "train_runtime": 86291.5671,
+      "train_tokens_per_second": 6216.791
+    },
+    {
+      "epoch": 1.429818670248489,
+      "grad_norm": 0.23514142632484436,
+      "learning_rate": 5e-06,
+      "loss": 0.9235,
+      "num_input_tokens_seen": 536919736,
+      "step": 1181,
+      "train_runtime": 86368.5347,
+      "train_tokens_per_second": 6216.613
+    },
+    {
+      "epoch": 1.4310294270660904,
+      "grad_norm": 0.2705405056476593,
+      "learning_rate": 5e-06,
+      "loss": 0.9898,
+      "num_input_tokens_seen": 537369752,
+      "step": 1182,
+      "train_runtime": 86443.3868,
+      "train_tokens_per_second": 6216.436
+    },
+    {
+      "epoch": 1.4322401838836916,
+      "grad_norm": 0.2713667154312134,
+      "learning_rate": 5e-06,
+      "loss": 0.931,
+      "num_input_tokens_seen": 537808528,
+      "step": 1183,
+      "train_runtime": 86515.7051,
+      "train_tokens_per_second": 6216.311
+    },
+    {
+      "epoch": 1.433450940701293,
+      "grad_norm": 0.2554599642753601,
+      "learning_rate": 5e-06,
+      "loss": 0.8981,
+      "num_input_tokens_seen": 538237888,
+      "step": 1184,
+      "train_runtime": 86586.8158,
+      "train_tokens_per_second": 6216.164
+    },
+    {
+      "epoch": 1.4346616975188944,
+      "grad_norm": 0.22345824539661407,
+      "learning_rate": 5e-06,
+      "loss": 0.9353,
+      "num_input_tokens_seen": 538679104,
+      "step": 1185,
+      "train_runtime": 86659.9026,
+      "train_tokens_per_second": 6216.013
+    },
+    {
+      "epoch": 1.4358724543364958,
+      "grad_norm": 0.25475722551345825,
+      "learning_rate": 5e-06,
+      "loss": 0.9775,
+      "num_input_tokens_seen": 539122880,
+      "step": 1186,
+      "train_runtime": 86733.3283,
+      "train_tokens_per_second": 6215.868
+    },
+    {
+      "epoch": 1.4370832111540972,
+      "grad_norm": 0.2426735758781433,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 539580016,
+      "step": 1187,
+      "train_runtime": 86809.5723,
+      "train_tokens_per_second": 6215.674
+    },
+    {
+      "epoch": 1.4382939679716986,
+      "grad_norm": 0.24386319518089294,
+      "learning_rate": 5e-06,
+      "loss": 0.8981,
+      "num_input_tokens_seen": 540035632,
+      "step": 1188,
+      "train_runtime": 86885.2572,
+      "train_tokens_per_second": 6215.504
+    },
+    {
+      "epoch": 1.4395047247893,
+      "grad_norm": 0.25454631447792053,
+      "learning_rate": 5e-06,
+      "loss": 0.9745,
+      "num_input_tokens_seen": 540481968,
+      "step": 1189,
+      "train_runtime": 86959.2044,
+      "train_tokens_per_second": 6215.351
+    },
+    {
+      "epoch": 1.4407154816069014,
+      "grad_norm": 0.2664698660373688,
+      "learning_rate": 5e-06,
+      "loss": 0.9639,
+      "num_input_tokens_seen": 540930360,
+      "step": 1190,
+      "train_runtime": 87033.5401,
+      "train_tokens_per_second": 6215.194
+    },
+    {
+      "epoch": 1.4419262384245026,
+      "grad_norm": 0.24694858491420746,
+      "learning_rate": 5e-06,
+      "loss": 0.9673,
+      "num_input_tokens_seen": 541419328,
+      "step": 1191,
+      "train_runtime": 87114.81,
+      "train_tokens_per_second": 6215.009
+    },
+    {
+      "epoch": 1.443136995242104,
+      "grad_norm": 0.27929478883743286,
+      "learning_rate": 5e-06,
+      "loss": 0.891,
+      "num_input_tokens_seen": 541886280,
+      "step": 1192,
+      "train_runtime": 87192.2112,
+      "train_tokens_per_second": 6214.847
+    },
+    {
+      "epoch": 1.4443477520597054,
+      "grad_norm": 0.26354244351387024,
+      "learning_rate": 5e-06,
+      "loss": 0.9933,
+      "num_input_tokens_seen": 542346832,
+      "step": 1193,
+      "train_runtime": 87268.6309,
+      "train_tokens_per_second": 6214.682
+    },
+    {
+      "epoch": 1.4455585088773069,
+      "grad_norm": 0.2514925003051758,
+      "learning_rate": 5e-06,
+      "loss": 0.964,
+      "num_input_tokens_seen": 542801256,
+      "step": 1194,
+      "train_runtime": 87344.2791,
+      "train_tokens_per_second": 6214.503
+    },
+    {
+      "epoch": 1.4467692656949083,
+      "grad_norm": 0.24636778235435486,
+      "learning_rate": 5e-06,
+      "loss": 0.9314,
+      "num_input_tokens_seen": 543242600,
+      "step": 1195,
+      "train_runtime": 87417.0709,
+      "train_tokens_per_second": 6214.377
+    },
+    {
+      "epoch": 1.4479800225125095,
+      "grad_norm": 0.2630736529827118,
+      "learning_rate": 5e-06,
+      "loss": 0.9703,
+      "num_input_tokens_seen": 543701408,
+      "step": 1196,
+      "train_runtime": 87493.5804,
+      "train_tokens_per_second": 6214.186
+    },
+    {
+      "epoch": 1.4491907793301109,
+      "grad_norm": 0.2552695572376251,
+      "learning_rate": 5e-06,
+      "loss": 1.0058,
+      "num_input_tokens_seen": 544170664,
+      "step": 1197,
+      "train_runtime": 87571.6365,
+      "train_tokens_per_second": 6214.006
+    },
+    {
+      "epoch": 1.4504015361477123,
+      "grad_norm": 0.2683693468570709,
+      "learning_rate": 5e-06,
+      "loss": 0.9817,
+      "num_input_tokens_seen": 544586024,
+      "step": 1198,
+      "train_runtime": 87639.8342,
+      "train_tokens_per_second": 6213.91
+    },
+    {
+      "epoch": 1.4516122929653137,
+      "grad_norm": 0.24069073796272278,
+      "learning_rate": 5e-06,
+      "loss": 0.983,
+      "num_input_tokens_seen": 545032400,
+      "step": 1199,
+      "train_runtime": 87713.2659,
+      "train_tokens_per_second": 6213.797
+    },
+    {
+      "epoch": 1.452823049782915,
+      "grad_norm": 0.2466171234846115,
+      "learning_rate": 5e-06,
+      "loss": 0.9388,
+      "num_input_tokens_seen": 545482808,
+      "step": 1200,
+      "train_runtime": 87788.0711,
+      "train_tokens_per_second": 6213.632
+    },
+    {
+      "epoch": 1.4540338066005165,
+      "grad_norm": 0.310069739818573,
+      "learning_rate": 5e-06,
+      "loss": 0.964,
+      "num_input_tokens_seen": 545948528,
+      "step": 1201,
+      "train_runtime": 87865.3722,
+      "train_tokens_per_second": 6213.466
+    },
+    {
+      "epoch": 1.455244563418118,
+      "grad_norm": 0.23402269184589386,
+      "learning_rate": 5e-06,
+      "loss": 0.9666,
+      "num_input_tokens_seen": 546406224,
+      "step": 1202,
+      "train_runtime": 87941.9012,
+      "train_tokens_per_second": 6213.264
+    },
+    {
+      "epoch": 1.4564553202357193,
+      "grad_norm": 0.2361670583486557,
+      "learning_rate": 5e-06,
+      "loss": 0.9641,
+      "num_input_tokens_seen": 546871256,
+      "step": 1203,
+      "train_runtime": 88019.3297,
+      "train_tokens_per_second": 6213.081
+    },
+    {
+      "epoch": 1.4576660770533205,
+      "grad_norm": 0.21892577409744263,
+      "learning_rate": 5e-06,
+      "loss": 0.9509,
+      "num_input_tokens_seen": 547331272,
+      "step": 1204,
+      "train_runtime": 88095.2024,
+      "train_tokens_per_second": 6212.952
+    },
+    {
+      "epoch": 1.458876833870922,
+      "grad_norm": 0.276292085647583,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 547782312,
+      "step": 1205,
+      "train_runtime": 88170.4287,
+      "train_tokens_per_second": 6212.767
+    },
+    {
+      "epoch": 1.4600875906885233,
+      "grad_norm": 0.24177499115467072,
+      "learning_rate": 5e-06,
+      "loss": 0.9166,
+      "num_input_tokens_seen": 548266600,
+      "step": 1206,
+      "train_runtime": 88251.0882,
+      "train_tokens_per_second": 6212.576
+    },
+    {
+      "epoch": 1.4612983475061248,
+      "grad_norm": 0.2835836112499237,
+      "learning_rate": 5e-06,
+      "loss": 0.995,
+      "num_input_tokens_seen": 548717048,
+      "step": 1207,
+      "train_runtime": 88325.5766,
+      "train_tokens_per_second": 6212.437
+    },
+    {
+      "epoch": 1.4625091043237262,
+      "grad_norm": 0.23038621246814728,
+      "learning_rate": 5e-06,
+      "loss": 0.9838,
+      "num_input_tokens_seen": 549195520,
+      "step": 1208,
+      "train_runtime": 88405.6772,
+      "train_tokens_per_second": 6212.22
+    },
+    {
+      "epoch": 1.4637198611413273,
+      "grad_norm": 0.2618058919906616,
+      "learning_rate": 5e-06,
+      "loss": 0.9669,
+      "num_input_tokens_seen": 549643000,
+      "step": 1209,
+      "train_runtime": 88479.9776,
+      "train_tokens_per_second": 6212.061
+    },
+    {
+      "epoch": 1.4649306179589288,
+      "grad_norm": 0.26815587282180786,
+      "learning_rate": 5e-06,
+      "loss": 0.9388,
+      "num_input_tokens_seen": 550092200,
+      "step": 1210,
+      "train_runtime": 88554.698,
+      "train_tokens_per_second": 6211.892
+    },
+    {
+      "epoch": 1.4661413747765302,
+      "grad_norm": 0.2662449777126312,
+      "learning_rate": 5e-06,
+      "loss": 0.9636,
+      "num_input_tokens_seen": 550550512,
+      "step": 1211,
+      "train_runtime": 88629.3279,
+      "train_tokens_per_second": 6211.832
+    },
+    {
+      "epoch": 1.4673521315941316,
+      "grad_norm": 0.23297056555747986,
+      "learning_rate": 5e-06,
+      "loss": 0.968,
+      "num_input_tokens_seen": 551000744,
+      "step": 1212,
+      "train_runtime": 88700.7236,
+      "train_tokens_per_second": 6211.908
+    },
+    {
+      "epoch": 1.468562888411733,
+      "grad_norm": 0.24942202866077423,
+      "learning_rate": 5e-06,
+      "loss": 0.9262,
+      "num_input_tokens_seen": 551460280,
+      "step": 1213,
+      "train_runtime": 88773.122,
+      "train_tokens_per_second": 6212.019
+    },
+    {
+      "epoch": 1.4697736452293344,
+      "grad_norm": 0.2555992901325226,
+      "learning_rate": 5e-06,
+      "loss": 0.9494,
+      "num_input_tokens_seen": 551910888,
+      "step": 1214,
+      "train_runtime": 88844.5041,
+      "train_tokens_per_second": 6212.099
+    },
+    {
+      "epoch": 1.4709844020469358,
+      "grad_norm": 0.2768413722515106,
+      "learning_rate": 5e-06,
+      "loss": 0.919,
+      "num_input_tokens_seen": 552378856,
+      "step": 1215,
+      "train_runtime": 88918.5443,
+      "train_tokens_per_second": 6212.19
+    },
+    {
+      "epoch": 1.4721951588645372,
+      "grad_norm": 0.24520625174045563,
+      "learning_rate": 5e-06,
+      "loss": 0.9503,
+      "num_input_tokens_seen": 552847920,
+      "step": 1216,
+      "train_runtime": 88992.9488,
+      "train_tokens_per_second": 6212.267
+    },
+    {
+      "epoch": 1.4734059156821386,
+      "grad_norm": 0.2534187436103821,
+      "learning_rate": 5e-06,
+      "loss": 0.9683,
+      "num_input_tokens_seen": 553286272,
+      "step": 1217,
+      "train_runtime": 89061.8498,
+      "train_tokens_per_second": 6212.382
+    },
+    {
+      "epoch": 1.4746166724997398,
+      "grad_norm": 0.2607842981815338,
+      "learning_rate": 5e-06,
+      "loss": 0.9375,
+      "num_input_tokens_seen": 553730632,
+      "step": 1218,
+      "train_runtime": 89131.9721,
+      "train_tokens_per_second": 6212.48
+    },
+    {
+      "epoch": 1.4758274293173412,
+      "grad_norm": 0.2503432333469391,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 554163400,
+      "step": 1219,
+      "train_runtime": 89200.3599,
+      "train_tokens_per_second": 6212.569
+    },
+    {
+      "epoch": 1.4770381861349426,
+      "grad_norm": 0.27522653341293335,
+      "learning_rate": 5e-06,
+      "loss": 0.9007,
+      "num_input_tokens_seen": 554616200,
+      "step": 1220,
+      "train_runtime": 89271.7622,
+      "train_tokens_per_second": 6212.672
+    },
+    {
+      "epoch": 1.478248942952544,
+      "grad_norm": 0.29365551471710205,
+      "learning_rate": 5e-06,
+      "loss": 0.9819,
+      "num_input_tokens_seen": 555069200,
+      "step": 1221,
+      "train_runtime": 89343.1896,
+      "train_tokens_per_second": 6212.776
+    },
+    {
+      "epoch": 1.4794596997701455,
+      "grad_norm": 0.22803185880184174,
+      "learning_rate": 5e-06,
+      "loss": 0.929,
+      "num_input_tokens_seen": 555522824,
+      "step": 1222,
+      "train_runtime": 89414.7038,
+      "train_tokens_per_second": 6212.88
+    },
+    {
+      "epoch": 1.4806704565877467,
+      "grad_norm": 0.2833687663078308,
+      "learning_rate": 5e-06,
+      "loss": 0.9506,
+      "num_input_tokens_seen": 555976920,
+      "step": 1223,
+      "train_runtime": 89486.7493,
+      "train_tokens_per_second": 6212.952
+    },
+    {
+      "epoch": 1.481881213405348,
+      "grad_norm": 0.23040251433849335,
+      "learning_rate": 5e-06,
+      "loss": 0.9585,
+      "num_input_tokens_seen": 556431480,
+      "step": 1224,
+      "train_runtime": 89564.565,
+      "train_tokens_per_second": 6212.63
+    },
+    {
+      "epoch": 1.4830919702229495,
+      "grad_norm": 0.2419111281633377,
+      "learning_rate": 5e-06,
+      "loss": 0.9193,
+      "num_input_tokens_seen": 556890152,
+      "step": 1225,
+      "train_runtime": 89648.8264,
+      "train_tokens_per_second": 6211.907
+    },
+    {
+      "epoch": 1.4843027270405509,
+      "grad_norm": 0.29110512137413025,
+      "learning_rate": 5e-06,
+      "loss": 0.8697,
+      "num_input_tokens_seen": 557355240,
+      "step": 1226,
+      "train_runtime": 89732.4654,
+      "train_tokens_per_second": 6211.3
+    },
+    {
+      "epoch": 1.4855134838581523,
+      "grad_norm": 0.25912541151046753,
+      "learning_rate": 5e-06,
+      "loss": 0.9736,
+      "num_input_tokens_seen": 557820032,
+      "step": 1227,
+      "train_runtime": 89810.0796,
+      "train_tokens_per_second": 6211.107
+    },
+    {
+      "epoch": 1.4867242406757537,
+      "grad_norm": 0.29734542965888977,
+      "learning_rate": 5e-06,
+      "loss": 0.9779,
+      "num_input_tokens_seen": 558247392,
+      "step": 1228,
+      "train_runtime": 89880.9268,
+      "train_tokens_per_second": 6210.966
+    },
+    {
+      "epoch": 1.4879349974933551,
+      "grad_norm": 0.23052756488323212,
+      "learning_rate": 5e-06,
+      "loss": 0.9192,
+      "num_input_tokens_seen": 558690584,
+      "step": 1229,
+      "train_runtime": 89956.4661,
+      "train_tokens_per_second": 6210.677
+    },
+    {
+      "epoch": 1.4891457543109565,
+      "grad_norm": 0.24976183474063873,
+      "learning_rate": 5e-06,
+      "loss": 0.9726,
+      "num_input_tokens_seen": 559158528,
+      "step": 1230,
+      "train_runtime": 90036.0752,
+      "train_tokens_per_second": 6210.383
+    },
+    {
+      "epoch": 1.4903565111285577,
+      "grad_norm": 0.25929853320121765,
+      "learning_rate": 5e-06,
+      "loss": 0.8893,
+      "num_input_tokens_seen": 559606536,
+      "step": 1231,
+      "train_runtime": 90111.8366,
+      "train_tokens_per_second": 6210.134
+    },
+    {
+      "epoch": 1.4915672679461591,
+      "grad_norm": 0.2416425496339798,
+      "learning_rate": 5e-06,
+      "loss": 0.9223,
+      "num_input_tokens_seen": 560047016,
+      "step": 1232,
+      "train_runtime": 90186.6064,
+      "train_tokens_per_second": 6209.869
+    },
+    {
+      "epoch": 1.4927780247637605,
+      "grad_norm": 0.2509872019290924,
+      "learning_rate": 5e-06,
+      "loss": 0.9414,
+      "num_input_tokens_seen": 560477352,
+      "step": 1233,
+      "train_runtime": 90259.5167,
+      "train_tokens_per_second": 6209.621
+    },
+    {
+      "epoch": 1.493988781581362,
+      "grad_norm": 0.24654145538806915,
+      "learning_rate": 5e-06,
+      "loss": 0.9249,
+      "num_input_tokens_seen": 560915928,
+      "step": 1234,
+      "train_runtime": 90333.8577,
+      "train_tokens_per_second": 6209.365
+    },
+    {
+      "epoch": 1.4951995383989634,
+      "grad_norm": 0.2723659873008728,
+      "learning_rate": 5e-06,
+      "loss": 0.9631,
+      "num_input_tokens_seen": 561326904,
+      "step": 1235,
+      "train_runtime": 90403.0323,
+      "train_tokens_per_second": 6209.16
+    },
+    {
+      "epoch": 1.4964102952165645,
+      "grad_norm": 0.22693853080272675,
+      "learning_rate": 5e-06,
+      "loss": 0.9138,
+      "num_input_tokens_seen": 561775144,
+      "step": 1236,
+      "train_runtime": 90478.8627,
+      "train_tokens_per_second": 6208.91
+    },
+    {
+      "epoch": 1.497621052034166,
+      "grad_norm": 0.26430606842041016,
+      "learning_rate": 5e-06,
+      "loss": 0.9036,
+      "num_input_tokens_seen": 562201328,
+      "step": 1237,
+      "train_runtime": 90551.0641,
+      "train_tokens_per_second": 6208.666
+    },
+    {
+      "epoch": 1.4988318088517674,
+      "grad_norm": 0.24093542993068695,
+      "learning_rate": 5e-06,
+      "loss": 0.9329,
+      "num_input_tokens_seen": 562665640,
+      "step": 1238,
+      "train_runtime": 90629.6091,
+      "train_tokens_per_second": 6208.409
+    },
+    {
+      "epoch": 1.5000425656693688,
+      "grad_norm": 0.24133825302124023,
+      "learning_rate": 5e-06,
+      "loss": 0.9841,
+      "num_input_tokens_seen": 563130560,
+      "step": 1239,
+      "train_runtime": 90707.3461,
+      "train_tokens_per_second": 6208.213
+    },
+    {
+      "epoch": 1.5012533224869702,
+      "grad_norm": 0.23979146778583527,
+      "learning_rate": 5e-06,
+      "loss": 0.969,
+      "num_input_tokens_seen": 563574224,
+      "step": 1240,
+      "train_runtime": 90780.5712,
+      "train_tokens_per_second": 6208.093
+    },
+    {
+      "epoch": 1.5024640793045716,
+      "grad_norm": 0.2502334713935852,
+      "learning_rate": 5e-06,
+      "loss": 0.9544,
+      "num_input_tokens_seen": 564005368,
+      "step": 1241,
+      "train_runtime": 90849.637,
+      "train_tokens_per_second": 6208.119
+    },
+    {
+      "epoch": 1.503674836122173,
+      "grad_norm": 0.24188034236431122,
+      "learning_rate": 5e-06,
+      "loss": 0.9265,
+      "num_input_tokens_seen": 564455488,
+      "step": 1242,
+      "train_runtime": 90922.8277,
+      "train_tokens_per_second": 6208.072
+    },
+    {
+      "epoch": 1.5048855929397744,
+      "grad_norm": 0.2516622841358185,
+      "learning_rate": 5e-06,
+      "loss": 0.9798,
+      "num_input_tokens_seen": 564908080,
+      "step": 1243,
+      "train_runtime": 90997.5049,
+      "train_tokens_per_second": 6207.951
+    },
+    {
+      "epoch": 1.5060963497573758,
+      "grad_norm": 0.22442975640296936,
+      "learning_rate": 5e-06,
+      "loss": 0.9605,
+      "num_input_tokens_seen": 565380080,
+      "step": 1244,
+      "train_runtime": 91075.2673,
+      "train_tokens_per_second": 6207.833
+    },
+    {
+      "epoch": 1.507307106574977,
+      "grad_norm": 0.25572800636291504,
+      "learning_rate": 5e-06,
+      "loss": 1.0025,
+      "num_input_tokens_seen": 565820720,
+      "step": 1245,
+      "train_runtime": 91148.0391,
+      "train_tokens_per_second": 6207.711
+    },
+    {
+      "epoch": 1.5085178633925784,
+      "grad_norm": 0.24338506162166595,
+      "learning_rate": 5e-06,
+      "loss": 0.9596,
+      "num_input_tokens_seen": 566254432,
+      "step": 1246,
+      "train_runtime": 91219.5681,
+      "train_tokens_per_second": 6207.598
+    },
+    {
+      "epoch": 1.5097286202101798,
+      "grad_norm": 0.26078444719314575,
+      "learning_rate": 5e-06,
+      "loss": 0.9484,
+      "num_input_tokens_seen": 566687608,
+      "step": 1247,
+      "train_runtime": 91291.6618,
+      "train_tokens_per_second": 6207.441
+    },
+    {
+      "epoch": 1.510939377027781,
+      "grad_norm": 0.25328484177589417,
+      "learning_rate": 5e-06,
+      "loss": 0.9433,
+      "num_input_tokens_seen": 567135480,
+      "step": 1248,
+      "train_runtime": 91365.8104,
+      "train_tokens_per_second": 6207.305
+    },
+    {
+      "epoch": 1.5121501338453824,
+      "grad_norm": 0.2464897632598877,
+      "learning_rate": 5e-06,
+      "loss": 0.9207,
+      "num_input_tokens_seen": 567570544,
+      "step": 1249,
+      "train_runtime": 91437.823,
+      "train_tokens_per_second": 6207.175
+    },
+    {
+      "epoch": 1.5133608906629838,
+      "grad_norm": 0.232350155711174,
+      "learning_rate": 5e-06,
+      "loss": 0.9411,
+      "num_input_tokens_seen": 568017064,
+      "step": 1250,
+      "train_runtime": 91511.6898,
+      "train_tokens_per_second": 6207.044
+    },
+    {
+      "epoch": 1.5145716474805853,
+      "grad_norm": 0.22308504581451416,
+      "learning_rate": 5e-06,
+      "loss": 0.906,
+      "num_input_tokens_seen": 568479648,
+      "step": 1251,
+      "train_runtime": 91588.8378,
+      "train_tokens_per_second": 6206.866
+    },
+    {
+      "epoch": 1.5157824042981867,
+      "grad_norm": 0.23805969953536987,
+      "learning_rate": 5e-06,
+      "loss": 0.9744,
+      "num_input_tokens_seen": 568934456,
+      "step": 1252,
+      "train_runtime": 91663.9685,
+      "train_tokens_per_second": 6206.74
+    },
+    {
+      "epoch": 1.516993161115788,
+      "grad_norm": 0.2170308232307434,
+      "learning_rate": 5e-06,
+      "loss": 0.9288,
+      "num_input_tokens_seen": 569397744,
+      "step": 1253,
+      "train_runtime": 91740.5472,
+      "train_tokens_per_second": 6206.609
+    },
+    {
+      "epoch": 1.5182039179333895,
+      "grad_norm": 0.237321138381958,
+      "learning_rate": 5e-06,
+      "loss": 0.8996,
+      "num_input_tokens_seen": 569848752,
+      "step": 1254,
+      "train_runtime": 91814.7504,
+      "train_tokens_per_second": 6206.505
+    },
+    {
+      "epoch": 1.519414674750991,
+      "grad_norm": 0.25323814153671265,
+      "learning_rate": 5e-06,
+      "loss": 0.9405,
+      "num_input_tokens_seen": 570280800,
+      "step": 1255,
+      "train_runtime": 91885.305,
+      "train_tokens_per_second": 6206.442
+    },
+    {
+      "epoch": 1.5206254315685923,
+      "grad_norm": 0.24336665868759155,
+      "learning_rate": 5e-06,
+      "loss": 0.9383,
+      "num_input_tokens_seen": 570733784,
+      "step": 1256,
+      "train_runtime": 91959.8375,
+      "train_tokens_per_second": 6206.337
+    },
+    {
+      "epoch": 1.5218361883861937,
+      "grad_norm": 0.24592383205890656,
+      "learning_rate": 5e-06,
+      "loss": 0.9803,
+      "num_input_tokens_seen": 571189672,
+      "step": 1257,
+      "train_runtime": 92034.0279,
+      "train_tokens_per_second": 6206.288
+    },
+    {
+      "epoch": 1.523046945203795,
+      "grad_norm": 0.2351573407649994,
+      "learning_rate": 5e-06,
+      "loss": 0.9934,
+      "num_input_tokens_seen": 571646112,
+      "step": 1258,
+      "train_runtime": 92108.3155,
+      "train_tokens_per_second": 6206.238
+    },
+    {
+      "epoch": 1.5242577020213963,
+      "grad_norm": 0.25675877928733826,
+      "learning_rate": 5e-06,
+      "loss": 0.9665,
+      "num_input_tokens_seen": 572084040,
+      "step": 1259,
+      "train_runtime": 92176.9792,
+      "train_tokens_per_second": 6206.366
+    },
+    {
+      "epoch": 1.5254684588389977,
+      "grad_norm": 0.23532457649707794,
+      "learning_rate": 5e-06,
+      "loss": 0.9635,
+      "num_input_tokens_seen": 572531232,
+      "step": 1260,
+      "train_runtime": 92244.6997,
+      "train_tokens_per_second": 6206.657
+    },
+    {
+      "epoch": 1.5266792156565991,
+      "grad_norm": 0.23427313566207886,
+      "learning_rate": 5e-06,
+      "loss": 0.9456,
+      "num_input_tokens_seen": 572985200,
+      "step": 1261,
+      "train_runtime": 92317.2757,
+      "train_tokens_per_second": 6206.695
+    },
+    {
+      "epoch": 1.5278899724742003,
+      "grad_norm": 0.2370956540107727,
+      "learning_rate": 5e-06,
+      "loss": 0.9875,
+      "num_input_tokens_seen": 573434448,
+      "step": 1262,
+      "train_runtime": 92388.1785,
+      "train_tokens_per_second": 6206.795
+    },
+    {
+      "epoch": 1.5291007292918017,
+      "grad_norm": 0.2511068284511566,
+      "learning_rate": 5e-06,
+      "loss": 0.9408,
+      "num_input_tokens_seen": 573888816,
+      "step": 1263,
+      "train_runtime": 92463.6049,
+      "train_tokens_per_second": 6206.645
+    },
+    {
+      "epoch": 1.5303114861094032,
+      "grad_norm": 0.22451600432395935,
+      "learning_rate": 5e-06,
+      "loss": 0.9585,
+      "num_input_tokens_seen": 574350424,
+      "step": 1264,
+      "train_runtime": 92541.1676,
+      "train_tokens_per_second": 6206.432
+    },
+    {
+      "epoch": 1.5315222429270046,
+      "grad_norm": 0.23519355058670044,
+      "learning_rate": 5e-06,
+      "loss": 0.9484,
+      "num_input_tokens_seen": 574821008,
+      "step": 1265,
+      "train_runtime": 92620.4674,
+      "train_tokens_per_second": 6206.199
+    },
+    {
+      "epoch": 1.532732999744606,
+      "grad_norm": 0.2533230483531952,
+      "learning_rate": 5e-06,
+      "loss": 0.9393,
+      "num_input_tokens_seen": 575257344,
+      "step": 1266,
+      "train_runtime": 92693.6836,
+      "train_tokens_per_second": 6206.004
+    },
+    {
+      "epoch": 1.5339437565622074,
+      "grad_norm": 0.251905232667923,
+      "learning_rate": 5e-06,
+      "loss": 0.9898,
+      "num_input_tokens_seen": 575695280,
+      "step": 1267,
+      "train_runtime": 92766.7232,
+      "train_tokens_per_second": 6205.838
+    },
+    {
+      "epoch": 1.5351545133798088,
+      "grad_norm": 0.23301640152931213,
+      "learning_rate": 5e-06,
+      "loss": 0.949,
+      "num_input_tokens_seen": 576144632,
+      "step": 1268,
+      "train_runtime": 92842.3959,
+      "train_tokens_per_second": 6205.62
+    },
+    {
+      "epoch": 1.5363652701974102,
+      "grad_norm": 0.2319250851869583,
+      "learning_rate": 5e-06,
+      "loss": 0.9151,
+      "num_input_tokens_seen": 576602952,
+      "step": 1269,
+      "train_runtime": 92917.6352,
+      "train_tokens_per_second": 6205.528
+    },
+    {
+      "epoch": 1.5375760270150116,
+      "grad_norm": 0.23095951974391937,
+      "learning_rate": 5e-06,
+      "loss": 0.9466,
+      "num_input_tokens_seen": 577064504,
+      "step": 1270,
+      "train_runtime": 92994.592,
+      "train_tokens_per_second": 6205.356
+    },
+    {
+      "epoch": 1.538786783832613,
+      "grad_norm": 0.23852431774139404,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 577527016,
+      "step": 1271,
+      "train_runtime": 93072.0976,
+      "train_tokens_per_second": 6205.157
+    },
+    {
+      "epoch": 1.5399975406502142,
+      "grad_norm": 0.22824853658676147,
+      "learning_rate": 5e-06,
+      "loss": 0.9495,
+      "num_input_tokens_seen": 577987968,
+      "step": 1272,
+      "train_runtime": 93148.324,
+      "train_tokens_per_second": 6205.028
+    },
+    {
+      "epoch": 1.5412082974678156,
+      "grad_norm": 0.23495082557201385,
+      "learning_rate": 5e-06,
+      "loss": 0.9997,
+      "num_input_tokens_seen": 578430992,
+      "step": 1273,
+      "train_runtime": 93222.962,
+      "train_tokens_per_second": 6204.812
+    },
+    {
+      "epoch": 1.542419054285417,
+      "grad_norm": 0.24541781842708588,
+      "learning_rate": 5e-06,
+      "loss": 0.9423,
+      "num_input_tokens_seen": 578870056,
+      "step": 1274,
+      "train_runtime": 93296.3282,
+      "train_tokens_per_second": 6204.639
+    },
+    {
+      "epoch": 1.5436298111030182,
+      "grad_norm": 0.24258604645729065,
+      "learning_rate": 5e-06,
+      "loss": 0.9238,
+      "num_input_tokens_seen": 579339008,
+      "step": 1275,
+      "train_runtime": 93375.0592,
+      "train_tokens_per_second": 6204.43
+    },
+    {
+      "epoch": 1.5448405679206196,
+      "grad_norm": 0.22991403937339783,
+      "learning_rate": 5e-06,
+      "loss": 0.9566,
+      "num_input_tokens_seen": 579793544,
+      "step": 1276,
+      "train_runtime": 93450.4826,
+      "train_tokens_per_second": 6204.286
+    },
+    {
+      "epoch": 1.546051324738221,
+      "grad_norm": 0.2381500005722046,
+      "learning_rate": 5e-06,
+      "loss": 0.9507,
+      "num_input_tokens_seen": 580233824,
+      "step": 1277,
+      "train_runtime": 93524.278,
+      "train_tokens_per_second": 6204.098
+    },
+    {
+      "epoch": 1.5472620815558225,
+      "grad_norm": 0.2665536105632782,
+      "learning_rate": 5e-06,
+      "loss": 0.9165,
+      "num_input_tokens_seen": 580681840,
+      "step": 1278,
+      "train_runtime": 93598.8728,
+      "train_tokens_per_second": 6203.941
+    },
+    {
+      "epoch": 1.5484728383734239,
+      "grad_norm": 0.25912097096443176,
+      "learning_rate": 5e-06,
+      "loss": 0.9159,
+      "num_input_tokens_seen": 581134808,
+      "step": 1279,
+      "train_runtime": 93674.4264,
+      "train_tokens_per_second": 6203.772
+    },
+    {
+      "epoch": 1.5496835951910253,
+      "grad_norm": 0.257059782743454,
+      "learning_rate": 5e-06,
+      "loss": 1.0082,
+      "num_input_tokens_seen": 581578592,
+      "step": 1280,
+      "train_runtime": 93748.5874,
+      "train_tokens_per_second": 6203.598
+    },
+    {
+      "epoch": 1.5508943520086267,
+      "grad_norm": 0.22761328518390656,
+      "learning_rate": 5e-06,
+      "loss": 0.918,
+      "num_input_tokens_seen": 582043576,
+      "step": 1281,
+      "train_runtime": 93826.8246,
+      "train_tokens_per_second": 6203.381
+    },
+    {
+      "epoch": 1.552105108826228,
+      "grad_norm": 0.23127709329128265,
+      "learning_rate": 5e-06,
+      "loss": 0.9535,
+      "num_input_tokens_seen": 582491064,
+      "step": 1282,
+      "train_runtime": 93900.1492,
+      "train_tokens_per_second": 6203.303
+    },
+    {
+      "epoch": 1.5533158656438295,
+      "grad_norm": 0.23334218561649323,
+      "learning_rate": 5e-06,
+      "loss": 0.9363,
+      "num_input_tokens_seen": 582943336,
+      "step": 1283,
+      "train_runtime": 93971.7767,
+      "train_tokens_per_second": 6203.387
+    },
+    {
+      "epoch": 1.554526622461431,
+      "grad_norm": 0.2526426613330841,
+      "learning_rate": 5e-06,
+      "loss": 0.9897,
+      "num_input_tokens_seen": 583387120,
+      "step": 1284,
+      "train_runtime": 94045.0911,
+      "train_tokens_per_second": 6203.27
+    },
+    {
+      "epoch": 1.555737379279032,
+      "grad_norm": 0.28767573833465576,
+      "learning_rate": 5e-06,
+      "loss": 0.9343,
+      "num_input_tokens_seen": 583846136,
+      "step": 1285,
+      "train_runtime": 94125.4895,
+      "train_tokens_per_second": 6202.848
+    },
+    {
+      "epoch": 1.5569481360966335,
+      "grad_norm": 0.22892381250858307,
+      "learning_rate": 5e-06,
+      "loss": 0.911,
+      "num_input_tokens_seen": 584283936,
+      "step": 1286,
+      "train_runtime": 94197.0686,
+      "train_tokens_per_second": 6202.783
+    },
+    {
+      "epoch": 1.558158892914235,
+      "grad_norm": 0.22896316647529602,
+      "learning_rate": 5e-06,
+      "loss": 0.9782,
+      "num_input_tokens_seen": 584742536,
+      "step": 1287,
+      "train_runtime": 94271.4579,
+      "train_tokens_per_second": 6202.753
+    },
+    {
+      "epoch": 1.5593696497318363,
+      "grad_norm": 0.2572176456451416,
+      "learning_rate": 5e-06,
+      "loss": 0.9574,
+      "num_input_tokens_seen": 585188088,
+      "step": 1288,
+      "train_runtime": 94344.216,
+      "train_tokens_per_second": 6202.692
+    },
+    {
+      "epoch": 1.5605804065494375,
+      "grad_norm": 0.23889631032943726,
+      "learning_rate": 5e-06,
+      "loss": 0.97,
+      "num_input_tokens_seen": 585653328,
+      "step": 1289,
+      "train_runtime": 94418.8519,
+      "train_tokens_per_second": 6202.716
+    },
+    {
+      "epoch": 1.561791163367039,
+      "grad_norm": 0.23102454841136932,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 586117272,
+      "step": 1290,
+      "train_runtime": 94493.2781,
+      "train_tokens_per_second": 6202.74
+    },
+    {
+      "epoch": 1.5630019201846403,
+      "grad_norm": 0.2229638695716858,
+      "learning_rate": 5e-06,
+      "loss": 0.8971,
+      "num_input_tokens_seen": 586549016,
+      "step": 1291,
+      "train_runtime": 94563.503,
+      "train_tokens_per_second": 6202.7
+    },
+    {
+      "epoch": 1.5642126770022418,
+      "grad_norm": 0.258696585893631,
+      "learning_rate": 5e-06,
+      "loss": 0.9113,
+      "num_input_tokens_seen": 587013368,
+      "step": 1292,
+      "train_runtime": 94641.4264,
+      "train_tokens_per_second": 6202.499
+    },
+    {
+      "epoch": 1.5654234338198432,
+      "grad_norm": 0.23761804401874542,
+      "learning_rate": 5e-06,
+      "loss": 0.8907,
+      "num_input_tokens_seen": 587491456,
+      "step": 1293,
+      "train_runtime": 94721.2593,
+      "train_tokens_per_second": 6202.319
+    },
+    {
+      "epoch": 1.5666341906374446,
+      "grad_norm": 0.24647028744220734,
+      "learning_rate": 5e-06,
+      "loss": 0.9741,
+      "num_input_tokens_seen": 587940688,
+      "step": 1294,
+      "train_runtime": 94794.5549,
+      "train_tokens_per_second": 6202.262
+    },
+    {
+      "epoch": 1.567844947455046,
+      "grad_norm": 0.2338888794183731,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 588396192,
+      "step": 1295,
+      "train_runtime": 94867.988,
+      "train_tokens_per_second": 6202.263
+    },
+    {
+      "epoch": 1.5690557042726474,
+      "grad_norm": 0.26478147506713867,
+      "learning_rate": 5e-06,
+      "loss": 0.9862,
+      "num_input_tokens_seen": 588832744,
+      "step": 1296,
+      "train_runtime": 94938.6055,
+      "train_tokens_per_second": 6202.248
+    },
+    {
+      "epoch": 1.5702664610902488,
+      "grad_norm": 0.23042112588882446,
+      "learning_rate": 5e-06,
+      "loss": 0.9421,
+      "num_input_tokens_seen": 589284472,
+      "step": 1297,
+      "train_runtime": 95011.311,
+      "train_tokens_per_second": 6202.256
+    },
+    {
+      "epoch": 1.5714772179078502,
+      "grad_norm": 0.2494785189628601,
+      "learning_rate": 5e-06,
+      "loss": 0.9467,
+      "num_input_tokens_seen": 589747536,
+      "step": 1298,
+      "train_runtime": 95086.1322,
+      "train_tokens_per_second": 6202.246
+    },
+    {
+      "epoch": 1.5726879747254514,
+      "grad_norm": 0.27761778235435486,
+      "learning_rate": 5e-06,
+      "loss": 0.9743,
+      "num_input_tokens_seen": 590193016,
+      "step": 1299,
+      "train_runtime": 95158.7332,
+      "train_tokens_per_second": 6202.195
+    },
+    {
+      "epoch": 1.5738987315430528,
+      "grad_norm": 0.2412542998790741,
+      "learning_rate": 5e-06,
+      "loss": 0.9015,
+      "num_input_tokens_seen": 590671280,
+      "step": 1300,
+      "train_runtime": 95236.6476,
+      "train_tokens_per_second": 6202.143
+    },
+    {
+      "epoch": 1.5751094883606542,
+      "grad_norm": 0.23688916862010956,
+      "learning_rate": 5e-06,
+      "loss": 0.9363,
+      "num_input_tokens_seen": 591150592,
+      "step": 1301,
+      "train_runtime": 95315.0789,
+      "train_tokens_per_second": 6202.068
+    },
+    {
+      "epoch": 1.5763202451782554,
+      "grad_norm": 0.2533585727214813,
+      "learning_rate": 5e-06,
+      "loss": 0.9026,
+      "num_input_tokens_seen": 591598136,
+      "step": 1302,
+      "train_runtime": 95388.7088,
+      "train_tokens_per_second": 6201.972
+    },
+    {
+      "epoch": 1.5775310019958568,
+      "grad_norm": 0.24774165451526642,
+      "learning_rate": 5e-06,
+      "loss": 0.9032,
+      "num_input_tokens_seen": 592054200,
+      "step": 1303,
+      "train_runtime": 95461.419,
+      "train_tokens_per_second": 6202.026
+    },
+    {
+      "epoch": 1.5787417588134582,
+      "grad_norm": 0.2428959310054779,
+      "learning_rate": 5e-06,
+      "loss": 0.926,
+      "num_input_tokens_seen": 592513824,
+      "step": 1304,
+      "train_runtime": 95532.3576,
+      "train_tokens_per_second": 6202.232
+    },
+    {
+      "epoch": 1.5799525156310597,
+      "grad_norm": 0.23670534789562225,
+      "learning_rate": 5e-06,
+      "loss": 0.9507,
+      "num_input_tokens_seen": 592975696,
+      "step": 1305,
+      "train_runtime": 95604.7535,
+      "train_tokens_per_second": 6202.366
+    },
+    {
+      "epoch": 1.581163272448661,
+      "grad_norm": 0.2287970781326294,
+      "learning_rate": 5e-06,
+      "loss": 0.881,
+      "num_input_tokens_seen": 593419968,
+      "step": 1306,
+      "train_runtime": 95673.7974,
+      "train_tokens_per_second": 6202.534
+    },
+    {
+      "epoch": 1.5823740292662625,
+      "grad_norm": 0.23797202110290527,
+      "learning_rate": 5e-06,
+      "loss": 0.9343,
+      "num_input_tokens_seen": 593882816,
+      "step": 1307,
+      "train_runtime": 95745.9131,
+      "train_tokens_per_second": 6202.696
+    },
+    {
+      "epoch": 1.5835847860838639,
+      "grad_norm": 0.24310339987277985,
+      "learning_rate": 5e-06,
+      "loss": 0.9403,
+      "num_input_tokens_seen": 594341808,
+      "step": 1308,
+      "train_runtime": 95817.2622,
+      "train_tokens_per_second": 6202.868
+    },
+    {
+      "epoch": 1.5847955429014653,
+      "grad_norm": 0.23264212906360626,
+      "learning_rate": 5e-06,
+      "loss": 0.9363,
+      "num_input_tokens_seen": 594811616,
+      "step": 1309,
+      "train_runtime": 95890.2989,
+      "train_tokens_per_second": 6203.043
+    },
+    {
+      "epoch": 1.5860062997190667,
+      "grad_norm": 0.2382027506828308,
+      "learning_rate": 5e-06,
+      "loss": 0.9259,
+      "num_input_tokens_seen": 595259352,
+      "step": 1310,
+      "train_runtime": 95960.1069,
+      "train_tokens_per_second": 6203.196
+    },
+    {
+      "epoch": 1.5872170565366681,
+      "grad_norm": 0.28391894698143005,
+      "learning_rate": 5e-06,
+      "loss": 0.9381,
+      "num_input_tokens_seen": 595731272,
+      "step": 1311,
+      "train_runtime": 96034.005,
+      "train_tokens_per_second": 6203.337
+    },
+    {
+      "epoch": 1.5884278133542693,
+      "grad_norm": 0.23430295288562775,
+      "learning_rate": 5e-06,
+      "loss": 0.9697,
+      "num_input_tokens_seen": 596173736,
+      "step": 1312,
+      "train_runtime": 96102.8369,
+      "train_tokens_per_second": 6203.498
+    },
+    {
+      "epoch": 1.5896385701718707,
+      "grad_norm": 0.22797590494155884,
+      "learning_rate": 5e-06,
+      "loss": 0.952,
+      "num_input_tokens_seen": 596637800,
+      "step": 1313,
+      "train_runtime": 96174.9195,
+      "train_tokens_per_second": 6203.674
+    },
+    {
+      "epoch": 1.5908493269894721,
+      "grad_norm": 0.23347218334674835,
+      "learning_rate": 5e-06,
+      "loss": 0.9375,
+      "num_input_tokens_seen": 597079384,
+      "step": 1314,
+      "train_runtime": 96243.2882,
+      "train_tokens_per_second": 6203.855
+    },
+    {
+      "epoch": 1.5920600838070733,
+      "grad_norm": 0.22693176567554474,
+      "learning_rate": 5e-06,
+      "loss": 0.9722,
+      "num_input_tokens_seen": 597547256,
+      "step": 1315,
+      "train_runtime": 96315.9975,
+      "train_tokens_per_second": 6204.029
+    },
+    {
+      "epoch": 1.5932708406246747,
+      "grad_norm": 0.2342706322669983,
+      "learning_rate": 5e-06,
+      "loss": 0.8936,
+      "num_input_tokens_seen": 598005224,
+      "step": 1316,
+      "train_runtime": 96387.5398,
+      "train_tokens_per_second": 6204.176
+    },
+    {
+      "epoch": 1.5944815974422761,
+      "grad_norm": 0.23413512110710144,
+      "learning_rate": 5e-06,
+      "loss": 0.9149,
+      "num_input_tokens_seen": 598458528,
+      "step": 1317,
+      "train_runtime": 96458.3878,
+      "train_tokens_per_second": 6204.318
+    },
+    {
+      "epoch": 1.5956923542598775,
+      "grad_norm": 0.2367754727602005,
+      "learning_rate": 5e-06,
+      "loss": 0.9854,
+      "num_input_tokens_seen": 598919008,
+      "step": 1318,
+      "train_runtime": 96530.1929,
+      "train_tokens_per_second": 6204.473
+    },
+    {
+      "epoch": 1.596903111077479,
+      "grad_norm": 0.23297631740570068,
+      "learning_rate": 5e-06,
+      "loss": 0.9285,
+      "num_input_tokens_seen": 599369792,
+      "step": 1319,
+      "train_runtime": 96600.1615,
+      "train_tokens_per_second": 6204.646
+    },
+    {
+      "epoch": 1.5981138678950804,
+      "grad_norm": 0.23420660197734833,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 599827040,
+      "step": 1320,
+      "train_runtime": 96672.0453,
+      "train_tokens_per_second": 6204.762
+    },
+    {
+      "epoch": 1.5993246247126818,
+      "grad_norm": 0.2214992493391037,
+      "learning_rate": 5e-06,
+      "loss": 0.9336,
+      "num_input_tokens_seen": 600298640,
+      "step": 1321,
+      "train_runtime": 96745.0125,
+      "train_tokens_per_second": 6204.957
+    },
+    {
+      "epoch": 1.6005353815302832,
+      "grad_norm": 0.23480089008808136,
+      "learning_rate": 5e-06,
+      "loss": 0.8738,
+      "num_input_tokens_seen": 600740872,
+      "step": 1322,
+      "train_runtime": 96813.8967,
+      "train_tokens_per_second": 6205.11
+    },
+    {
+      "epoch": 1.6017461383478846,
+      "grad_norm": 0.2521512508392334,
+      "learning_rate": 5e-06,
+      "loss": 0.9435,
+      "num_input_tokens_seen": 601197152,
+      "step": 1323,
+      "train_runtime": 96886.3997,
+      "train_tokens_per_second": 6205.176
+    },
+    {
+      "epoch": 1.602956895165486,
+      "grad_norm": 0.23057833313941956,
+      "learning_rate": 5e-06,
+      "loss": 0.9161,
+      "num_input_tokens_seen": 601645592,
+      "step": 1324,
+      "train_runtime": 96959.6364,
+      "train_tokens_per_second": 6205.114
+    },
+    {
+      "epoch": 1.6041676519830872,
+      "grad_norm": 0.27399954199790955,
+      "learning_rate": 5e-06,
+      "loss": 0.9229,
+      "num_input_tokens_seen": 602103456,
+      "step": 1325,
+      "train_runtime": 97034.3576,
+      "train_tokens_per_second": 6205.054
+    },
+    {
+      "epoch": 1.6053784088006886,
+      "grad_norm": 0.2807023823261261,
+      "learning_rate": 5e-06,
+      "loss": 0.9729,
+      "num_input_tokens_seen": 602557192,
+      "step": 1326,
+      "train_runtime": 97108.0688,
+      "train_tokens_per_second": 6205.017
+    },
+    {
+      "epoch": 1.60658916561829,
+      "grad_norm": 0.24586202204227448,
+      "learning_rate": 5e-06,
+      "loss": 0.9555,
+      "num_input_tokens_seen": 603006376,
+      "step": 1327,
+      "train_runtime": 97180.951,
+      "train_tokens_per_second": 6204.985
+    },
+    {
+      "epoch": 1.6077999224358914,
+      "grad_norm": 0.23183618485927582,
+      "learning_rate": 5e-06,
+      "loss": 0.9219,
+      "num_input_tokens_seen": 603457768,
+      "step": 1328,
+      "train_runtime": 97253.8889,
+      "train_tokens_per_second": 6204.973
+    },
+    {
+      "epoch": 1.6090106792534926,
+      "grad_norm": 0.24499334394931793,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 603904864,
+      "step": 1329,
+      "train_runtime": 97325.8918,
+      "train_tokens_per_second": 6204.976
+    },
+    {
+      "epoch": 1.610221436071094,
+      "grad_norm": 0.22572267055511475,
+      "learning_rate": 5e-06,
+      "loss": 0.9446,
+      "num_input_tokens_seen": 604368296,
+      "step": 1330,
+      "train_runtime": 97400.8104,
+      "train_tokens_per_second": 6204.962
+    },
+    {
+      "epoch": 1.6114321928886954,
+      "grad_norm": 0.24778367578983307,
+      "learning_rate": 5e-06,
+      "loss": 0.9465,
+      "num_input_tokens_seen": 604816744,
+      "step": 1331,
+      "train_runtime": 97472.976,
+      "train_tokens_per_second": 6204.968
+    },
+    {
+      "epoch": 1.6126429497062968,
+      "grad_norm": 0.23673632740974426,
+      "learning_rate": 5e-06,
+      "loss": 0.9609,
+      "num_input_tokens_seen": 605278760,
+      "step": 1332,
+      "train_runtime": 97548.1753,
+      "train_tokens_per_second": 6204.921
+    },
+    {
+      "epoch": 1.6138537065238983,
+      "grad_norm": 0.24265213310718536,
+      "learning_rate": 5e-06,
+      "loss": 1.009,
+      "num_input_tokens_seen": 605740240,
+      "step": 1333,
+      "train_runtime": 97623.1268,
+      "train_tokens_per_second": 6204.885
+    },
+    {
+      "epoch": 1.6150644633414997,
+      "grad_norm": 0.2499813735485077,
+      "learning_rate": 5e-06,
+      "loss": 0.906,
+      "num_input_tokens_seen": 606188040,
+      "step": 1334,
+      "train_runtime": 97695.6817,
+      "train_tokens_per_second": 6204.86
+    },
+    {
+      "epoch": 1.616275220159101,
+      "grad_norm": 0.23881113529205322,
+      "learning_rate": 5e-06,
+      "loss": 0.9569,
+      "num_input_tokens_seen": 606636736,
+      "step": 1335,
+      "train_runtime": 97768.0449,
+      "train_tokens_per_second": 6204.857
+    },
+    {
+      "epoch": 1.6174859769767025,
+      "grad_norm": 0.23513104021549225,
+      "learning_rate": 5e-06,
+      "loss": 0.9537,
+      "num_input_tokens_seen": 607085392,
+      "step": 1336,
+      "train_runtime": 97840.6583,
+      "train_tokens_per_second": 6204.838
+    },
+    {
+      "epoch": 1.618696733794304,
+      "grad_norm": 0.21942594647407532,
+      "learning_rate": 5e-06,
+      "loss": 0.9643,
+      "num_input_tokens_seen": 607566272,
+      "step": 1337,
+      "train_runtime": 97917.8238,
+      "train_tokens_per_second": 6204.859
+    },
+    {
+      "epoch": 1.6199074906119053,
+      "grad_norm": 0.24452783167362213,
+      "learning_rate": 5e-06,
+      "loss": 0.9954,
+      "num_input_tokens_seen": 608026592,
+      "step": 1338,
+      "train_runtime": 97992.107,
+      "train_tokens_per_second": 6204.853
+    },
+    {
+      "epoch": 1.6211182474295065,
+      "grad_norm": 0.2625705897808075,
+      "learning_rate": 5e-06,
+      "loss": 0.8922,
+      "num_input_tokens_seen": 608489800,
+      "step": 1339,
+      "train_runtime": 98064.8771,
+      "train_tokens_per_second": 6204.972
+    },
+    {
+      "epoch": 1.622329004247108,
+      "grad_norm": 0.23123782873153687,
+      "learning_rate": 5e-06,
+      "loss": 0.9478,
+      "num_input_tokens_seen": 608948792,
+      "step": 1340,
+      "train_runtime": 98137.5426,
+      "train_tokens_per_second": 6205.054
+    },
+    {
+      "epoch": 1.6235397610647093,
+      "grad_norm": 0.2373858541250229,
+      "learning_rate": 5e-06,
+      "loss": 0.9555,
+      "num_input_tokens_seen": 609387720,
+      "step": 1341,
+      "train_runtime": 98209.4854,
+      "train_tokens_per_second": 6204.978
+    },
+    {
+      "epoch": 1.6247505178823105,
+      "grad_norm": 0.26772409677505493,
+      "learning_rate": 5e-06,
+      "loss": 0.9705,
+      "num_input_tokens_seen": 609835256,
+      "step": 1342,
+      "train_runtime": 98283.6431,
+      "train_tokens_per_second": 6204.85
+    },
+    {
+      "epoch": 1.625961274699912,
+      "grad_norm": 0.26004475355148315,
+      "learning_rate": 5e-06,
+      "loss": 0.9613,
+      "num_input_tokens_seen": 610280952,
+      "step": 1343,
+      "train_runtime": 98357.4587,
+      "train_tokens_per_second": 6204.725
+    },
+    {
+      "epoch": 1.6271720315175133,
+      "grad_norm": 0.24032413959503174,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "num_input_tokens_seen": 610736608,
+      "step": 1344,
+      "train_runtime": 98432.191,
+      "train_tokens_per_second": 6204.643
+    },
+    {
+      "epoch": 1.6283827883351147,
+      "grad_norm": 0.24109645187854767,
+      "learning_rate": 5e-06,
+      "loss": 0.9083,
+      "num_input_tokens_seen": 611195912,
+      "step": 1345,
+      "train_runtime": 98507.5175,
+      "train_tokens_per_second": 6204.561
+    },
+    {
+      "epoch": 1.6295935451527161,
+      "grad_norm": 0.23913376033306122,
+      "learning_rate": 5e-06,
+      "loss": 0.9131,
+      "num_input_tokens_seen": 611621864,
+      "step": 1346,
+      "train_runtime": 98575.6226,
+      "train_tokens_per_second": 6204.595
+    },
+    {
+      "epoch": 1.6308043019703176,
+      "grad_norm": 0.23697420954704285,
+      "learning_rate": 5e-06,
+      "loss": 0.9913,
+      "num_input_tokens_seen": 612066184,
+      "step": 1347,
+      "train_runtime": 98646.9799,
+      "train_tokens_per_second": 6204.611
+    },
+    {
+      "epoch": 1.632015058787919,
+      "grad_norm": 0.23569026589393616,
+      "learning_rate": 5e-06,
+      "loss": 0.9095,
+      "num_input_tokens_seen": 612525336,
+      "step": 1348,
+      "train_runtime": 98721.3967,
+      "train_tokens_per_second": 6204.585
+    },
+    {
+      "epoch": 1.6332258156055204,
+      "grad_norm": 0.25485959649086,
+      "learning_rate": 5e-06,
+      "loss": 0.9833,
+      "num_input_tokens_seen": 612975160,
+      "step": 1349,
+      "train_runtime": 98800.9432,
+      "train_tokens_per_second": 6204.143
+    },
+    {
+      "epoch": 1.6344365724231218,
+      "grad_norm": 0.2503267228603363,
+      "learning_rate": 5e-06,
+      "loss": 0.939,
+      "num_input_tokens_seen": 613459824,
+      "step": 1350,
+      "train_runtime": 98884.1899,
+      "train_tokens_per_second": 6203.821
+    },
+    {
+      "epoch": 1.6356473292407232,
+      "grad_norm": 0.23752045631408691,
+      "learning_rate": 5e-06,
+      "loss": 0.91,
+      "num_input_tokens_seen": 613928136,
+      "step": 1351,
+      "train_runtime": 98962.7457,
+      "train_tokens_per_second": 6203.629
+    },
+    {
+      "epoch": 1.6368580860583244,
+      "grad_norm": 0.23110365867614746,
+      "learning_rate": 5e-06,
+      "loss": 0.9469,
+      "num_input_tokens_seen": 614374960,
+      "step": 1352,
+      "train_runtime": 99036.341,
+      "train_tokens_per_second": 6203.53
+    },
+    {
+      "epoch": 1.6380688428759258,
+      "grad_norm": 0.24777059257030487,
+      "learning_rate": 5e-06,
+      "loss": 0.9272,
+      "num_input_tokens_seen": 614823416,
+      "step": 1353,
+      "train_runtime": 99110.4637,
+      "train_tokens_per_second": 6203.416
+    },
+    {
+      "epoch": 1.6392795996935272,
+      "grad_norm": 0.23056265711784363,
+      "learning_rate": 5e-06,
+      "loss": 0.9341,
+      "num_input_tokens_seen": 615269264,
+      "step": 1354,
+      "train_runtime": 99177.7333,
+      "train_tokens_per_second": 6203.704
+    },
+    {
+      "epoch": 1.6404903565111284,
+      "grad_norm": 0.24137234687805176,
+      "learning_rate": 5e-06,
+      "loss": 0.9345,
+      "num_input_tokens_seen": 615705496,
+      "step": 1355,
+      "train_runtime": 99243.9752,
+      "train_tokens_per_second": 6203.958
+    },
+    {
+      "epoch": 1.6417011133287298,
+      "grad_norm": 0.25345325469970703,
+      "learning_rate": 5e-06,
+      "loss": 0.9613,
+      "num_input_tokens_seen": 616144368,
+      "step": 1356,
+      "train_runtime": 99309.7621,
+      "train_tokens_per_second": 6204.268
+    },
+    {
+      "epoch": 1.6429118701463312,
+      "grad_norm": 0.24765293300151825,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 616584824,
+      "step": 1357,
+      "train_runtime": 99376.1136,
+      "train_tokens_per_second": 6204.558
+    },
+    {
+      "epoch": 1.6441226269639326,
+      "grad_norm": 0.2568323612213135,
+      "learning_rate": 5e-06,
+      "loss": 0.9893,
+      "num_input_tokens_seen": 617024680,
+      "step": 1358,
+      "train_runtime": 99443.2364,
+      "train_tokens_per_second": 6204.793
+    },
+    {
+      "epoch": 1.645333383781534,
+      "grad_norm": 0.25249186158180237,
+      "learning_rate": 5e-06,
+      "loss": 0.9166,
+      "num_input_tokens_seen": 617471792,
+      "step": 1359,
+      "train_runtime": 99510.1824,
+      "train_tokens_per_second": 6205.112
+    },
+    {
+      "epoch": 1.6465441405991355,
+      "grad_norm": 0.2438102513551712,
+      "learning_rate": 5e-06,
+      "loss": 0.9972,
+      "num_input_tokens_seen": 617917968,
+      "step": 1360,
+      "train_runtime": 99576.8247,
+      "train_tokens_per_second": 6205.44
+    },
+    {
+      "epoch": 1.6477548974167369,
+      "grad_norm": 0.26252567768096924,
+      "learning_rate": 5e-06,
+      "loss": 0.9144,
+      "num_input_tokens_seen": 618372880,
+      "step": 1361,
+      "train_runtime": 99646.255,
+      "train_tokens_per_second": 6205.681
+    },
+    {
+      "epoch": 1.6489656542343383,
+      "grad_norm": 0.2307174950838089,
+      "learning_rate": 5e-06,
+      "loss": 0.9693,
+      "num_input_tokens_seen": 618825688,
+      "step": 1362,
+      "train_runtime": 99721.3775,
+      "train_tokens_per_second": 6205.547
+    },
+    {
+      "epoch": 1.6501764110519397,
+      "grad_norm": 0.23613497614860535,
+      "learning_rate": 5e-06,
+      "loss": 0.9993,
+      "num_input_tokens_seen": 619266920,
+      "step": 1363,
+      "train_runtime": 99794.2824,
+      "train_tokens_per_second": 6205.435
+    },
+    {
+      "epoch": 1.651387167869541,
+      "grad_norm": 0.2175440788269043,
+      "learning_rate": 5e-06,
+      "loss": 0.8754,
+      "num_input_tokens_seen": 619744360,
+      "step": 1364,
+      "train_runtime": 99875.7248,
+      "train_tokens_per_second": 6205.155
+    },
+    {
+      "epoch": 1.6525979246871423,
+      "grad_norm": 0.2543286681175232,
+      "learning_rate": 5e-06,
+      "loss": 1.0312,
+      "num_input_tokens_seen": 620200248,
+      "step": 1365,
+      "train_runtime": 99953.0201,
+      "train_tokens_per_second": 6204.918
+    },
+    {
+      "epoch": 1.6538086815047437,
+      "grad_norm": 0.23493343591690063,
+      "learning_rate": 5e-06,
+      "loss": 0.969,
+      "num_input_tokens_seen": 620661640,
+      "step": 1366,
+      "train_runtime": 100028.4666,
+      "train_tokens_per_second": 6204.85
+    },
+    {
+      "epoch": 1.655019438322345,
+      "grad_norm": 0.24430783092975616,
+      "learning_rate": 5e-06,
+      "loss": 0.9651,
+      "num_input_tokens_seen": 621103232,
+      "step": 1367,
+      "train_runtime": 100099.1989,
+      "train_tokens_per_second": 6204.877
+    },
+    {
+      "epoch": 1.6562301951399465,
+      "grad_norm": 0.24038319289684296,
+      "learning_rate": 5e-06,
+      "loss": 0.9906,
+      "num_input_tokens_seen": 621550880,
+      "step": 1368,
+      "train_runtime": 100170.4126,
+      "train_tokens_per_second": 6204.935
+    },
+    {
+      "epoch": 1.6574409519575477,
+      "grad_norm": 0.23617248237133026,
+      "learning_rate": 5e-06,
+      "loss": 0.943,
+      "num_input_tokens_seen": 621993640,
+      "step": 1369,
+      "train_runtime": 100240.8957,
+      "train_tokens_per_second": 6204.989
+    },
+    {
+      "epoch": 1.6586517087751491,
+      "grad_norm": 0.24460504949092865,
+      "learning_rate": 5e-06,
+      "loss": 0.9263,
+      "num_input_tokens_seen": 622454504,
+      "step": 1370,
+      "train_runtime": 100316.4623,
+      "train_tokens_per_second": 6204.909
+    },
+    {
+      "epoch": 1.6598624655927505,
+      "grad_norm": 0.24925386905670166,
+      "learning_rate": 5e-06,
+      "loss": 0.9425,
+      "num_input_tokens_seen": 622893320,
+      "step": 1371,
+      "train_runtime": 100387.8797,
+      "train_tokens_per_second": 6204.866
+    },
+    {
+      "epoch": 1.661073222410352,
+      "grad_norm": 0.2371699959039688,
+      "learning_rate": 5e-06,
+      "loss": 0.9302,
+      "num_input_tokens_seen": 623339984,
+      "step": 1372,
+      "train_runtime": 100461.2817,
+      "train_tokens_per_second": 6204.778
+    },
+    {
+      "epoch": 1.6622839792279533,
+      "grad_norm": 0.24603520333766937,
+      "learning_rate": 5e-06,
+      "loss": 0.9302,
+      "num_input_tokens_seen": 623800888,
+      "step": 1373,
+      "train_runtime": 100537.6306,
+      "train_tokens_per_second": 6204.651
+    },
+    {
+      "epoch": 1.6634947360455548,
+      "grad_norm": 0.23240868747234344,
+      "learning_rate": 5e-06,
+      "loss": 0.9293,
+      "num_input_tokens_seen": 624248528,
+      "step": 1374,
+      "train_runtime": 100611.4073,
+      "train_tokens_per_second": 6204.55
+    },
+    {
+      "epoch": 1.6647054928631562,
+      "grad_norm": 0.2440965324640274,
+      "learning_rate": 5e-06,
+      "loss": 0.9818,
+      "num_input_tokens_seen": 624694936,
+      "step": 1375,
+      "train_runtime": 100684.7425,
+      "train_tokens_per_second": 6204.465
+    },
+    {
+      "epoch": 1.6659162496807576,
+      "grad_norm": 0.24966219067573547,
+      "learning_rate": 5e-06,
+      "loss": 0.9338,
+      "num_input_tokens_seen": 625155168,
+      "step": 1376,
+      "train_runtime": 100770.2757,
+      "train_tokens_per_second": 6203.766
+    },
+    {
+      "epoch": 1.667127006498359,
+      "grad_norm": 0.24221491813659668,
+      "learning_rate": 5e-06,
+      "loss": 0.9025,
+      "num_input_tokens_seen": 625605080,
+      "step": 1377,
+      "train_runtime": 100845.271,
+      "train_tokens_per_second": 6203.613
+    },
+    {
+      "epoch": 1.6683377633159604,
+      "grad_norm": 0.23787087202072144,
+      "learning_rate": 5e-06,
+      "loss": 0.9104,
+      "num_input_tokens_seen": 626052144,
+      "step": 1378,
+      "train_runtime": 100919.6785,
+      "train_tokens_per_second": 6203.469
+    },
+    {
+      "epoch": 1.6695485201335616,
+      "grad_norm": 0.24397063255310059,
+      "learning_rate": 5e-06,
+      "loss": 0.9426,
+      "num_input_tokens_seen": 626534576,
+      "step": 1379,
+      "train_runtime": 100999.7059,
+      "train_tokens_per_second": 6203.331
+    },
+    {
+      "epoch": 1.670759276951163,
+      "grad_norm": 0.30004844069480896,
+      "learning_rate": 5e-06,
+      "loss": 0.9302,
+      "num_input_tokens_seen": 626990528,
+      "step": 1380,
+      "train_runtime": 101077.577,
+      "train_tokens_per_second": 6203.063
+    },
+    {
+      "epoch": 1.6719700337687644,
+      "grad_norm": 0.23161612451076508,
+      "learning_rate": 5e-06,
+      "loss": 0.9117,
+      "num_input_tokens_seen": 627444888,
+      "step": 1381,
+      "train_runtime": 101154.9535,
+      "train_tokens_per_second": 6202.809
+    },
+    {
+      "epoch": 1.6731807905863656,
+      "grad_norm": 0.29034850001335144,
+      "learning_rate": 5e-06,
+      "loss": 0.9122,
+      "num_input_tokens_seen": 627887600,
+      "step": 1382,
+      "train_runtime": 101230.0349,
+      "train_tokens_per_second": 6202.582
+    },
+    {
+      "epoch": 1.674391547403967,
+      "grad_norm": 0.23793677985668182,
+      "learning_rate": 5e-06,
+      "loss": 0.9402,
+      "num_input_tokens_seen": 628335968,
+      "step": 1383,
+      "train_runtime": 101305.9047,
+      "train_tokens_per_second": 6202.363
+    },
+    {
+      "epoch": 1.6756023042215684,
+      "grad_norm": 0.24347274005413055,
+      "learning_rate": 5e-06,
+      "loss": 0.9712,
+      "num_input_tokens_seen": 628770224,
+      "step": 1384,
+      "train_runtime": 101369.8627,
+      "train_tokens_per_second": 6202.733
+    },
+    {
+      "epoch": 1.6768130610391698,
+      "grad_norm": 0.26189595460891724,
+      "learning_rate": 5e-06,
+      "loss": 0.8935,
+      "num_input_tokens_seen": 629217368,
+      "step": 1385,
+      "train_runtime": 101436.0596,
+      "train_tokens_per_second": 6203.094
+    },
+    {
+      "epoch": 1.6780238178567712,
+      "grad_norm": 0.28286808729171753,
+      "learning_rate": 5e-06,
+      "loss": 0.9675,
+      "num_input_tokens_seen": 629651968,
+      "step": 1386,
+      "train_runtime": 101500.3426,
+      "train_tokens_per_second": 6203.447
+    },
+    {
+      "epoch": 1.6792345746743726,
+      "grad_norm": 0.24720792472362518,
+      "learning_rate": 5e-06,
+      "loss": 0.9567,
+      "num_input_tokens_seen": 630106888,
+      "step": 1387,
+      "train_runtime": 101567.8488,
+      "train_tokens_per_second": 6203.803
+    },
+    {
+      "epoch": 1.680445331491974,
+      "grad_norm": 0.2625053822994232,
+      "learning_rate": 5e-06,
+      "loss": 0.9209,
+      "num_input_tokens_seen": 630562680,
+      "step": 1388,
+      "train_runtime": 101638.1718,
+      "train_tokens_per_second": 6203.995
+    },
+    {
+      "epoch": 1.6816560883095755,
+      "grad_norm": 0.26049408316612244,
+      "learning_rate": 5e-06,
+      "loss": 1.0043,
+      "num_input_tokens_seen": 631017728,
+      "step": 1389,
+      "train_runtime": 101711.0478,
+      "train_tokens_per_second": 6204.023
+    },
+    {
+      "epoch": 1.6828668451271769,
+      "grad_norm": 0.24920783936977386,
+      "learning_rate": 5e-06,
+      "loss": 0.9278,
+      "num_input_tokens_seen": 631473184,
+      "step": 1390,
+      "train_runtime": 101784.6458,
+      "train_tokens_per_second": 6204.012
+    },
+    {
+      "epoch": 1.6840776019447783,
+      "grad_norm": 0.24204052984714508,
+      "learning_rate": 5e-06,
+      "loss": 0.8937,
+      "num_input_tokens_seen": 631926200,
+      "step": 1391,
+      "train_runtime": 101857.4628,
+      "train_tokens_per_second": 6204.025
+    },
+    {
+      "epoch": 1.6852883587623795,
+      "grad_norm": 0.27543655037879944,
+      "learning_rate": 5e-06,
+      "loss": 0.9788,
+      "num_input_tokens_seen": 632376624,
+      "step": 1392,
+      "train_runtime": 101931.1872,
+      "train_tokens_per_second": 6203.956
+    },
+    {
+      "epoch": 1.686499115579981,
+      "grad_norm": 0.24152293801307678,
+      "learning_rate": 5e-06,
+      "loss": 0.9632,
+      "num_input_tokens_seen": 632826048,
+      "step": 1393,
+      "train_runtime": 102004.9311,
+      "train_tokens_per_second": 6203.877
+    },
+    {
+      "epoch": 1.6877098723975823,
+      "grad_norm": 0.24093790352344513,
+      "learning_rate": 5e-06,
+      "loss": 0.9022,
+      "num_input_tokens_seen": 633294632,
+      "step": 1394,
+      "train_runtime": 102083.4824,
+      "train_tokens_per_second": 6203.693
+    },
+    {
+      "epoch": 1.6889206292151835,
+      "grad_norm": 0.23147398233413696,
+      "learning_rate": 5e-06,
+      "loss": 0.9156,
+      "num_input_tokens_seen": 633761776,
+      "step": 1395,
+      "train_runtime": 102161.3889,
+      "train_tokens_per_second": 6203.535
+    },
+    {
+      "epoch": 1.690131386032785,
+      "grad_norm": 0.23987317085266113,
+      "learning_rate": 5e-06,
+      "loss": 0.9063,
+      "num_input_tokens_seen": 634226504,
+      "step": 1396,
+      "train_runtime": 102238.2689,
+      "train_tokens_per_second": 6203.416
+    },
+    {
+      "epoch": 1.6913421428503863,
+      "grad_norm": 0.25991290807724,
+      "learning_rate": 5e-06,
+      "loss": 0.9713,
+      "num_input_tokens_seen": 634673344,
+      "step": 1397,
+      "train_runtime": 102309.0901,
+      "train_tokens_per_second": 6203.489
+    },
+    {
+      "epoch": 1.6925528996679877,
+      "grad_norm": 0.23085501790046692,
+      "learning_rate": 5e-06,
+      "loss": 0.8837,
+      "num_input_tokens_seen": 635118792,
+      "step": 1398,
+      "train_runtime": 102383.7557,
+      "train_tokens_per_second": 6203.316
+    },
+    {
+      "epoch": 1.6937636564855891,
+      "grad_norm": 0.2376517653465271,
+      "learning_rate": 5e-06,
+      "loss": 0.9406,
+      "num_input_tokens_seen": 635574264,
+      "step": 1399,
+      "train_runtime": 102459.5006,
+      "train_tokens_per_second": 6203.176
+    },
+    {
+      "epoch": 1.6949744133031905,
+      "grad_norm": 0.25487491488456726,
+      "learning_rate": 5e-06,
+      "loss": 0.9089,
+      "num_input_tokens_seen": 636022216,
+      "step": 1400,
+      "train_runtime": 102534.4322,
+      "train_tokens_per_second": 6203.011
+    },
+    {
+      "epoch": 1.696185170120792,
+      "grad_norm": 0.2450874000787735,
+      "learning_rate": 5e-06,
+      "loss": 0.9227,
+      "num_input_tokens_seen": 636462544,
+      "step": 1401,
+      "train_runtime": 102607.6137,
+      "train_tokens_per_second": 6202.878
+    },
+    {
+      "epoch": 1.6973959269383934,
+      "grad_norm": 0.24227704107761383,
+      "learning_rate": 5e-06,
+      "loss": 0.9495,
+      "num_input_tokens_seen": 636916136,
+      "step": 1402,
+      "train_runtime": 102683.0063,
+      "train_tokens_per_second": 6202.741
+    },
+    {
+      "epoch": 1.6986066837559948,
+      "grad_norm": 0.24646668136119843,
+      "learning_rate": 5e-06,
+      "loss": 0.9612,
+      "num_input_tokens_seen": 637349120,
+      "step": 1403,
+      "train_runtime": 102754.4934,
+      "train_tokens_per_second": 6202.64
+    },
+    {
+      "epoch": 1.6998174405735962,
+      "grad_norm": 0.23192055523395538,
+      "learning_rate": 5e-06,
+      "loss": 0.9195,
+      "num_input_tokens_seen": 637790064,
+      "step": 1404,
+      "train_runtime": 102827.9317,
+      "train_tokens_per_second": 6202.498
+    },
+    {
+      "epoch": 1.7010281973911974,
+      "grad_norm": 0.25445666909217834,
+      "learning_rate": 5e-06,
+      "loss": 0.9757,
+      "num_input_tokens_seen": 638259320,
+      "step": 1405,
+      "train_runtime": 102906.6087,
+      "train_tokens_per_second": 6202.316
+    },
+    {
+      "epoch": 1.7022389542087988,
+      "grad_norm": 0.23562908172607422,
+      "learning_rate": 5e-06,
+      "loss": 0.9021,
+      "num_input_tokens_seen": 638743376,
+      "step": 1406,
+      "train_runtime": 102987.9705,
+      "train_tokens_per_second": 6202.116
+    },
+    {
+      "epoch": 1.7034497110264002,
+      "grad_norm": 0.26519039273262024,
+      "learning_rate": 5e-06,
+      "loss": 0.943,
+      "num_input_tokens_seen": 639190488,
+      "step": 1407,
+      "train_runtime": 103062.2706,
+      "train_tokens_per_second": 6201.983
+    },
+    {
+      "epoch": 1.7046604678440016,
+      "grad_norm": 0.24398094415664673,
+      "learning_rate": 5e-06,
+      "loss": 0.9283,
+      "num_input_tokens_seen": 639643104,
+      "step": 1408,
+      "train_runtime": 103137.9381,
+      "train_tokens_per_second": 6201.822
+    },
+    {
+      "epoch": 1.7058712246616028,
+      "grad_norm": 0.2703668475151062,
+      "learning_rate": 5e-06,
+      "loss": 0.9343,
+      "num_input_tokens_seen": 640089040,
+      "step": 1409,
+      "train_runtime": 103211.4765,
+      "train_tokens_per_second": 6201.724
+    },
+    {
+      "epoch": 1.7070819814792042,
+      "grad_norm": 0.2557445168495178,
+      "learning_rate": 5e-06,
+      "loss": 0.9697,
+      "num_input_tokens_seen": 640528208,
+      "step": 1410,
+      "train_runtime": 103284.178,
+      "train_tokens_per_second": 6201.61
+    },
+    {
+      "epoch": 1.7082927382968056,
+      "grad_norm": 0.2544682025909424,
+      "learning_rate": 5e-06,
+      "loss": 0.9409,
+      "num_input_tokens_seen": 640986416,
+      "step": 1411,
+      "train_runtime": 103359.9486,
+      "train_tokens_per_second": 6201.497
+    },
+    {
+      "epoch": 1.709503495114407,
+      "grad_norm": 0.25841024518013,
+      "learning_rate": 5e-06,
+      "loss": 0.9823,
+      "num_input_tokens_seen": 641422048,
+      "step": 1412,
+      "train_runtime": 103430.0233,
+      "train_tokens_per_second": 6201.507
+    },
+    {
+      "epoch": 1.7107142519320084,
+      "grad_norm": 0.23430770635604858,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 641890512,
+      "step": 1413,
+      "train_runtime": 103504.2794,
+      "train_tokens_per_second": 6201.584
+    },
+    {
+      "epoch": 1.7119250087496098,
+      "grad_norm": 0.25403422117233276,
+      "learning_rate": 5e-06,
+      "loss": 0.9378,
+      "num_input_tokens_seen": 642351648,
+      "step": 1414,
+      "train_runtime": 103577.2489,
+      "train_tokens_per_second": 6201.667
+    },
+    {
+      "epoch": 1.7131357655672113,
+      "grad_norm": 0.22510449588298798,
+      "learning_rate": 5e-06,
+      "loss": 0.9182,
+      "num_input_tokens_seen": 642814728,
+      "step": 1415,
+      "train_runtime": 103650.3402,
+      "train_tokens_per_second": 6201.762
+    },
+    {
+      "epoch": 1.7143465223848127,
+      "grad_norm": 0.24203039705753326,
+      "learning_rate": 5e-06,
+      "loss": 0.9479,
+      "num_input_tokens_seen": 643279672,
+      "step": 1416,
+      "train_runtime": 103723.7474,
+      "train_tokens_per_second": 6201.855
+    },
+    {
+      "epoch": 1.715557279202414,
+      "grad_norm": 0.3101445436477661,
+      "learning_rate": 5e-06,
+      "loss": 0.9404,
+      "num_input_tokens_seen": 643718560,
+      "step": 1417,
+      "train_runtime": 103792.3388,
+      "train_tokens_per_second": 6201.985
+    },
+    {
+      "epoch": 1.7167680360200155,
+      "grad_norm": 0.23789572715759277,
+      "learning_rate": 5e-06,
+      "loss": 0.9216,
+      "num_input_tokens_seen": 644158072,
+      "step": 1418,
+      "train_runtime": 103864.8684,
+      "train_tokens_per_second": 6201.886
+    },
+    {
+      "epoch": 1.7179787928376167,
+      "grad_norm": 0.22444191575050354,
+      "learning_rate": 5e-06,
+      "loss": 0.887,
+      "num_input_tokens_seen": 644640400,
+      "step": 1419,
+      "train_runtime": 103943.7191,
+      "train_tokens_per_second": 6201.822
+    },
+    {
+      "epoch": 1.719189549655218,
+      "grad_norm": 0.24372327327728271,
+      "learning_rate": 5e-06,
+      "loss": 1.0014,
+      "num_input_tokens_seen": 645098072,
+      "step": 1420,
+      "train_runtime": 104019.5509,
+      "train_tokens_per_second": 6201.7
+    },
+    {
+      "epoch": 1.7204003064728195,
+      "grad_norm": 0.2408047616481781,
+      "learning_rate": 5e-06,
+      "loss": 0.9455,
+      "num_input_tokens_seen": 645547368,
+      "step": 1421,
+      "train_runtime": 104094.8084,
+      "train_tokens_per_second": 6201.533
+    },
+    {
+      "epoch": 1.7216110632904207,
+      "grad_norm": 0.23340767621994019,
+      "learning_rate": 5e-06,
+      "loss": 0.9614,
+      "num_input_tokens_seen": 646015000,
+      "step": 1422,
+      "train_runtime": 104173.3646,
+      "train_tokens_per_second": 6201.345
+    },
+    {
+      "epoch": 1.722821820108022,
+      "grad_norm": 0.24374446272850037,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 646457448,
+      "step": 1423,
+      "train_runtime": 104243.9382,
+      "train_tokens_per_second": 6201.391
+    },
+    {
+      "epoch": 1.7240325769256235,
+      "grad_norm": 0.2410658746957779,
+      "learning_rate": 5e-06,
+      "loss": 0.9503,
+      "num_input_tokens_seen": 646928080,
+      "step": 1424,
+      "train_runtime": 104319.3375,
+      "train_tokens_per_second": 6201.421
+    },
+    {
+      "epoch": 1.725243333743225,
+      "grad_norm": 0.26561877131462097,
+      "learning_rate": 5e-06,
+      "loss": 0.9843,
+      "num_input_tokens_seen": 647373424,
+      "step": 1425,
+      "train_runtime": 104390.2762,
+      "train_tokens_per_second": 6201.472
+    },
+    {
+      "epoch": 1.7264540905608263,
+      "grad_norm": 0.24555157124996185,
+      "learning_rate": 5e-06,
+      "loss": 0.9066,
+      "num_input_tokens_seen": 647839064,
+      "step": 1426,
+      "train_runtime": 104465.7848,
+      "train_tokens_per_second": 6201.447
+    },
+    {
+      "epoch": 1.7276648473784277,
+      "grad_norm": 0.26610177755355835,
+      "learning_rate": 5e-06,
+      "loss": 0.9413,
+      "num_input_tokens_seen": 648316536,
+      "step": 1427,
+      "train_runtime": 104544.7937,
+      "train_tokens_per_second": 6201.328
+    },
+    {
+      "epoch": 1.7288756041960291,
+      "grad_norm": 0.23927830159664154,
+      "learning_rate": 5e-06,
+      "loss": 0.9217,
+      "num_input_tokens_seen": 648750792,
+      "step": 1428,
+      "train_runtime": 104616.4109,
+      "train_tokens_per_second": 6201.234
+    },
+    {
+      "epoch": 1.7300863610136306,
+      "grad_norm": 0.2528975009918213,
+      "learning_rate": 5e-06,
+      "loss": 1.0172,
+      "num_input_tokens_seen": 649211056,
+      "step": 1429,
+      "train_runtime": 104691.6504,
+      "train_tokens_per_second": 6201.173
+    },
+    {
+      "epoch": 1.731297117831232,
+      "grad_norm": 0.24375270307064056,
+      "learning_rate": 5e-06,
+      "loss": 0.9071,
+      "num_input_tokens_seen": 649664160,
+      "step": 1430,
+      "train_runtime": 104761.4227,
+      "train_tokens_per_second": 6201.368
+    },
+    {
+      "epoch": 1.7325078746488334,
+      "grad_norm": 0.2401747703552246,
+      "learning_rate": 5e-06,
+      "loss": 0.9436,
+      "num_input_tokens_seen": 650120632,
+      "step": 1431,
+      "train_runtime": 104830.7549,
+      "train_tokens_per_second": 6201.621
+    },
+    {
+      "epoch": 1.7337186314664346,
+      "grad_norm": 0.2560153901576996,
+      "learning_rate": 5e-06,
+      "loss": 0.9562,
+      "num_input_tokens_seen": 650585600,
+      "step": 1432,
+      "train_runtime": 104901.1048,
+      "train_tokens_per_second": 6201.895
+    },
+    {
+      "epoch": 1.734929388284036,
+      "grad_norm": 0.22828106582164764,
+      "learning_rate": 5e-06,
+      "loss": 0.9867,
+      "num_input_tokens_seen": 651054272,
+      "step": 1433,
+      "train_runtime": 104971.5832,
+      "train_tokens_per_second": 6202.195
+    },
+    {
+      "epoch": 1.7361401451016374,
+      "grad_norm": 0.2554665207862854,
+      "learning_rate": 5e-06,
+      "loss": 0.9303,
+      "num_input_tokens_seen": 651531888,
+      "step": 1434,
+      "train_runtime": 105043.735,
+      "train_tokens_per_second": 6202.482
+    },
+    {
+      "epoch": 1.7373509019192386,
+      "grad_norm": 0.23532572388648987,
+      "learning_rate": 5e-06,
+      "loss": 0.9333,
+      "num_input_tokens_seen": 651989392,
+      "step": 1435,
+      "train_runtime": 105112.6174,
+      "train_tokens_per_second": 6202.77
+    },
+    {
+      "epoch": 1.73856165873684,
+      "grad_norm": 0.22667627036571503,
+      "learning_rate": 5e-06,
+      "loss": 0.8893,
+      "num_input_tokens_seen": 652450416,
+      "step": 1436,
+      "train_runtime": 105181.94,
+      "train_tokens_per_second": 6203.065
+    },
+    {
+      "epoch": 1.7397724155544414,
+      "grad_norm": 0.2507862150669098,
+      "learning_rate": 5e-06,
+      "loss": 0.966,
+      "num_input_tokens_seen": 652888200,
+      "step": 1437,
+      "train_runtime": 105248.017,
+      "train_tokens_per_second": 6203.33
+    },
+    {
+      "epoch": 1.7409831723720428,
+      "grad_norm": 0.23755121231079102,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 653353944,
+      "step": 1438,
+      "train_runtime": 105318.4006,
+      "train_tokens_per_second": 6203.607
+    },
+    {
+      "epoch": 1.7421939291896442,
+      "grad_norm": 0.25960105657577515,
+      "learning_rate": 5e-06,
+      "loss": 0.9615,
+      "num_input_tokens_seen": 653799776,
+      "step": 1439,
+      "train_runtime": 105385.6269,
+      "train_tokens_per_second": 6203.88
+    },
+    {
+      "epoch": 1.7434046860072456,
+      "grad_norm": 0.2501721680164337,
+      "learning_rate": 5e-06,
+      "loss": 0.961,
+      "num_input_tokens_seen": 654277144,
+      "step": 1440,
+      "train_runtime": 105457.5792,
+      "train_tokens_per_second": 6204.174
+    },
+    {
+      "epoch": 1.744615442824847,
+      "grad_norm": 0.26541006565093994,
+      "learning_rate": 5e-06,
+      "loss": 0.9524,
+      "num_input_tokens_seen": 654704176,
+      "step": 1441,
+      "train_runtime": 105521.9793,
+      "train_tokens_per_second": 6204.434
+    },
+    {
+      "epoch": 1.7458261996424485,
+      "grad_norm": 0.2498820275068283,
+      "learning_rate": 5e-06,
+      "loss": 0.9399,
+      "num_input_tokens_seen": 655154280,
+      "step": 1442,
+      "train_runtime": 105589.5581,
+      "train_tokens_per_second": 6204.726
+    },
+    {
+      "epoch": 1.7470369564600499,
+      "grad_norm": 0.2539311647415161,
+      "learning_rate": 5e-06,
+      "loss": 1.0376,
+      "num_input_tokens_seen": 655598176,
+      "step": 1443,
+      "train_runtime": 105656.176,
+      "train_tokens_per_second": 6205.015
+    },
+    {
+      "epoch": 1.7482477132776513,
+      "grad_norm": 0.2521834969520569,
+      "learning_rate": 5e-06,
+      "loss": 0.9695,
+      "num_input_tokens_seen": 656049168,
+      "step": 1444,
+      "train_runtime": 105724.1835,
+      "train_tokens_per_second": 6205.29
+    },
+    {
+      "epoch": 1.7494584700952525,
+      "grad_norm": 0.2886483073234558,
+      "learning_rate": 5e-06,
+      "loss": 0.9608,
+      "num_input_tokens_seen": 656492336,
+      "step": 1445,
+      "train_runtime": 105790.6709,
+      "train_tokens_per_second": 6205.579
+    },
+    {
+      "epoch": 1.7506692269128539,
+      "grad_norm": 0.2557690143585205,
+      "learning_rate": 5e-06,
+      "loss": 0.9915,
+      "num_input_tokens_seen": 656921264,
+      "step": 1446,
+      "train_runtime": 105855.2716,
+      "train_tokens_per_second": 6205.844
+    },
+    {
+      "epoch": 1.7518799837304553,
+      "grad_norm": 0.23341627418994904,
+      "learning_rate": 5e-06,
+      "loss": 0.956,
+      "num_input_tokens_seen": 657390344,
+      "step": 1447,
+      "train_runtime": 105925.7109,
+      "train_tokens_per_second": 6206.145
+    },
+    {
+      "epoch": 1.7530907405480567,
+      "grad_norm": 0.23532052338123322,
+      "learning_rate": 5e-06,
+      "loss": 0.9079,
+      "num_input_tokens_seen": 657845536,
+      "step": 1448,
+      "train_runtime": 105994.3759,
+      "train_tokens_per_second": 6206.419
+    },
+    {
+      "epoch": 1.7543014973656579,
+      "grad_norm": 0.2501102089881897,
+      "learning_rate": 5e-06,
+      "loss": 0.9369,
+      "num_input_tokens_seen": 658305072,
+      "step": 1449,
+      "train_runtime": 106063.849,
+      "train_tokens_per_second": 6206.687
+    },
+    {
+      "epoch": 1.7555122541832593,
+      "grad_norm": 0.22593450546264648,
+      "learning_rate": 5e-06,
+      "loss": 0.9144,
+      "num_input_tokens_seen": 658774152,
+      "step": 1450,
+      "train_runtime": 106134.342,
+      "train_tokens_per_second": 6206.984
+    },
+    {
+      "epoch": 1.7567230110008607,
+      "grad_norm": 0.23350222408771515,
+      "learning_rate": 5e-06,
+      "loss": 0.9024,
+      "num_input_tokens_seen": 659224576,
+      "step": 1451,
+      "train_runtime": 106201.8802,
+      "train_tokens_per_second": 6207.278
+    },
+    {
+      "epoch": 1.7579337678184621,
+      "grad_norm": 0.23016194999217987,
+      "learning_rate": 5e-06,
+      "loss": 0.9043,
+      "num_input_tokens_seen": 659686856,
+      "step": 1452,
+      "train_runtime": 106272.1954,
+      "train_tokens_per_second": 6207.521
+    },
+    {
+      "epoch": 1.7591445246360635,
+      "grad_norm": 0.21941740810871124,
+      "learning_rate": 5e-06,
+      "loss": 0.9029,
+      "num_input_tokens_seen": 660168448,
+      "step": 1453,
+      "train_runtime": 106345.1484,
+      "train_tokens_per_second": 6207.791
+    },
+    {
+      "epoch": 1.760355281453665,
+      "grad_norm": 0.2541714310646057,
+      "learning_rate": 5e-06,
+      "loss": 0.9459,
+      "num_input_tokens_seen": 660618064,
+      "step": 1454,
+      "train_runtime": 106413.9117,
+      "train_tokens_per_second": 6208.005
+    },
+    {
+      "epoch": 1.7615660382712663,
+      "grad_norm": 0.25230884552001953,
+      "learning_rate": 5e-06,
+      "loss": 0.9856,
+      "num_input_tokens_seen": 661060488,
+      "step": 1455,
+      "train_runtime": 106480.6042,
+      "train_tokens_per_second": 6208.271
+    },
+    {
+      "epoch": 1.7627767950888678,
+      "grad_norm": 0.23480939865112305,
+      "learning_rate": 5e-06,
+      "loss": 0.9658,
+      "num_input_tokens_seen": 661510016,
+      "step": 1456,
+      "train_runtime": 106547.8374,
+      "train_tokens_per_second": 6208.573
+    },
+    {
+      "epoch": 1.7639875519064692,
+      "grad_norm": 0.22851701080799103,
+      "learning_rate": 5e-06,
+      "loss": 0.9333,
+      "num_input_tokens_seen": 661986792,
+      "step": 1457,
+      "train_runtime": 106619.9306,
+      "train_tokens_per_second": 6208.847
+    },
+    {
+      "epoch": 1.7651983087240706,
+      "grad_norm": 0.24522744119167328,
+      "learning_rate": 5e-06,
+      "loss": 0.9374,
+      "num_input_tokens_seen": 662466720,
+      "step": 1458,
+      "train_runtime": 106692.684,
+      "train_tokens_per_second": 6209.111
+    },
+    {
+      "epoch": 1.7664090655416718,
+      "grad_norm": 0.2213152050971985,
+      "learning_rate": 5e-06,
+      "loss": 0.9099,
+      "num_input_tokens_seen": 662937560,
+      "step": 1459,
+      "train_runtime": 106763.8514,
+      "train_tokens_per_second": 6209.382
+    },
+    {
+      "epoch": 1.7676198223592732,
+      "grad_norm": 0.23350690305233002,
+      "learning_rate": 5e-06,
+      "loss": 0.9284,
+      "num_input_tokens_seen": 663389520,
+      "step": 1460,
+      "train_runtime": 106831.6837,
+      "train_tokens_per_second": 6209.67
+    },
+    {
+      "epoch": 1.7688305791768746,
+      "grad_norm": 0.26306286454200745,
+      "learning_rate": 5e-06,
+      "loss": 0.9014,
+      "num_input_tokens_seen": 663850792,
+      "step": 1461,
+      "train_runtime": 106901.4033,
+      "train_tokens_per_second": 6209.935
+    },
+    {
+      "epoch": 1.7700413359944758,
+      "grad_norm": 0.252805233001709,
+      "learning_rate": 5e-06,
+      "loss": 0.929,
+      "num_input_tokens_seen": 664298992,
+      "step": 1462,
+      "train_runtime": 106968.6773,
+      "train_tokens_per_second": 6210.22
+    },
+    {
+      "epoch": 1.7712520928120772,
+      "grad_norm": 0.25127750635147095,
+      "learning_rate": 5e-06,
+      "loss": 0.9607,
+      "num_input_tokens_seen": 664755584,
+      "step": 1463,
+      "train_runtime": 107037.4522,
+      "train_tokens_per_second": 6210.495
+    },
+    {
+      "epoch": 1.7724628496296786,
+      "grad_norm": 0.24411077797412872,
+      "learning_rate": 5e-06,
+      "loss": 0.882,
+      "num_input_tokens_seen": 665225728,
+      "step": 1464,
+      "train_runtime": 107108.6446,
+      "train_tokens_per_second": 6210.757
+    },
+    {
+      "epoch": 1.77367360644728,
+      "grad_norm": 0.25176945328712463,
+      "learning_rate": 5e-06,
+      "loss": 1.0087,
+      "num_input_tokens_seen": 665670928,
+      "step": 1465,
+      "train_runtime": 107175.8114,
+      "train_tokens_per_second": 6211.018
+    },
+    {
+      "epoch": 1.7748843632648814,
+      "grad_norm": 0.22492913901805878,
+      "learning_rate": 5e-06,
+      "loss": 0.9548,
+      "num_input_tokens_seen": 666145592,
+      "step": 1466,
+      "train_runtime": 107247.756,
+      "train_tokens_per_second": 6211.278
+    },
+    {
+      "epoch": 1.7760951200824828,
+      "grad_norm": 0.29126158356666565,
+      "learning_rate": 5e-06,
+      "loss": 0.9327,
+      "num_input_tokens_seen": 666623936,
+      "step": 1467,
+      "train_runtime": 107320.1773,
+      "train_tokens_per_second": 6211.543
+    },
+    {
+      "epoch": 1.7773058769000842,
+      "grad_norm": 0.2463548630475998,
+      "learning_rate": 5e-06,
+      "loss": 0.9628,
+      "num_input_tokens_seen": 667069528,
+      "step": 1468,
+      "train_runtime": 107387.3958,
+      "train_tokens_per_second": 6211.805
+    },
+    {
+      "epoch": 1.7785166337176856,
+      "grad_norm": 0.2515462040901184,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 667527784,
+      "step": 1469,
+      "train_runtime": 107456.5697,
+      "train_tokens_per_second": 6212.07
+    },
+    {
+      "epoch": 1.779727390535287,
+      "grad_norm": 0.24735090136528015,
+      "learning_rate": 5e-06,
+      "loss": 0.9324,
+      "num_input_tokens_seen": 668000200,
+      "step": 1470,
+      "train_runtime": 107528.1444,
+      "train_tokens_per_second": 6212.329
+    },
+    {
+      "epoch": 1.7809381473528885,
+      "grad_norm": 0.2488315999507904,
+      "learning_rate": 5e-06,
+      "loss": 0.9859,
+      "num_input_tokens_seen": 668449400,
+      "step": 1471,
+      "train_runtime": 107595.4881,
+      "train_tokens_per_second": 6212.616
+    },
+    {
+      "epoch": 1.7821489041704897,
+      "grad_norm": 0.22948361933231354,
+      "learning_rate": 5e-06,
+      "loss": 0.9246,
+      "num_input_tokens_seen": 668907592,
+      "step": 1472,
+      "train_runtime": 107664.6957,
+      "train_tokens_per_second": 6212.878
+    },
+    {
+      "epoch": 1.783359660988091,
+      "grad_norm": 0.30683404207229614,
+      "learning_rate": 5e-06,
+      "loss": 0.9441,
+      "num_input_tokens_seen": 669348744,
+      "step": 1473,
+      "train_runtime": 107730.9985,
+      "train_tokens_per_second": 6213.149
+    },
+    {
+      "epoch": 1.7845704178056925,
+      "grad_norm": 0.2653786242008209,
+      "learning_rate": 5e-06,
+      "loss": 0.9284,
+      "num_input_tokens_seen": 669793168,
+      "step": 1474,
+      "train_runtime": 107797.5952,
+      "train_tokens_per_second": 6213.433
+    },
+    {
+      "epoch": 1.7857811746232937,
+      "grad_norm": 0.23417231440544128,
+      "learning_rate": 5e-06,
+      "loss": 0.926,
+      "num_input_tokens_seen": 670254976,
+      "step": 1475,
+      "train_runtime": 107867.6938,
+      "train_tokens_per_second": 6213.677
+    },
+    {
+      "epoch": 1.786991931440895,
+      "grad_norm": 0.23506613075733185,
+      "learning_rate": 5e-06,
+      "loss": 0.976,
+      "num_input_tokens_seen": 670697576,
+      "step": 1476,
+      "train_runtime": 107934.2732,
+      "train_tokens_per_second": 6213.944
+    },
+    {
+      "epoch": 1.7882026882584965,
+      "grad_norm": 0.29338982701301575,
+      "learning_rate": 5e-06,
+      "loss": 0.9601,
+      "num_input_tokens_seen": 671162736,
+      "step": 1477,
+      "train_runtime": 108004.5346,
+      "train_tokens_per_second": 6214.209
+    },
+    {
+      "epoch": 1.789413445076098,
+      "grad_norm": 0.26886627078056335,
+      "learning_rate": 5e-06,
+      "loss": 0.8709,
+      "num_input_tokens_seen": 671637992,
+      "step": 1478,
+      "train_runtime": 108076.0457,
+      "train_tokens_per_second": 6214.495
+    },
+    {
+      "epoch": 1.7906242018936993,
+      "grad_norm": 0.23638774454593658,
+      "learning_rate": 5e-06,
+      "loss": 0.9029,
+      "num_input_tokens_seen": 672097800,
+      "step": 1479,
+      "train_runtime": 108145.3648,
+      "train_tokens_per_second": 6214.763
+    },
+    {
+      "epoch": 1.7918349587113007,
+      "grad_norm": 0.23951123654842377,
+      "learning_rate": 5e-06,
+      "loss": 0.9188,
+      "num_input_tokens_seen": 672551744,
+      "step": 1480,
+      "train_runtime": 108213.5008,
+      "train_tokens_per_second": 6215.045
+    },
+    {
+      "epoch": 1.7930457155289021,
+      "grad_norm": 0.2542056739330292,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 673008736,
+      "step": 1481,
+      "train_runtime": 108281.9707,
+      "train_tokens_per_second": 6215.335
+    },
+    {
+      "epoch": 1.7942564723465035,
+      "grad_norm": 0.2511388659477234,
+      "learning_rate": 5e-06,
+      "loss": 0.9082,
+      "num_input_tokens_seen": 673477648,
+      "step": 1482,
+      "train_runtime": 108351.7157,
+      "train_tokens_per_second": 6215.662
+    },
+    {
+      "epoch": 1.795467229164105,
+      "grad_norm": 0.23240311443805695,
+      "learning_rate": 5e-06,
+      "loss": 0.8896,
+      "num_input_tokens_seen": 673924456,
+      "step": 1483,
+      "train_runtime": 108417.5016,
+      "train_tokens_per_second": 6216.012
+    },
+    {
+      "epoch": 1.7966779859817064,
+      "grad_norm": 0.2410743683576584,
+      "learning_rate": 5e-06,
+      "loss": 0.9358,
+      "num_input_tokens_seen": 674378912,
+      "step": 1484,
+      "train_runtime": 108484.6044,
+      "train_tokens_per_second": 6216.356
+    },
+    {
+      "epoch": 1.7978887427993075,
+      "grad_norm": 0.2558565139770508,
+      "learning_rate": 5e-06,
+      "loss": 0.9506,
+      "num_input_tokens_seen": 674838040,
+      "step": 1485,
+      "train_runtime": 108552.0714,
+      "train_tokens_per_second": 6216.722
+    },
+    {
+      "epoch": 1.799099499616909,
+      "grad_norm": 0.2397555112838745,
+      "learning_rate": 5e-06,
+      "loss": 0.9175,
+      "num_input_tokens_seen": 675289776,
+      "step": 1486,
+      "train_runtime": 108618.7287,
+      "train_tokens_per_second": 6217.066
+    },
+    {
+      "epoch": 1.8003102564345104,
+      "grad_norm": 0.22383016347885132,
+      "learning_rate": 5e-06,
+      "loss": 0.9353,
+      "num_input_tokens_seen": 675747848,
+      "step": 1487,
+      "train_runtime": 108686.2897,
+      "train_tokens_per_second": 6217.416
+    },
+    {
+      "epoch": 1.8015210132521118,
+      "grad_norm": 0.2571597397327423,
+      "learning_rate": 5e-06,
+      "loss": 0.9263,
+      "num_input_tokens_seen": 676171288,
+      "step": 1488,
+      "train_runtime": 108748.7096,
+      "train_tokens_per_second": 6217.741
+    },
+    {
+      "epoch": 1.802731770069713,
+      "grad_norm": 0.25441011786460876,
+      "learning_rate": 5e-06,
+      "loss": 1.0048,
+      "num_input_tokens_seen": 676630424,
+      "step": 1489,
+      "train_runtime": 108816.6465,
+      "train_tokens_per_second": 6218.078
+    },
+    {
+      "epoch": 1.8039425268873144,
+      "grad_norm": 0.24836276471614838,
+      "learning_rate": 5e-06,
+      "loss": 0.9633,
+      "num_input_tokens_seen": 677067784,
+      "step": 1490,
+      "train_runtime": 108881.3096,
+      "train_tokens_per_second": 6218.402
+    },
+    {
+      "epoch": 1.8051532837049158,
+      "grad_norm": 0.24541418254375458,
+      "learning_rate": 5e-06,
+      "loss": 0.9088,
+      "num_input_tokens_seen": 677518960,
+      "step": 1491,
+      "train_runtime": 108948.056,
+      "train_tokens_per_second": 6218.734
+    },
+    {
+      "epoch": 1.8063640405225172,
+      "grad_norm": 0.2278079390525818,
+      "learning_rate": 5e-06,
+      "loss": 0.9275,
+      "num_input_tokens_seen": 677983656,
+      "step": 1492,
+      "train_runtime": 109016.4926,
+      "train_tokens_per_second": 6219.093
+    },
+    {
+      "epoch": 1.8075747973401186,
+      "grad_norm": 0.23876270651817322,
+      "learning_rate": 5e-06,
+      "loss": 0.926,
+      "num_input_tokens_seen": 678441648,
+      "step": 1493,
+      "train_runtime": 109083.9738,
+      "train_tokens_per_second": 6219.444
+    },
+    {
+      "epoch": 1.80878555415772,
+      "grad_norm": 0.25853845477104187,
+      "learning_rate": 5e-06,
+      "loss": 0.9695,
+      "num_input_tokens_seen": 678904952,
+      "step": 1494,
+      "train_runtime": 109152.4011,
+      "train_tokens_per_second": 6219.789
+    },
+    {
+      "epoch": 1.8099963109753214,
+      "grad_norm": 0.2297954559326172,
+      "learning_rate": 5e-06,
+      "loss": 0.8819,
+      "num_input_tokens_seen": 679350488,
+      "step": 1495,
+      "train_runtime": 109217.9803,
+      "train_tokens_per_second": 6220.134
+    },
+    {
+      "epoch": 1.8112070677929228,
+      "grad_norm": 0.2526834309101105,
+      "learning_rate": 5e-06,
+      "loss": 0.913,
+      "num_input_tokens_seen": 679804296,
+      "step": 1496,
+      "train_runtime": 109285.0115,
+      "train_tokens_per_second": 6220.471
+    },
+    {
+      "epoch": 1.8124178246105243,
+      "grad_norm": 0.25374501943588257,
+      "learning_rate": 5e-06,
+      "loss": 0.9266,
+      "num_input_tokens_seen": 680253888,
+      "step": 1497,
+      "train_runtime": 109351.4643,
+      "train_tokens_per_second": 6220.803
+    },
+    {
+      "epoch": 1.8136285814281257,
+      "grad_norm": 0.25926515460014343,
+      "learning_rate": 5e-06,
+      "loss": 0.9747,
+      "num_input_tokens_seen": 680706808,
+      "step": 1498,
+      "train_runtime": 109417.9756,
+      "train_tokens_per_second": 6221.161
+    },
+    {
+      "epoch": 1.8148393382457269,
+      "grad_norm": 0.24243789911270142,
+      "learning_rate": 5e-06,
+      "loss": 0.8814,
+      "num_input_tokens_seen": 681162152,
+      "step": 1499,
+      "train_runtime": 109485.1447,
+      "train_tokens_per_second": 6221.503
+    },
+    {
+      "epoch": 1.8160500950633283,
+      "grad_norm": 0.23476150631904602,
+      "learning_rate": 5e-06,
+      "loss": 0.8957,
+      "num_input_tokens_seen": 681594912,
+      "step": 1500,
+      "train_runtime": 109548.882,
+      "train_tokens_per_second": 6221.834
+    },
+    {
+      "epoch": 1.8172608518809297,
+      "grad_norm": 0.23926031589508057,
+      "learning_rate": 5e-06,
+      "loss": 0.9437,
+      "num_input_tokens_seen": 682050248,
+      "step": 1501,
+      "train_runtime": 109615.8898,
+      "train_tokens_per_second": 6222.184
+    },
+    {
+      "epoch": 1.8184716086985309,
+      "grad_norm": 0.23174121975898743,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 682487560,
+      "step": 1502,
+      "train_runtime": 109680.61,
+      "train_tokens_per_second": 6222.5
+    },
+    {
+      "epoch": 1.8196823655161323,
+      "grad_norm": 0.23543839156627655,
+      "learning_rate": 5e-06,
+      "loss": 0.9421,
+      "num_input_tokens_seen": 682928504,
+      "step": 1503,
+      "train_runtime": 109745.5472,
+      "train_tokens_per_second": 6222.836
+    },
+    {
+      "epoch": 1.8208931223337337,
+      "grad_norm": 0.2303183227777481,
+      "learning_rate": 5e-06,
+      "loss": 0.9095,
+      "num_input_tokens_seen": 683379408,
+      "step": 1504,
+      "train_runtime": 109812.3345,
+      "train_tokens_per_second": 6223.157
+    },
+    {
+      "epoch": 1.822103879151335,
+      "grad_norm": 0.24201270937919617,
+      "learning_rate": 5e-06,
+      "loss": 0.9532,
+      "num_input_tokens_seen": 683828072,
+      "step": 1505,
+      "train_runtime": 109878.4824,
+      "train_tokens_per_second": 6223.494
+    },
+    {
+      "epoch": 1.8233146359689365,
+      "grad_norm": 0.24431242048740387,
+      "learning_rate": 5e-06,
+      "loss": 0.967,
+      "num_input_tokens_seen": 684271776,
+      "step": 1506,
+      "train_runtime": 109945.1488,
+      "train_tokens_per_second": 6223.756
+    },
+    {
+      "epoch": 1.824525392786538,
+      "grad_norm": 0.24904708564281464,
+      "learning_rate": 5e-06,
+      "loss": 0.9425,
+      "num_input_tokens_seen": 684713936,
+      "step": 1507,
+      "train_runtime": 110011.8091,
+      "train_tokens_per_second": 6224.004
+    },
+    {
+      "epoch": 1.8257361496041393,
+      "grad_norm": 0.24164269864559174,
+      "learning_rate": 5e-06,
+      "loss": 0.9442,
+      "num_input_tokens_seen": 685180664,
+      "step": 1508,
+      "train_runtime": 110080.6343,
+      "train_tokens_per_second": 6224.352
+    },
+    {
+      "epoch": 1.8269469064217407,
+      "grad_norm": 0.23471519351005554,
+      "learning_rate": 5e-06,
+      "loss": 0.9217,
+      "num_input_tokens_seen": 685664952,
+      "step": 1509,
+      "train_runtime": 110151.978,
+      "train_tokens_per_second": 6224.718
+    },
+    {
+      "epoch": 1.8281576632393421,
+      "grad_norm": 0.22866208851337433,
+      "learning_rate": 5e-06,
+      "loss": 0.9515,
+      "num_input_tokens_seen": 686116056,
+      "step": 1510,
+      "train_runtime": 110217.8911,
+      "train_tokens_per_second": 6225.088
+    },
+    {
+      "epoch": 1.8293684200569436,
+      "grad_norm": 0.24192233383655548,
+      "learning_rate": 5e-06,
+      "loss": 0.8977,
+      "num_input_tokens_seen": 686558696,
+      "step": 1511,
+      "train_runtime": 110283.5539,
+      "train_tokens_per_second": 6225.395
+    },
+    {
+      "epoch": 1.8305791768745447,
+      "grad_norm": 0.2574458718299866,
+      "learning_rate": 5e-06,
+      "loss": 0.9646,
+      "num_input_tokens_seen": 687040920,
+      "step": 1512,
+      "train_runtime": 110355.252,
+      "train_tokens_per_second": 6225.72
+    },
+    {
+      "epoch": 1.8317899336921462,
+      "grad_norm": 0.23180226981639862,
+      "learning_rate": 5e-06,
+      "loss": 0.9015,
+      "num_input_tokens_seen": 687491464,
+      "step": 1513,
+      "train_runtime": 110421.6831,
+      "train_tokens_per_second": 6226.055
+    },
+    {
+      "epoch": 1.8330006905097476,
+      "grad_norm": 0.2546160817146301,
+      "learning_rate": 5e-06,
+      "loss": 0.9606,
+      "num_input_tokens_seen": 687938040,
+      "step": 1514,
+      "train_runtime": 110487.8498,
+      "train_tokens_per_second": 6226.368
+    },
+    {
+      "epoch": 1.8342114473273488,
+      "grad_norm": 0.2605888545513153,
+      "learning_rate": 5e-06,
+      "loss": 0.9774,
+      "num_input_tokens_seen": 688393944,
+      "step": 1515,
+      "train_runtime": 110554.8225,
+      "train_tokens_per_second": 6226.72
+    },
+    {
+      "epoch": 1.8354222041449502,
+      "grad_norm": 0.24372106790542603,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 688853280,
+      "step": 1516,
+      "train_runtime": 110623.2037,
+      "train_tokens_per_second": 6227.023
+    },
+    {
+      "epoch": 1.8366329609625516,
+      "grad_norm": 0.2518022656440735,
+      "learning_rate": 5e-06,
+      "loss": 0.9911,
+      "num_input_tokens_seen": 689322800,
+      "step": 1517,
+      "train_runtime": 110692.3372,
+      "train_tokens_per_second": 6227.376
+    },
+    {
+      "epoch": 1.837843717780153,
+      "grad_norm": 0.2612314522266388,
+      "learning_rate": 5e-06,
+      "loss": 0.9543,
+      "num_input_tokens_seen": 689766792,
+      "step": 1518,
+      "train_runtime": 110757.7501,
+      "train_tokens_per_second": 6227.707
+    },
+    {
+      "epoch": 1.8390544745977544,
+      "grad_norm": 0.2807573974132538,
+      "learning_rate": 5e-06,
+      "loss": 0.9692,
+      "num_input_tokens_seen": 690187168,
+      "step": 1519,
+      "train_runtime": 110819.3816,
+      "train_tokens_per_second": 6228.037
+    },
+    {
+      "epoch": 1.8402652314153558,
+      "grad_norm": 0.24547508358955383,
+      "learning_rate": 5e-06,
+      "loss": 0.8983,
+      "num_input_tokens_seen": 690622672,
+      "step": 1520,
+      "train_runtime": 110883.3109,
+      "train_tokens_per_second": 6228.373
+    },
+    {
+      "epoch": 1.8414759882329572,
+      "grad_norm": 0.25869348645210266,
+      "learning_rate": 5e-06,
+      "loss": 0.9573,
+      "num_input_tokens_seen": 691070096,
+      "step": 1521,
+      "train_runtime": 110949.2534,
+      "train_tokens_per_second": 6228.704
+    },
+    {
+      "epoch": 1.8426867450505586,
+      "grad_norm": 0.2718667685985565,
+      "learning_rate": 5e-06,
+      "loss": 0.943,
+      "num_input_tokens_seen": 691528656,
+      "step": 1522,
+      "train_runtime": 111016.9813,
+      "train_tokens_per_second": 6229.035
+    },
+    {
+      "epoch": 1.84389750186816,
+      "grad_norm": 0.23198598623275757,
+      "learning_rate": 5e-06,
+      "loss": 0.9308,
+      "num_input_tokens_seen": 692005376,
+      "step": 1523,
+      "train_runtime": 111087.076,
+      "train_tokens_per_second": 6229.396
+    },
+    {
+      "epoch": 1.8451082586857614,
+      "grad_norm": 0.2525101602077484,
+      "learning_rate": 5e-06,
+      "loss": 0.9888,
+      "num_input_tokens_seen": 692443744,
+      "step": 1524,
+      "train_runtime": 111151.9146,
+      "train_tokens_per_second": 6229.706
+    },
+    {
+      "epoch": 1.8463190155033626,
+      "grad_norm": 0.24284860491752625,
+      "learning_rate": 5e-06,
+      "loss": 0.9236,
+      "num_input_tokens_seen": 692903640,
+      "step": 1525,
+      "train_runtime": 111219.6955,
+      "train_tokens_per_second": 6230.044
+    },
+    {
+      "epoch": 1.847529772320964,
+      "grad_norm": 0.2588494122028351,
+      "learning_rate": 5e-06,
+      "loss": 0.9442,
+      "num_input_tokens_seen": 693364616,
+      "step": 1526,
+      "train_runtime": 111287.6738,
+      "train_tokens_per_second": 6230.381
+    },
+    {
+      "epoch": 1.8487405291385655,
+      "grad_norm": 0.25384098291397095,
+      "learning_rate": 5e-06,
+      "loss": 0.9606,
+      "num_input_tokens_seen": 693820112,
+      "step": 1527,
+      "train_runtime": 111355.0786,
+      "train_tokens_per_second": 6230.7
+    },
+    {
+      "epoch": 1.8499512859561669,
+      "grad_norm": 0.23675884306430817,
+      "learning_rate": 5e-06,
+      "loss": 0.9327,
+      "num_input_tokens_seen": 694280840,
+      "step": 1528,
+      "train_runtime": 111423.4256,
+      "train_tokens_per_second": 6231.013
+    },
+    {
+      "epoch": 1.851162042773768,
+      "grad_norm": 0.2325180619955063,
+      "learning_rate": 5e-06,
+      "loss": 0.9156,
+      "num_input_tokens_seen": 694738776,
+      "step": 1529,
+      "train_runtime": 111490.9224,
+      "train_tokens_per_second": 6231.348
+    },
+    {
+      "epoch": 1.8523727995913695,
+      "grad_norm": 0.25472497940063477,
+      "learning_rate": 5e-06,
+      "loss": 0.9057,
+      "num_input_tokens_seen": 695188272,
+      "step": 1530,
+      "train_runtime": 111557.6013,
+      "train_tokens_per_second": 6231.653
+    },
+    {
+      "epoch": 1.8535835564089709,
+      "grad_norm": 0.23478816449642181,
+      "learning_rate": 5e-06,
+      "loss": 0.8944,
+      "num_input_tokens_seen": 695623080,
+      "step": 1531,
+      "train_runtime": 111621.743,
+      "train_tokens_per_second": 6231.968
+    },
+    {
+      "epoch": 1.8547943132265723,
+      "grad_norm": 0.2601574659347534,
+      "learning_rate": 5e-06,
+      "loss": 0.9208,
+      "num_input_tokens_seen": 696081624,
+      "step": 1532,
+      "train_runtime": 111689.1774,
+      "train_tokens_per_second": 6232.31
+    },
+    {
+      "epoch": 1.8560050700441737,
+      "grad_norm": 0.26812466979026794,
+      "learning_rate": 5e-06,
+      "loss": 0.9187,
+      "num_input_tokens_seen": 696557776,
+      "step": 1533,
+      "train_runtime": 111759.787,
+      "train_tokens_per_second": 6232.633
+    },
+    {
+      "epoch": 1.857215826861775,
+      "grad_norm": 0.28780001401901245,
+      "learning_rate": 5e-06,
+      "loss": 0.8971,
+      "num_input_tokens_seen": 697024808,
+      "step": 1534,
+      "train_runtime": 111828.8573,
+      "train_tokens_per_second": 6232.96
+    },
+    {
+      "epoch": 1.8584265836793765,
+      "grad_norm": 0.23128759860992432,
+      "learning_rate": 5e-06,
+      "loss": 0.9624,
+      "num_input_tokens_seen": 697506680,
+      "step": 1535,
+      "train_runtime": 111899.9207,
+      "train_tokens_per_second": 6233.308
+    },
+    {
+      "epoch": 1.859637340496978,
+      "grad_norm": 0.2368602603673935,
+      "learning_rate": 5e-06,
+      "loss": 0.9405,
+      "num_input_tokens_seen": 697965088,
+      "step": 1536,
+      "train_runtime": 111967.9468,
+      "train_tokens_per_second": 6233.615
+    },
+    {
+      "epoch": 1.8608480973145793,
+      "grad_norm": 0.24492254853248596,
+      "learning_rate": 5e-06,
+      "loss": 0.9242,
+      "num_input_tokens_seen": 698401104,
+      "step": 1537,
+      "train_runtime": 112032.4048,
+      "train_tokens_per_second": 6233.92
+    },
+    {
+      "epoch": 1.8620588541321808,
+      "grad_norm": 0.26115724444389343,
+      "learning_rate": 5e-06,
+      "loss": 0.9314,
+      "num_input_tokens_seen": 698857392,
+      "step": 1538,
+      "train_runtime": 112100.3102,
+      "train_tokens_per_second": 6234.215
+    },
+    {
+      "epoch": 1.863269610949782,
+      "grad_norm": 0.23800967633724213,
+      "learning_rate": 5e-06,
+      "loss": 0.9329,
+      "num_input_tokens_seen": 699332608,
+      "step": 1539,
+      "train_runtime": 112170.2291,
+      "train_tokens_per_second": 6234.565
+    },
+    {
+      "epoch": 1.8644803677673834,
+      "grad_norm": 0.2537146210670471,
+      "learning_rate": 5e-06,
+      "loss": 0.9345,
+      "num_input_tokens_seen": 699789840,
+      "step": 1540,
+      "train_runtime": 112238.3256,
+      "train_tokens_per_second": 6234.856
+    },
+    {
+      "epoch": 1.8656911245849848,
+      "grad_norm": 0.23815041780471802,
+      "learning_rate": 5e-06,
+      "loss": 0.9216,
+      "num_input_tokens_seen": 700250208,
+      "step": 1541,
+      "train_runtime": 112306.045,
+      "train_tokens_per_second": 6235.196
+    },
+    {
+      "epoch": 1.866901881402586,
+      "grad_norm": 0.2275908887386322,
+      "learning_rate": 5e-06,
+      "loss": 0.9289,
+      "num_input_tokens_seen": 700706192,
+      "step": 1542,
+      "train_runtime": 112373.3647,
+      "train_tokens_per_second": 6235.518
+    },
+    {
+      "epoch": 1.8681126382201874,
+      "grad_norm": 0.24416327476501465,
+      "learning_rate": 5e-06,
+      "loss": 0.9387,
+      "num_input_tokens_seen": 701172296,
+      "step": 1543,
+      "train_runtime": 112441.8,
+      "train_tokens_per_second": 6235.869
+    },
+    {
+      "epoch": 1.8693233950377888,
+      "grad_norm": 0.23080092668533325,
+      "learning_rate": 5e-06,
+      "loss": 0.8832,
+      "num_input_tokens_seen": 701636096,
+      "step": 1544,
+      "train_runtime": 112510.6891,
+      "train_tokens_per_second": 6236.173
+    },
+    {
+      "epoch": 1.8705341518553902,
+      "grad_norm": 0.2627670466899872,
+      "learning_rate": 5e-06,
+      "loss": 0.9469,
+      "num_input_tokens_seen": 702085912,
+      "step": 1545,
+      "train_runtime": 112577.5052,
+      "train_tokens_per_second": 6236.467
+    },
+    {
+      "epoch": 1.8717449086729916,
+      "grad_norm": 0.2511466145515442,
+      "learning_rate": 5e-06,
+      "loss": 0.914,
+      "num_input_tokens_seen": 702549976,
+      "step": 1546,
+      "train_runtime": 112645.979,
+      "train_tokens_per_second": 6236.796
+    },
+    {
+      "epoch": 1.872955665490593,
+      "grad_norm": 0.23643608391284943,
+      "learning_rate": 5e-06,
+      "loss": 0.9381,
+      "num_input_tokens_seen": 703007240,
+      "step": 1547,
+      "train_runtime": 112713.4614,
+      "train_tokens_per_second": 6237.119
+    },
+    {
+      "epoch": 1.8741664223081944,
+      "grad_norm": 0.2743590474128723,
+      "learning_rate": 5e-06,
+      "loss": 1.048,
+      "num_input_tokens_seen": 703458040,
+      "step": 1548,
+      "train_runtime": 112779.5769,
+      "train_tokens_per_second": 6237.459
+    },
+    {
+      "epoch": 1.8753771791257958,
+      "grad_norm": 0.2364722192287445,
+      "learning_rate": 5e-06,
+      "loss": 0.9382,
+      "num_input_tokens_seen": 703914896,
+      "step": 1549,
+      "train_runtime": 112846.9643,
+      "train_tokens_per_second": 6237.783
+    },
+    {
+      "epoch": 1.8765879359433972,
+      "grad_norm": 0.23627513647079468,
+      "learning_rate": 5e-06,
+      "loss": 0.9412,
+      "num_input_tokens_seen": 704351776,
+      "step": 1550,
+      "train_runtime": 112911.1758,
+      "train_tokens_per_second": 6238.105
+    },
+    {
+      "epoch": 1.8777986927609986,
+      "grad_norm": 0.2537660002708435,
+      "learning_rate": 5e-06,
+      "loss": 0.9351,
+      "num_input_tokens_seen": 704778064,
+      "step": 1551,
+      "train_runtime": 112973.6432,
+      "train_tokens_per_second": 6238.429
+    },
+    {
+      "epoch": 1.8790094495785998,
+      "grad_norm": 0.2588886022567749,
+      "learning_rate": 5e-06,
+      "loss": 0.9646,
+      "num_input_tokens_seen": 705228264,
+      "step": 1552,
+      "train_runtime": 113040.2615,
+      "train_tokens_per_second": 6238.735
+    },
+    {
+      "epoch": 1.8802202063962012,
+      "grad_norm": 0.24146287143230438,
+      "learning_rate": 5e-06,
+      "loss": 0.8843,
+      "num_input_tokens_seen": 705664728,
+      "step": 1553,
+      "train_runtime": 113105.0242,
+      "train_tokens_per_second": 6239.022
+    },
+    {
+      "epoch": 1.8814309632138027,
+      "grad_norm": 0.2611408233642578,
+      "learning_rate": 5e-06,
+      "loss": 0.9507,
+      "num_input_tokens_seen": 706140544,
+      "step": 1554,
+      "train_runtime": 113175.4725,
+      "train_tokens_per_second": 6239.343
+    },
+    {
+      "epoch": 1.8826417200314038,
+      "grad_norm": 0.24252241849899292,
+      "learning_rate": 5e-06,
+      "loss": 0.8965,
+      "num_input_tokens_seen": 706584696,
+      "step": 1555,
+      "train_runtime": 113240.9269,
+      "train_tokens_per_second": 6239.658
+    },
+    {
+      "epoch": 1.8838524768490053,
+      "grad_norm": 0.24674955010414124,
+      "learning_rate": 5e-06,
+      "loss": 0.9562,
+      "num_input_tokens_seen": 707041752,
+      "step": 1556,
+      "train_runtime": 113308.1873,
+      "train_tokens_per_second": 6239.988
+    },
+    {
+      "epoch": 1.8850632336666067,
+      "grad_norm": 0.2411464899778366,
+      "learning_rate": 5e-06,
+      "loss": 0.9625,
+      "num_input_tokens_seen": 707509880,
+      "step": 1557,
+      "train_runtime": 113377.0087,
+      "train_tokens_per_second": 6240.329
+    },
+    {
+      "epoch": 1.886273990484208,
+      "grad_norm": 0.24759581685066223,
+      "learning_rate": 5e-06,
+      "loss": 0.9369,
+      "num_input_tokens_seen": 707976528,
+      "step": 1558,
+      "train_runtime": 113445.9329,
+      "train_tokens_per_second": 6240.651
+    },
+    {
+      "epoch": 1.8874847473018095,
+      "grad_norm": 0.28260865807533264,
+      "learning_rate": 5e-06,
+      "loss": 0.984,
+      "num_input_tokens_seen": 708406264,
+      "step": 1559,
+      "train_runtime": 113509.0703,
+      "train_tokens_per_second": 6240.966
+    },
+    {
+      "epoch": 1.888695504119411,
+      "grad_norm": 0.23383396863937378,
+      "learning_rate": 5e-06,
+      "loss": 0.895,
+      "num_input_tokens_seen": 708860936,
+      "step": 1560,
+      "train_runtime": 113577.5988,
+      "train_tokens_per_second": 6241.204
+    },
+    {
+      "epoch": 1.8899062609370123,
+      "grad_norm": 0.25613272190093994,
+      "learning_rate": 5e-06,
+      "loss": 0.9105,
+      "num_input_tokens_seen": 709298440,
+      "step": 1561,
+      "train_runtime": 113642.3199,
+      "train_tokens_per_second": 6241.499
+    },
+    {
+      "epoch": 1.8911170177546137,
+      "grad_norm": 0.23639342188835144,
+      "learning_rate": 5e-06,
+      "loss": 0.9206,
+      "num_input_tokens_seen": 709772072,
+      "step": 1562,
+      "train_runtime": 113712.4809,
+      "train_tokens_per_second": 6241.813
+    },
+    {
+      "epoch": 1.8923277745722151,
+      "grad_norm": 0.24744772911071777,
+      "learning_rate": 5e-06,
+      "loss": 0.9326,
+      "num_input_tokens_seen": 710230928,
+      "step": 1563,
+      "train_runtime": 113780.3401,
+      "train_tokens_per_second": 6242.123
+    },
+    {
+      "epoch": 1.8935385313898165,
+      "grad_norm": 0.24007609486579895,
+      "learning_rate": 5e-06,
+      "loss": 0.9552,
+      "num_input_tokens_seen": 710673544,
+      "step": 1564,
+      "train_runtime": 113845.7354,
+      "train_tokens_per_second": 6242.426
+    },
+    {
+      "epoch": 1.8947492882074177,
+      "grad_norm": 0.24338461458683014,
+      "learning_rate": 5e-06,
+      "loss": 0.8848,
+      "num_input_tokens_seen": 711156448,
+      "step": 1565,
+      "train_runtime": 113916.9534,
+      "train_tokens_per_second": 6242.762
+    },
+    {
+      "epoch": 1.8959600450250191,
+      "grad_norm": 0.25444409251213074,
+      "learning_rate": 5e-06,
+      "loss": 0.9297,
+      "num_input_tokens_seen": 711614160,
+      "step": 1566,
+      "train_runtime": 113984.4746,
+      "train_tokens_per_second": 6243.08
+    },
+    {
+      "epoch": 1.8971708018426205,
+      "grad_norm": 0.24998825788497925,
+      "learning_rate": 5e-06,
+      "loss": 0.9388,
+      "num_input_tokens_seen": 712102984,
+      "step": 1567,
+      "train_runtime": 114056.6227,
+      "train_tokens_per_second": 6243.416
+    },
+    {
+      "epoch": 1.898381558660222,
+      "grad_norm": 0.25563183426856995,
+      "learning_rate": 5e-06,
+      "loss": 0.9143,
+      "num_input_tokens_seen": 712569488,
+      "step": 1568,
+      "train_runtime": 114125.4791,
+      "train_tokens_per_second": 6243.737
+    },
+    {
+      "epoch": 1.8995923154778231,
+      "grad_norm": 0.2723662555217743,
+      "learning_rate": 5e-06,
+      "loss": 0.9361,
+      "num_input_tokens_seen": 712982216,
+      "step": 1569,
+      "train_runtime": 114186.2224,
+      "train_tokens_per_second": 6244.03
+    },
+    {
+      "epoch": 1.9008030722954246,
+      "grad_norm": 0.26646265387535095,
+      "learning_rate": 5e-06,
+      "loss": 0.9116,
+      "num_input_tokens_seen": 713435760,
+      "step": 1570,
+      "train_runtime": 114253.013,
+      "train_tokens_per_second": 6244.35
+    },
+    {
+      "epoch": 1.902013829113026,
+      "grad_norm": 0.22592444717884064,
+      "learning_rate": 5e-06,
+      "loss": 0.9129,
+      "num_input_tokens_seen": 713905768,
+      "step": 1571,
+      "train_runtime": 114322.3992,
+      "train_tokens_per_second": 6244.671
+    },
+    {
+      "epoch": 1.9032245859306274,
+      "grad_norm": 0.2544853985309601,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 714357704,
+      "step": 1572,
+      "train_runtime": 114389.1726,
+      "train_tokens_per_second": 6244.977
+    },
+    {
+      "epoch": 1.9044353427482288,
+      "grad_norm": 0.2733955383300781,
+      "learning_rate": 5e-06,
+      "loss": 0.9863,
+      "num_input_tokens_seen": 714815888,
+      "step": 1573,
+      "train_runtime": 114456.8908,
+      "train_tokens_per_second": 6245.285
+    },
+    {
+      "epoch": 1.9056460995658302,
+      "grad_norm": 0.22590436041355133,
+      "learning_rate": 5e-06,
+      "loss": 0.8947,
+      "num_input_tokens_seen": 715267248,
+      "step": 1574,
+      "train_runtime": 114524.1877,
+      "train_tokens_per_second": 6245.556
+    },
+    {
+      "epoch": 1.9068568563834316,
+      "grad_norm": 0.2679465711116791,
+      "learning_rate": 5e-06,
+      "loss": 0.9425,
+      "num_input_tokens_seen": 715731448,
+      "step": 1575,
+      "train_runtime": 114592.6515,
+      "train_tokens_per_second": 6245.876
+    },
+    {
+      "epoch": 1.908067613201033,
+      "grad_norm": 0.2311072051525116,
+      "learning_rate": 5e-06,
+      "loss": 0.9282,
+      "num_input_tokens_seen": 716197480,
+      "step": 1576,
+      "train_runtime": 114661.6647,
+      "train_tokens_per_second": 6246.181
+    },
+    {
+      "epoch": 1.9092783700186344,
+      "grad_norm": 0.24477143585681915,
+      "learning_rate": 5e-06,
+      "loss": 0.9186,
+      "num_input_tokens_seen": 716635848,
+      "step": 1577,
+      "train_runtime": 114726.4947,
+      "train_tokens_per_second": 6246.472
+    },
+    {
+      "epoch": 1.9104891268362358,
+      "grad_norm": 0.26083871722221375,
+      "learning_rate": 5e-06,
+      "loss": 0.9086,
+      "num_input_tokens_seen": 717095224,
+      "step": 1578,
+      "train_runtime": 114794.5934,
+      "train_tokens_per_second": 6246.768
+    },
+    {
+      "epoch": 1.911699883653837,
+      "grad_norm": 0.29289036989212036,
+      "learning_rate": 5e-06,
+      "loss": 0.9533,
+      "num_input_tokens_seen": 717574472,
+      "step": 1579,
+      "train_runtime": 114865.2956,
+      "train_tokens_per_second": 6247.096
+    },
+    {
+      "epoch": 1.9129106404714384,
+      "grad_norm": 0.28024327754974365,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 718005536,
+      "step": 1580,
+      "train_runtime": 114928.7168,
+      "train_tokens_per_second": 6247.399
+    },
+    {
+      "epoch": 1.9141213972890398,
+      "grad_norm": 0.28200191259384155,
+      "learning_rate": 5e-06,
+      "loss": 0.931,
+      "num_input_tokens_seen": 718454008,
+      "step": 1581,
+      "train_runtime": 114994.4807,
+      "train_tokens_per_second": 6247.726
+    },
+    {
+      "epoch": 1.915332154106641,
+      "grad_norm": 0.27790147066116333,
+      "learning_rate": 5e-06,
+      "loss": 0.9131,
+      "num_input_tokens_seen": 718902000,
+      "step": 1582,
+      "train_runtime": 115060.9603,
+      "train_tokens_per_second": 6248.01
+    },
+    {
+      "epoch": 1.9165429109242424,
+      "grad_norm": 0.2839493751525879,
+      "learning_rate": 5e-06,
+      "loss": 0.9395,
+      "num_input_tokens_seen": 719363656,
+      "step": 1583,
+      "train_runtime": 115129.3761,
+      "train_tokens_per_second": 6248.307
+    },
+    {
+      "epoch": 1.9177536677418439,
+      "grad_norm": 0.28969302773475647,
+      "learning_rate": 5e-06,
+      "loss": 0.939,
+      "num_input_tokens_seen": 719824400,
+      "step": 1584,
+      "train_runtime": 115197.2332,
+      "train_tokens_per_second": 6248.626
+    },
+    {
+      "epoch": 1.9189644245594453,
+      "grad_norm": 0.22786937654018402,
+      "learning_rate": 5e-06,
+      "loss": 0.9137,
+      "num_input_tokens_seen": 720285288,
+      "step": 1585,
+      "train_runtime": 115264.6817,
+      "train_tokens_per_second": 6248.968
+    },
+    {
+      "epoch": 1.9201751813770467,
+      "grad_norm": 0.3011467158794403,
+      "learning_rate": 5e-06,
+      "loss": 0.9738,
+      "num_input_tokens_seen": 720726248,
+      "step": 1586,
+      "train_runtime": 115329.3874,
+      "train_tokens_per_second": 6249.285
+    },
+    {
+      "epoch": 1.921385938194648,
+      "grad_norm": 0.25570541620254517,
+      "learning_rate": 5e-06,
+      "loss": 0.9943,
+      "num_input_tokens_seen": 721189208,
+      "step": 1587,
+      "train_runtime": 115397.8713,
+      "train_tokens_per_second": 6249.588
+    },
+    {
+      "epoch": 1.9225966950122495,
+      "grad_norm": 0.30256542563438416,
+      "learning_rate": 5e-06,
+      "loss": 0.9381,
+      "num_input_tokens_seen": 721640744,
+      "step": 1588,
+      "train_runtime": 115464.5774,
+      "train_tokens_per_second": 6249.889
+    },
+    {
+      "epoch": 1.923807451829851,
+      "grad_norm": 0.22470492124557495,
+      "learning_rate": 5e-06,
+      "loss": 0.9629,
+      "num_input_tokens_seen": 722107928,
+      "step": 1589,
+      "train_runtime": 115533.4593,
+      "train_tokens_per_second": 6250.206
+    },
+    {
+      "epoch": 1.9250182086474523,
+      "grad_norm": 0.26163867115974426,
+      "learning_rate": 5e-06,
+      "loss": 0.8809,
+      "num_input_tokens_seen": 722566072,
+      "step": 1590,
+      "train_runtime": 115601.5317,
+      "train_tokens_per_second": 6250.489
+    },
+    {
+      "epoch": 1.9262289654650537,
+      "grad_norm": 0.27157437801361084,
+      "learning_rate": 5e-06,
+      "loss": 0.924,
+      "num_input_tokens_seen": 723026480,
+      "step": 1591,
+      "train_runtime": 115668.9514,
+      "train_tokens_per_second": 6250.826
+    },
+    {
+      "epoch": 1.927439722282655,
+      "grad_norm": 0.2507987320423126,
+      "learning_rate": 5e-06,
+      "loss": 0.9413,
+      "num_input_tokens_seen": 723498984,
+      "step": 1592,
+      "train_runtime": 115738.7049,
+      "train_tokens_per_second": 6251.141
+    },
+    {
+      "epoch": 1.9286504791002563,
+      "grad_norm": 0.2356843203306198,
+      "learning_rate": 5e-06,
+      "loss": 0.9055,
+      "num_input_tokens_seen": 723937808,
+      "step": 1593,
+      "train_runtime": 115803.4466,
+      "train_tokens_per_second": 6251.436
+    },
+    {
+      "epoch": 1.9298612359178577,
+      "grad_norm": 0.2270326465368271,
+      "learning_rate": 5e-06,
+      "loss": 0.9157,
+      "num_input_tokens_seen": 724385408,
+      "step": 1594,
+      "train_runtime": 115869.3052,
+      "train_tokens_per_second": 6251.746
+    },
+    {
+      "epoch": 1.931071992735459,
+      "grad_norm": 0.2569643557071686,
+      "learning_rate": 5e-06,
+      "loss": 0.856,
+      "num_input_tokens_seen": 724859232,
+      "step": 1595,
+      "train_runtime": 115939.4374,
+      "train_tokens_per_second": 6252.051
+    },
+    {
+      "epoch": 1.9322827495530603,
+      "grad_norm": 0.22327809035778046,
+      "learning_rate": 5e-06,
+      "loss": 0.9313,
+      "num_input_tokens_seen": 725331448,
+      "step": 1596,
+      "train_runtime": 116009.0348,
+      "train_tokens_per_second": 6252.37
+    },
+    {
+      "epoch": 1.9334935063706618,
+      "grad_norm": 0.253885418176651,
+      "learning_rate": 5e-06,
+      "loss": 0.8917,
+      "num_input_tokens_seen": 725790744,
+      "step": 1597,
+      "train_runtime": 116077.1839,
+      "train_tokens_per_second": 6252.656
+    },
+    {
+      "epoch": 1.9347042631882632,
+      "grad_norm": 0.22820526361465454,
+      "learning_rate": 5e-06,
+      "loss": 0.9767,
+      "num_input_tokens_seen": 726237104,
+      "step": 1598,
+      "train_runtime": 116143.0969,
+      "train_tokens_per_second": 6252.951
+    },
+    {
+      "epoch": 1.9359150200058646,
+      "grad_norm": 0.24010008573532104,
+      "learning_rate": 5e-06,
+      "loss": 0.9393,
+      "num_input_tokens_seen": 726690312,
+      "step": 1599,
+      "train_runtime": 116210.1064,
+      "train_tokens_per_second": 6253.245
+    },
+    {
+      "epoch": 1.937125776823466,
+      "grad_norm": 0.23890480399131775,
+      "learning_rate": 5e-06,
+      "loss": 0.8982,
+      "num_input_tokens_seen": 727157240,
+      "step": 1600,
+      "train_runtime": 116279.6038,
+      "train_tokens_per_second": 6253.524
+    },
+    {
+      "epoch": 1.9383365336410674,
+      "grad_norm": 0.24424760043621063,
+      "learning_rate": 5e-06,
+      "loss": 0.9653,
+      "num_input_tokens_seen": 727622656,
+      "step": 1601,
+      "train_runtime": 116348.2373,
+      "train_tokens_per_second": 6253.835
+    },
+    {
+      "epoch": 1.9395472904586688,
+      "grad_norm": 0.2552737891674042,
+      "learning_rate": 5e-06,
+      "loss": 0.9497,
+      "num_input_tokens_seen": 728062096,
+      "step": 1602,
+      "train_runtime": 116412.8385,
+      "train_tokens_per_second": 6254.139
+    },
+    {
+      "epoch": 1.9407580472762702,
+      "grad_norm": 0.2567066252231598,
+      "learning_rate": 5e-06,
+      "loss": 0.8888,
+      "num_input_tokens_seen": 728516320,
+      "step": 1603,
+      "train_runtime": 116479.7771,
+      "train_tokens_per_second": 6254.445
+    },
+    {
+      "epoch": 1.9419688040938716,
+      "grad_norm": 0.26494523882865906,
+      "learning_rate": 5e-06,
+      "loss": 0.9411,
+      "num_input_tokens_seen": 728967448,
+      "step": 1604,
+      "train_runtime": 116546.2892,
+      "train_tokens_per_second": 6254.746
+    },
+    {
+      "epoch": 1.9431795609114728,
+      "grad_norm": 0.24419981241226196,
+      "learning_rate": 5e-06,
+      "loss": 0.9449,
+      "num_input_tokens_seen": 729410712,
+      "step": 1605,
+      "train_runtime": 116611.7138,
+      "train_tokens_per_second": 6255.038
+    },
+    {
+      "epoch": 1.9443903177290742,
+      "grad_norm": 0.24061161279678345,
+      "learning_rate": 5e-06,
+      "loss": 0.9237,
+      "num_input_tokens_seen": 729864928,
+      "step": 1606,
+      "train_runtime": 116679.0895,
+      "train_tokens_per_second": 6255.319
+    },
+    {
+      "epoch": 1.9456010745466756,
+      "grad_norm": 0.2652917802333832,
+      "learning_rate": 5e-06,
+      "loss": 0.9536,
+      "num_input_tokens_seen": 730304432,
+      "step": 1607,
+      "train_runtime": 116743.7819,
+      "train_tokens_per_second": 6255.617
+    },
+    {
+      "epoch": 1.946811831364277,
+      "grad_norm": 0.3060227632522583,
+      "learning_rate": 5e-06,
+      "loss": 0.9476,
+      "num_input_tokens_seen": 730764008,
+      "step": 1608,
+      "train_runtime": 116811.6283,
+      "train_tokens_per_second": 6255.918
+    },
+    {
+      "epoch": 1.9480225881818782,
+      "grad_norm": 0.24972648918628693,
+      "learning_rate": 5e-06,
+      "loss": 0.9286,
+      "num_input_tokens_seen": 731207136,
+      "step": 1609,
+      "train_runtime": 116876.7851,
+      "train_tokens_per_second": 6256.222
+    },
+    {
+      "epoch": 1.9492333449994796,
+      "grad_norm": 0.22679458558559418,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 731675192,
+      "step": 1610,
+      "train_runtime": 116946.392,
+      "train_tokens_per_second": 6256.501
+    },
+    {
+      "epoch": 1.950444101817081,
+      "grad_norm": 0.24391289055347443,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 732136656,
+      "step": 1611,
+      "train_runtime": 117014.2749,
+      "train_tokens_per_second": 6256.815
+    },
+    {
+      "epoch": 1.9516548586346825,
+      "grad_norm": 0.25399860739707947,
+      "learning_rate": 5e-06,
+      "loss": 0.9206,
+      "num_input_tokens_seen": 732587312,
+      "step": 1612,
+      "train_runtime": 117080.9176,
+      "train_tokens_per_second": 6257.103
+    },
+    {
+      "epoch": 1.9528656154522839,
+      "grad_norm": 0.2403707355260849,
+      "learning_rate": 5e-06,
+      "loss": 0.9548,
+      "num_input_tokens_seen": 733055472,
+      "step": 1613,
+      "train_runtime": 117150.9773,
+      "train_tokens_per_second": 6257.357
+    },
+    {
+      "epoch": 1.9540763722698853,
+      "grad_norm": 0.24824580550193787,
+      "learning_rate": 5e-06,
+      "loss": 0.9813,
+      "num_input_tokens_seen": 733529576,
+      "step": 1614,
+      "train_runtime": 117222.2753,
+      "train_tokens_per_second": 6257.595
+    },
+    {
+      "epoch": 1.9552871290874867,
+      "grad_norm": 0.25411248207092285,
+      "learning_rate": 5e-06,
+      "loss": 0.9657,
+      "num_input_tokens_seen": 733989808,
+      "step": 1615,
+      "train_runtime": 117290.2995,
+      "train_tokens_per_second": 6257.89
+    },
+    {
+      "epoch": 1.956497885905088,
+      "grad_norm": 0.244659423828125,
+      "learning_rate": 5e-06,
+      "loss": 0.9625,
+      "num_input_tokens_seen": 734459672,
+      "step": 1616,
+      "train_runtime": 117359.2892,
+      "train_tokens_per_second": 6258.215
+    },
+    {
+      "epoch": 1.9577086427226895,
+      "grad_norm": 0.2583770751953125,
+      "learning_rate": 5e-06,
+      "loss": 0.95,
+      "num_input_tokens_seen": 734913456,
+      "step": 1617,
+      "train_runtime": 117425.8088,
+      "train_tokens_per_second": 6258.534
+    },
+    {
+      "epoch": 1.958919399540291,
+      "grad_norm": 0.27326807379722595,
+      "learning_rate": 5e-06,
+      "loss": 0.9071,
+      "num_input_tokens_seen": 735361360,
+      "step": 1618,
+      "train_runtime": 117492.1671,
+      "train_tokens_per_second": 6258.812
+    },
+    {
+      "epoch": 1.9601301563578921,
+      "grad_norm": 0.2656486928462982,
+      "learning_rate": 5e-06,
+      "loss": 0.9275,
+      "num_input_tokens_seen": 735820904,
+      "step": 1619,
+      "train_runtime": 117560.1966,
+      "train_tokens_per_second": 6259.099
+    },
+    {
+      "epoch": 1.9613409131754935,
+      "grad_norm": 0.26864171028137207,
+      "learning_rate": 5e-06,
+      "loss": 0.9431,
+      "num_input_tokens_seen": 736286088,
+      "step": 1620,
+      "train_runtime": 117628.7955,
+      "train_tokens_per_second": 6259.403
+    },
+    {
+      "epoch": 1.962551669993095,
+      "grad_norm": 0.23168571293354034,
+      "learning_rate": 5e-06,
+      "loss": 0.9652,
+      "num_input_tokens_seen": 736771304,
+      "step": 1621,
+      "train_runtime": 117700.5675,
+      "train_tokens_per_second": 6259.709
+    },
+    {
+      "epoch": 1.9637624268106961,
+      "grad_norm": 0.3031046986579895,
+      "learning_rate": 5e-06,
+      "loss": 0.9284,
+      "num_input_tokens_seen": 737223816,
+      "step": 1622,
+      "train_runtime": 117767.2938,
+      "train_tokens_per_second": 6260.005
+    },
+    {
+      "epoch": 1.9649731836282975,
+      "grad_norm": 0.3055347800254822,
+      "learning_rate": 5e-06,
+      "loss": 0.8942,
+      "num_input_tokens_seen": 737671328,
+      "step": 1623,
+      "train_runtime": 117833.4065,
+      "train_tokens_per_second": 6260.29
+    },
+    {
+      "epoch": 1.966183940445899,
+      "grad_norm": 0.24057318270206451,
+      "learning_rate": 5e-06,
+      "loss": 0.9013,
+      "num_input_tokens_seen": 738128264,
+      "step": 1624,
+      "train_runtime": 117900.8843,
+      "train_tokens_per_second": 6260.583
+    },
+    {
+      "epoch": 1.9673946972635004,
+      "grad_norm": 0.28453585505485535,
+      "learning_rate": 5e-06,
+      "loss": 0.951,
+      "num_input_tokens_seen": 738599800,
+      "step": 1625,
+      "train_runtime": 117970.9661,
+      "train_tokens_per_second": 6260.861
+    },
+    {
+      "epoch": 1.9686054540811018,
+      "grad_norm": 0.2978310286998749,
+      "learning_rate": 5e-06,
+      "loss": 0.9524,
+      "num_input_tokens_seen": 739061440,
+      "step": 1626,
+      "train_runtime": 118038.9189,
+      "train_tokens_per_second": 6261.167
+    },
+    {
+      "epoch": 1.9698162108987032,
+      "grad_norm": 0.2525809109210968,
+      "learning_rate": 5e-06,
+      "loss": 0.9146,
+      "num_input_tokens_seen": 739504888,
+      "step": 1627,
+      "train_runtime": 118104.044,
+      "train_tokens_per_second": 6261.47
+    },
+    {
+      "epoch": 1.9710269677163046,
+      "grad_norm": 0.23271185159683228,
+      "learning_rate": 5e-06,
+      "loss": 0.879,
+      "num_input_tokens_seen": 739959160,
+      "step": 1628,
+      "train_runtime": 118171.0917,
+      "train_tokens_per_second": 6261.761
+    },
+    {
+      "epoch": 1.972237724533906,
+      "grad_norm": 0.2425994873046875,
+      "learning_rate": 5e-06,
+      "loss": 0.9498,
+      "num_input_tokens_seen": 740392976,
+      "step": 1629,
+      "train_runtime": 118235.1733,
+      "train_tokens_per_second": 6262.037
+    },
+    {
+      "epoch": 1.9734484813515074,
+      "grad_norm": 0.28858521580696106,
+      "learning_rate": 5e-06,
+      "loss": 0.9053,
+      "num_input_tokens_seen": 740852000,
+      "step": 1630,
+      "train_runtime": 118303.084,
+      "train_tokens_per_second": 6262.322
+    },
+    {
+      "epoch": 1.9746592381691088,
+      "grad_norm": 0.30428969860076904,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 741308544,
+      "step": 1631,
+      "train_runtime": 118370.3428,
+      "train_tokens_per_second": 6262.621
+    },
+    {
+      "epoch": 1.97586999498671,
+      "grad_norm": 0.2601581811904907,
+      "learning_rate": 5e-06,
+      "loss": 0.9038,
+      "num_input_tokens_seen": 741771776,
+      "step": 1632,
+      "train_runtime": 118438.7832,
+      "train_tokens_per_second": 6262.913
+    },
+    {
+      "epoch": 1.9770807518043114,
+      "grad_norm": 0.2240893691778183,
+      "learning_rate": 5e-06,
+      "loss": 0.9744,
+      "num_input_tokens_seen": 742234480,
+      "step": 1633,
+      "train_runtime": 118507.3035,
+      "train_tokens_per_second": 6263.196
+    },
+    {
+      "epoch": 1.9782915086219128,
+      "grad_norm": 0.2555893063545227,
+      "learning_rate": 5e-06,
+      "loss": 0.9318,
+      "num_input_tokens_seen": 742693528,
+      "step": 1634,
+      "train_runtime": 118575.2577,
+      "train_tokens_per_second": 6263.478
+    },
+    {
+      "epoch": 1.979502265439514,
+      "grad_norm": 0.33006125688552856,
+      "learning_rate": 5e-06,
+      "loss": 0.9128,
+      "num_input_tokens_seen": 743133448,
+      "step": 1635,
+      "train_runtime": 118639.8577,
+      "train_tokens_per_second": 6263.776
+    },
+    {
+      "epoch": 1.9807130222571154,
+      "grad_norm": 0.24423004686832428,
+      "learning_rate": 5e-06,
+      "loss": 0.9242,
+      "num_input_tokens_seen": 743587448,
+      "step": 1636,
+      "train_runtime": 118707.0303,
+      "train_tokens_per_second": 6264.056
+    },
+    {
+      "epoch": 1.9819237790747168,
+      "grad_norm": 0.2284265011548996,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 744034000,
+      "step": 1637,
+      "train_runtime": 118772.4989,
+      "train_tokens_per_second": 6264.363
+    },
+    {
+      "epoch": 1.9831345358923183,
+      "grad_norm": 0.24896208941936493,
+      "learning_rate": 5e-06,
+      "loss": 0.926,
+      "num_input_tokens_seen": 744492584,
+      "step": 1638,
+      "train_runtime": 118840.6792,
+      "train_tokens_per_second": 6264.627
+    },
+    {
+      "epoch": 1.9843452927099197,
+      "grad_norm": 0.27802956104278564,
+      "learning_rate": 5e-06,
+      "loss": 0.9311,
+      "num_input_tokens_seen": 744949664,
+      "step": 1639,
+      "train_runtime": 118908.0072,
+      "train_tokens_per_second": 6264.924
+    },
+    {
+      "epoch": 1.985556049527521,
+      "grad_norm": 0.2622906565666199,
+      "learning_rate": 5e-06,
+      "loss": 0.909,
+      "num_input_tokens_seen": 745414920,
+      "step": 1640,
+      "train_runtime": 118976.34,
+      "train_tokens_per_second": 6265.237
+    },
+    {
+      "epoch": 1.9867668063451225,
+      "grad_norm": 0.25892722606658936,
+      "learning_rate": 5e-06,
+      "loss": 0.9746,
+      "num_input_tokens_seen": 745869072,
+      "step": 1641,
+      "train_runtime": 119043.2791,
+      "train_tokens_per_second": 6265.529
+    },
+    {
+      "epoch": 1.987977563162724,
+      "grad_norm": 0.24062815308570862,
+      "learning_rate": 5e-06,
+      "loss": 0.9342,
+      "num_input_tokens_seen": 746319848,
+      "step": 1642,
+      "train_runtime": 119109.7704,
+      "train_tokens_per_second": 6265.816
+    },
+    {
+      "epoch": 1.9891883199803253,
+      "grad_norm": 0.3026382029056549,
+      "learning_rate": 5e-06,
+      "loss": 0.9328,
+      "num_input_tokens_seen": 746765768,
+      "step": 1643,
+      "train_runtime": 119175.6132,
+      "train_tokens_per_second": 6266.095
+    },
+    {
+      "epoch": 1.9903990767979267,
+      "grad_norm": 0.2536994516849518,
+      "learning_rate": 5e-06,
+      "loss": 0.8838,
+      "num_input_tokens_seen": 747223184,
+      "step": 1644,
+      "train_runtime": 119243.0261,
+      "train_tokens_per_second": 6266.389
+    },
+    {
+      "epoch": 1.991609833615528,
+      "grad_norm": 0.24464935064315796,
+      "learning_rate": 5e-06,
+      "loss": 0.9337,
+      "num_input_tokens_seen": 747669984,
+      "step": 1645,
+      "train_runtime": 119309.5096,
+      "train_tokens_per_second": 6266.642
+    },
+    {
+      "epoch": 1.9928205904331293,
+      "grad_norm": 0.24241983890533447,
+      "learning_rate": 5e-06,
+      "loss": 0.9195,
+      "num_input_tokens_seen": 748096608,
+      "step": 1646,
+      "train_runtime": 119372.5329,
+      "train_tokens_per_second": 6266.907
+    },
+    {
+      "epoch": 1.9940313472507307,
+      "grad_norm": 0.25340303778648376,
+      "learning_rate": 5e-06,
+      "loss": 0.9146,
+      "num_input_tokens_seen": 748518912,
+      "step": 1647,
+      "train_runtime": 119434.6808,
+      "train_tokens_per_second": 6267.182
+    },
+    {
+      "epoch": 1.9952421040683321,
+      "grad_norm": 0.24607083201408386,
+      "learning_rate": 5e-06,
+      "loss": 0.9389,
+      "num_input_tokens_seen": 748982560,
+      "step": 1648,
+      "train_runtime": 119503.1742,
+      "train_tokens_per_second": 6267.47
+    },
+    {
+      "epoch": 1.9964528608859333,
+      "grad_norm": 0.25516462326049805,
+      "learning_rate": 5e-06,
+      "loss": 0.9252,
+      "num_input_tokens_seen": 749435416,
+      "step": 1649,
+      "train_runtime": 119569.6996,
+      "train_tokens_per_second": 6267.77
+    },
+    {
+      "epoch": 1.9976636177035347,
+      "grad_norm": 0.23312324285507202,
+      "learning_rate": 5e-06,
+      "loss": 0.9199,
+      "num_input_tokens_seen": 749880560,
+      "step": 1650,
+      "train_runtime": 119635.2823,
+      "train_tokens_per_second": 6268.055
+    },
+    {
+      "epoch": 1.9988743745211361,
+      "grad_norm": 0.22469443082809448,
+      "learning_rate": 5e-06,
+      "loss": 0.9509,
+      "num_input_tokens_seen": 750355760,
+      "step": 1651,
+      "train_runtime": 119705.3381,
+      "train_tokens_per_second": 6268.357
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.2671259641647339,
+      "learning_rate": 5e-06,
+      "loss": 0.923,
+      "num_input_tokens_seen": 750767792,
+      "step": 1652,
+      "train_runtime": 119766.3563,
+      "train_tokens_per_second": 6268.603
+    },
+    {
+      "epoch": 2.0012107568176014,
+      "grad_norm": 0.25913000106811523,
+      "learning_rate": 5e-06,
+      "loss": 0.9515,
+      "num_input_tokens_seen": 751241384,
+      "step": 1653,
+      "train_runtime": 119836.2595,
+      "train_tokens_per_second": 6268.899
+    },
+    {
+      "epoch": 2.002421513635203,
+      "grad_norm": 0.24619394540786743,
+      "learning_rate": 5e-06,
+      "loss": 0.8988,
+      "num_input_tokens_seen": 751701224,
+      "step": 1654,
+      "train_runtime": 119904.0181,
+      "train_tokens_per_second": 6269.191
+    },
+    {
+      "epoch": 2.0036322704528042,
+      "grad_norm": 0.245701402425766,
+      "learning_rate": 5e-06,
+      "loss": 0.9295,
+      "num_input_tokens_seen": 752143752,
+      "step": 1655,
+      "train_runtime": 119969.2461,
+      "train_tokens_per_second": 6269.471
+    },
+    {
+      "epoch": 2.0048430272704056,
+      "grad_norm": 0.23520943522453308,
+      "learning_rate": 5e-06,
+      "loss": 0.9266,
+      "num_input_tokens_seen": 752602416,
+      "step": 1656,
+      "train_runtime": 120036.8828,
+      "train_tokens_per_second": 6269.76
+    },
+    {
+      "epoch": 2.006053784088007,
+      "grad_norm": 0.2660825550556183,
+      "learning_rate": 5e-06,
+      "loss": 0.9354,
+      "num_input_tokens_seen": 753037600,
+      "step": 1657,
+      "train_runtime": 120100.8699,
+      "train_tokens_per_second": 6270.043
+    },
+    {
+      "epoch": 2.0072645409056085,
+      "grad_norm": 0.21745565533638,
+      "learning_rate": 5e-06,
+      "loss": 0.9324,
+      "num_input_tokens_seen": 753522696,
+      "step": 1658,
+      "train_runtime": 120172.9009,
+      "train_tokens_per_second": 6270.321
+    },
+    {
+      "epoch": 2.0084752977232094,
+      "grad_norm": 0.2518208920955658,
+      "learning_rate": 5e-06,
+      "loss": 0.9369,
+      "num_input_tokens_seen": 753999256,
+      "step": 1659,
+      "train_runtime": 120243.3277,
+      "train_tokens_per_second": 6270.612
+    },
+    {
+      "epoch": 2.009686054540811,
+      "grad_norm": 0.23979134857654572,
+      "learning_rate": 5e-06,
+      "loss": 0.9115,
+      "num_input_tokens_seen": 754457208,
+      "step": 1660,
+      "train_runtime": 120311.1243,
+      "train_tokens_per_second": 6270.885
+    },
+    {
+      "epoch": 2.0108968113584123,
+      "grad_norm": 0.25418299436569214,
+      "learning_rate": 5e-06,
+      "loss": 0.9742,
+      "num_input_tokens_seen": 754909448,
+      "step": 1661,
+      "train_runtime": 120377.7091,
+      "train_tokens_per_second": 6271.173
+    },
+    {
+      "epoch": 2.0121075681760137,
+      "grad_norm": 0.24330636858940125,
+      "learning_rate": 5e-06,
+      "loss": 0.8973,
+      "num_input_tokens_seen": 755375656,
+      "step": 1662,
+      "train_runtime": 120446.4967,
+      "train_tokens_per_second": 6271.462
+    },
+    {
+      "epoch": 2.013318324993615,
+      "grad_norm": 0.23138542473316193,
+      "learning_rate": 5e-06,
+      "loss": 0.9258,
+      "num_input_tokens_seen": 755847280,
+      "step": 1663,
+      "train_runtime": 120515.7872,
+      "train_tokens_per_second": 6271.77
+    },
+    {
+      "epoch": 2.0145290818112165,
+      "grad_norm": 0.22977809607982635,
+      "learning_rate": 5e-06,
+      "loss": 0.9414,
+      "num_input_tokens_seen": 756307096,
+      "step": 1664,
+      "train_runtime": 120583.5284,
+      "train_tokens_per_second": 6272.06
+    },
+    {
+      "epoch": 2.015739838628818,
+      "grad_norm": 0.23063069581985474,
+      "learning_rate": 5e-06,
+      "loss": 0.9489,
+      "num_input_tokens_seen": 756782872,
+      "step": 1665,
+      "train_runtime": 120653.9002,
+      "train_tokens_per_second": 6272.345
+    },
+    {
+      "epoch": 2.0169505954464193,
+      "grad_norm": 0.25464802980422974,
+      "learning_rate": 5e-06,
+      "loss": 0.9193,
+      "num_input_tokens_seen": 757236128,
+      "step": 1666,
+      "train_runtime": 120720.8443,
+      "train_tokens_per_second": 6272.621
+    },
+    {
+      "epoch": 2.0181613522640207,
+      "grad_norm": 0.26056936383247375,
+      "learning_rate": 5e-06,
+      "loss": 0.9261,
+      "num_input_tokens_seen": 757706360,
+      "step": 1667,
+      "train_runtime": 120792.0573,
+      "train_tokens_per_second": 6272.816
+    },
+    {
+      "epoch": 2.019372109081622,
+      "grad_norm": 0.24450352787971497,
+      "learning_rate": 5e-06,
+      "loss": 0.8846,
+      "num_input_tokens_seen": 758155960,
+      "step": 1668,
+      "train_runtime": 120858.5813,
+      "train_tokens_per_second": 6273.083
+    },
+    {
+      "epoch": 2.0205828658992235,
+      "grad_norm": 0.22889290750026703,
+      "learning_rate": 5e-06,
+      "loss": 0.9239,
+      "num_input_tokens_seen": 758608128,
+      "step": 1669,
+      "train_runtime": 120924.9819,
+      "train_tokens_per_second": 6273.378
+    },
+    {
+      "epoch": 2.021793622716825,
+      "grad_norm": 0.24720118939876556,
+      "learning_rate": 5e-06,
+      "loss": 0.9581,
+      "num_input_tokens_seen": 759066936,
+      "step": 1670,
+      "train_runtime": 120993.0982,
+      "train_tokens_per_second": 6273.638
+    },
+    {
+      "epoch": 2.0230043795344264,
+      "grad_norm": 0.2619543671607971,
+      "learning_rate": 5e-06,
+      "loss": 0.9421,
+      "num_input_tokens_seen": 759523400,
+      "step": 1671,
+      "train_runtime": 121060.4719,
+      "train_tokens_per_second": 6273.917
+    },
+    {
+      "epoch": 2.0242151363520273,
+      "grad_norm": 0.2532022297382355,
+      "learning_rate": 5e-06,
+      "loss": 0.9364,
+      "num_input_tokens_seen": 759992104,
+      "step": 1672,
+      "train_runtime": 121129.84,
+      "train_tokens_per_second": 6274.194
+    },
+    {
+      "epoch": 2.0254258931696287,
+      "grad_norm": 0.2386539727449417,
+      "learning_rate": 5e-06,
+      "loss": 0.9337,
+      "num_input_tokens_seen": 760421816,
+      "step": 1673,
+      "train_runtime": 121193.2317,
+      "train_tokens_per_second": 6274.458
+    },
+    {
+      "epoch": 2.02663664998723,
+      "grad_norm": 0.23992206156253815,
+      "learning_rate": 5e-06,
+      "loss": 0.9429,
+      "num_input_tokens_seen": 760910216,
+      "step": 1674,
+      "train_runtime": 121265.0604,
+      "train_tokens_per_second": 6274.769
+    },
+    {
+      "epoch": 2.0278474068048316,
+      "grad_norm": 0.27219098806381226,
+      "learning_rate": 5e-06,
+      "loss": 0.9159,
+      "num_input_tokens_seen": 761358768,
+      "step": 1675,
+      "train_runtime": 121331.2035,
+      "train_tokens_per_second": 6275.045
+    },
+    {
+      "epoch": 2.029058163622433,
+      "grad_norm": 0.26987916231155396,
+      "learning_rate": 5e-06,
+      "loss": 0.9063,
+      "num_input_tokens_seen": 761819360,
+      "step": 1676,
+      "train_runtime": 121399.3914,
+      "train_tokens_per_second": 6275.314
+    },
+    {
+      "epoch": 2.0302689204400344,
+      "grad_norm": 0.29206639528274536,
+      "learning_rate": 5e-06,
+      "loss": 0.8884,
+      "num_input_tokens_seen": 762265192,
+      "step": 1677,
+      "train_runtime": 121465.4319,
+      "train_tokens_per_second": 6275.573
+    },
+    {
+      "epoch": 2.031479677257636,
+      "grad_norm": 0.2402559518814087,
+      "learning_rate": 5e-06,
+      "loss": 0.967,
+      "num_input_tokens_seen": 762727064,
+      "step": 1678,
+      "train_runtime": 121533.5732,
+      "train_tokens_per_second": 6275.855
+    },
+    {
+      "epoch": 2.032690434075237,
+      "grad_norm": 0.2560024559497833,
+      "learning_rate": 5e-06,
+      "loss": 1.0016,
+      "num_input_tokens_seen": 763173840,
+      "step": 1679,
+      "train_runtime": 121599.4982,
+      "train_tokens_per_second": 6276.127
+    },
+    {
+      "epoch": 2.0339011908928386,
+      "grad_norm": 0.2566429078578949,
+      "learning_rate": 5e-06,
+      "loss": 0.9174,
+      "num_input_tokens_seen": 763633104,
+      "step": 1680,
+      "train_runtime": 121667.3707,
+      "train_tokens_per_second": 6276.4
+    },
+    {
+      "epoch": 2.03511194771044,
+      "grad_norm": 0.324238657951355,
+      "learning_rate": 5e-06,
+      "loss": 0.9757,
+      "num_input_tokens_seen": 764078208,
+      "step": 1681,
+      "train_runtime": 121732.7093,
+      "train_tokens_per_second": 6276.688
+    },
+    {
+      "epoch": 2.0363227045280414,
+      "grad_norm": 0.2558477818965912,
+      "learning_rate": 5e-06,
+      "loss": 0.9683,
+      "num_input_tokens_seen": 764539136,
+      "step": 1682,
+      "train_runtime": 121800.7565,
+      "train_tokens_per_second": 6276.965
+    },
+    {
+      "epoch": 2.037533461345643,
+      "grad_norm": 0.24341857433319092,
+      "learning_rate": 5e-06,
+      "loss": 0.9386,
+      "num_input_tokens_seen": 764978424,
+      "step": 1683,
+      "train_runtime": 121864.9978,
+      "train_tokens_per_second": 6277.261
+    },
+    {
+      "epoch": 2.0387442181632442,
+      "grad_norm": 0.2269880771636963,
+      "learning_rate": 5e-06,
+      "loss": 0.9277,
+      "num_input_tokens_seen": 765432624,
+      "step": 1684,
+      "train_runtime": 121931.6988,
+      "train_tokens_per_second": 6277.552
+    },
+    {
+      "epoch": 2.0399549749808457,
+      "grad_norm": 0.24292759597301483,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 765849656,
+      "step": 1685,
+      "train_runtime": 121992.9638,
+      "train_tokens_per_second": 6277.818
+    },
+    {
+      "epoch": 2.0411657317984466,
+      "grad_norm": 0.2310955822467804,
+      "learning_rate": 5e-06,
+      "loss": 0.9353,
+      "num_input_tokens_seen": 766298816,
+      "step": 1686,
+      "train_runtime": 122059.3898,
+      "train_tokens_per_second": 6278.082
+    },
+    {
+      "epoch": 2.042376488616048,
+      "grad_norm": 0.23854534327983856,
+      "learning_rate": 5e-06,
+      "loss": 0.8951,
+      "num_input_tokens_seen": 766758944,
+      "step": 1687,
+      "train_runtime": 122127.173,
+      "train_tokens_per_second": 6278.365
+    },
+    {
+      "epoch": 2.0435872454336494,
+      "grad_norm": 0.2445819079875946,
+      "learning_rate": 5e-06,
+      "loss": 0.9005,
+      "num_input_tokens_seen": 767215168,
+      "step": 1688,
+      "train_runtime": 122194.8356,
+      "train_tokens_per_second": 6278.622
+    },
+    {
+      "epoch": 2.044798002251251,
+      "grad_norm": 0.24541962146759033,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 767661360,
+      "step": 1689,
+      "train_runtime": 122260.9211,
+      "train_tokens_per_second": 6278.878
+    },
+    {
+      "epoch": 2.0460087590688523,
+      "grad_norm": 0.23069673776626587,
+      "learning_rate": 5e-06,
+      "loss": 0.937,
+      "num_input_tokens_seen": 768110416,
+      "step": 1690,
+      "train_runtime": 122327.2995,
+      "train_tokens_per_second": 6279.141
+    },
+    {
+      "epoch": 2.0472195158864537,
+      "grad_norm": 0.26259496808052063,
+      "learning_rate": 5e-06,
+      "loss": 0.9342,
+      "num_input_tokens_seen": 768564600,
+      "step": 1691,
+      "train_runtime": 122394.1919,
+      "train_tokens_per_second": 6279.421
+    },
+    {
+      "epoch": 2.048430272704055,
+      "grad_norm": 0.23317334055900574,
+      "learning_rate": 5e-06,
+      "loss": 0.9462,
+      "num_input_tokens_seen": 769009144,
+      "step": 1692,
+      "train_runtime": 122459.6235,
+      "train_tokens_per_second": 6279.695
+    },
+    {
+      "epoch": 2.0496410295216565,
+      "grad_norm": 0.24182665348052979,
+      "learning_rate": 5e-06,
+      "loss": 0.9408,
+      "num_input_tokens_seen": 769483920,
+      "step": 1693,
+      "train_runtime": 122529.2607,
+      "train_tokens_per_second": 6280.001
+    },
+    {
+      "epoch": 2.050851786339258,
+      "grad_norm": 0.2536557614803314,
+      "learning_rate": 5e-06,
+      "loss": 0.9511,
+      "num_input_tokens_seen": 769932832,
+      "step": 1694,
+      "train_runtime": 122595.5738,
+      "train_tokens_per_second": 6280.266
+    },
+    {
+      "epoch": 2.0520625431568593,
+      "grad_norm": 0.24656134843826294,
+      "learning_rate": 5e-06,
+      "loss": 0.9051,
+      "num_input_tokens_seen": 770395072,
+      "step": 1695,
+      "train_runtime": 122663.6778,
+      "train_tokens_per_second": 6280.548
+    },
+    {
+      "epoch": 2.0532732999744607,
+      "grad_norm": 0.2536466419696808,
+      "learning_rate": 5e-06,
+      "loss": 0.8947,
+      "num_input_tokens_seen": 770853376,
+      "step": 1696,
+      "train_runtime": 122731.4511,
+      "train_tokens_per_second": 6280.814
+    },
+    {
+      "epoch": 2.054484056792062,
+      "grad_norm": 0.23972494900226593,
+      "learning_rate": 5e-06,
+      "loss": 0.9722,
+      "num_input_tokens_seen": 771293240,
+      "step": 1697,
+      "train_runtime": 122796.193,
+      "train_tokens_per_second": 6281.084
+    },
+    {
+      "epoch": 2.0556948136096636,
+      "grad_norm": 0.22034522891044617,
+      "learning_rate": 5e-06,
+      "loss": 0.923,
+      "num_input_tokens_seen": 771761160,
+      "step": 1698,
+      "train_runtime": 122865.4887,
+      "train_tokens_per_second": 6281.35
+    },
+    {
+      "epoch": 2.0569055704272645,
+      "grad_norm": 0.24163363873958588,
+      "learning_rate": 5e-06,
+      "loss": 0.902,
+      "num_input_tokens_seen": 772219904,
+      "step": 1699,
+      "train_runtime": 122932.45,
+      "train_tokens_per_second": 6281.66
+    },
+    {
+      "epoch": 2.058116327244866,
+      "grad_norm": 0.24234162271022797,
+      "learning_rate": 5e-06,
+      "loss": 0.9049,
+      "num_input_tokens_seen": 772676568,
+      "step": 1700,
+      "train_runtime": 123000.0639,
+      "train_tokens_per_second": 6281.92
+    },
+    {
+      "epoch": 2.0593270840624673,
+      "grad_norm": 0.259397029876709,
+      "learning_rate": 5e-06,
+      "loss": 0.9477,
+      "num_input_tokens_seen": 773113520,
+      "step": 1701,
+      "train_runtime": 123064.4333,
+      "train_tokens_per_second": 6282.185
+    },
+    {
+      "epoch": 2.0605378408800687,
+      "grad_norm": 0.22705447673797607,
+      "learning_rate": 5e-06,
+      "loss": 0.9678,
+      "num_input_tokens_seen": 773574592,
+      "step": 1702,
+      "train_runtime": 123132.6096,
+      "train_tokens_per_second": 6282.451
+    },
+    {
+      "epoch": 2.06174859769767,
+      "grad_norm": 0.25759419798851013,
+      "learning_rate": 5e-06,
+      "loss": 0.8677,
+      "num_input_tokens_seen": 774031056,
+      "step": 1703,
+      "train_runtime": 123199.736,
+      "train_tokens_per_second": 6282.733
+    },
+    {
+      "epoch": 2.0629593545152716,
+      "grad_norm": 0.26892176270484924,
+      "learning_rate": 5e-06,
+      "loss": 0.9933,
+      "num_input_tokens_seen": 774434376,
+      "step": 1704,
+      "train_runtime": 123258.9797,
+      "train_tokens_per_second": 6282.985
+    },
+    {
+      "epoch": 2.064170111332873,
+      "grad_norm": 0.26564693450927734,
+      "learning_rate": 5e-06,
+      "loss": 0.9881,
+      "num_input_tokens_seen": 774870928,
+      "step": 1705,
+      "train_runtime": 123323.0137,
+      "train_tokens_per_second": 6283.263
+    },
+    {
+      "epoch": 2.0653808681504744,
+      "grad_norm": 0.23933526873588562,
+      "learning_rate": 5e-06,
+      "loss": 0.9081,
+      "num_input_tokens_seen": 775321504,
+      "step": 1706,
+      "train_runtime": 123389.357,
+      "train_tokens_per_second": 6283.536
+    },
+    {
+      "epoch": 2.066591624968076,
+      "grad_norm": 0.261411190032959,
+      "learning_rate": 5e-06,
+      "loss": 0.9314,
+      "num_input_tokens_seen": 775797968,
+      "step": 1707,
+      "train_runtime": 123459.9465,
+      "train_tokens_per_second": 6283.803
+    },
+    {
+      "epoch": 2.067802381785677,
+      "grad_norm": 0.24829885363578796,
+      "learning_rate": 5e-06,
+      "loss": 0.9948,
+      "num_input_tokens_seen": 776232728,
+      "step": 1708,
+      "train_runtime": 123523.8479,
+      "train_tokens_per_second": 6284.072
+    },
+    {
+      "epoch": 2.0690131386032786,
+      "grad_norm": 0.24466580152511597,
+      "learning_rate": 5e-06,
+      "loss": 0.9643,
+      "num_input_tokens_seen": 776670512,
+      "step": 1709,
+      "train_runtime": 123588.3574,
+      "train_tokens_per_second": 6284.334
+    },
+    {
+      "epoch": 2.07022389542088,
+      "grad_norm": 0.2513468265533447,
+      "learning_rate": 5e-06,
+      "loss": 0.8985,
+      "num_input_tokens_seen": 777112832,
+      "step": 1710,
+      "train_runtime": 123653.4604,
+      "train_tokens_per_second": 6284.602
+    },
+    {
+      "epoch": 2.0714346522384814,
+      "grad_norm": 0.2488190084695816,
+      "learning_rate": 5e-06,
+      "loss": 0.9549,
+      "num_input_tokens_seen": 777563728,
+      "step": 1711,
+      "train_runtime": 123719.8041,
+      "train_tokens_per_second": 6284.877
+    },
+    {
+      "epoch": 2.072645409056083,
+      "grad_norm": 0.2452920526266098,
+      "learning_rate": 5e-06,
+      "loss": 0.8695,
+      "num_input_tokens_seen": 778016968,
+      "step": 1712,
+      "train_runtime": 123786.2393,
+      "train_tokens_per_second": 6285.165
+    },
+    {
+      "epoch": 2.073856165873684,
+      "grad_norm": 0.24354714155197144,
+      "learning_rate": 5e-06,
+      "loss": 0.9446,
+      "num_input_tokens_seen": 778467104,
+      "step": 1713,
+      "train_runtime": 123852.6969,
+      "train_tokens_per_second": 6285.427
+    },
+    {
+      "epoch": 2.0750669226912852,
+      "grad_norm": 0.2566715180873871,
+      "learning_rate": 5e-06,
+      "loss": 0.9057,
+      "num_input_tokens_seen": 778913672,
+      "step": 1714,
+      "train_runtime": 123918.4381,
+      "train_tokens_per_second": 6285.696
+    },
+    {
+      "epoch": 2.0762776795088866,
+      "grad_norm": 0.23084959387779236,
+      "learning_rate": 5e-06,
+      "loss": 0.9132,
+      "num_input_tokens_seen": 779369120,
+      "step": 1715,
+      "train_runtime": 123985.2855,
+      "train_tokens_per_second": 6285.981
+    },
+    {
+      "epoch": 2.077488436326488,
+      "grad_norm": 0.24119411408901215,
+      "learning_rate": 5e-06,
+      "loss": 0.9102,
+      "num_input_tokens_seen": 779831520,
+      "step": 1716,
+      "train_runtime": 124053.9529,
+      "train_tokens_per_second": 6286.229
+    },
+    {
+      "epoch": 2.0786991931440895,
+      "grad_norm": 0.24514897167682648,
+      "learning_rate": 5e-06,
+      "loss": 0.895,
+      "num_input_tokens_seen": 780292168,
+      "step": 1717,
+      "train_runtime": 124122.045,
+      "train_tokens_per_second": 6286.491
+    },
+    {
+      "epoch": 2.079909949961691,
+      "grad_norm": 0.2566341459751129,
+      "learning_rate": 5e-06,
+      "loss": 0.9118,
+      "num_input_tokens_seen": 780741608,
+      "step": 1718,
+      "train_runtime": 124188.5179,
+      "train_tokens_per_second": 6286.746
+    },
+    {
+      "epoch": 2.0811207067792923,
+      "grad_norm": 0.2600558400154114,
+      "learning_rate": 5e-06,
+      "loss": 0.9192,
+      "num_input_tokens_seen": 781191032,
+      "step": 1719,
+      "train_runtime": 124255.021,
+      "train_tokens_per_second": 6286.998
+    },
+    {
+      "epoch": 2.0823314635968937,
+      "grad_norm": 0.23223178088665009,
+      "learning_rate": 5e-06,
+      "loss": 0.963,
+      "num_input_tokens_seen": 781650672,
+      "step": 1720,
+      "train_runtime": 124322.857,
+      "train_tokens_per_second": 6287.264
+    },
+    {
+      "epoch": 2.083542220414495,
+      "grad_norm": 0.24753454327583313,
+      "learning_rate": 5e-06,
+      "loss": 0.9398,
+      "num_input_tokens_seen": 782098928,
+      "step": 1721,
+      "train_runtime": 124390.6893,
+      "train_tokens_per_second": 6287.439
+    },
+    {
+      "epoch": 2.0847529772320965,
+      "grad_norm": 0.25024259090423584,
+      "learning_rate": 5e-06,
+      "loss": 0.9395,
+      "num_input_tokens_seen": 782548672,
+      "step": 1722,
+      "train_runtime": 124457.3538,
+      "train_tokens_per_second": 6287.685
+    },
+    {
+      "epoch": 2.085963734049698,
+      "grad_norm": 0.22619232535362244,
+      "learning_rate": 5e-06,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 783008520,
+      "step": 1723,
+      "train_runtime": 124525.0193,
+      "train_tokens_per_second": 6287.961
+    },
+    {
+      "epoch": 2.0871744908672993,
+      "grad_norm": 0.2778150737285614,
+      "learning_rate": 5e-06,
+      "loss": 0.9461,
+      "num_input_tokens_seen": 783477736,
+      "step": 1724,
+      "train_runtime": 124593.7565,
+      "train_tokens_per_second": 6288.258
+    },
+    {
+      "epoch": 2.0883852476849007,
+      "grad_norm": 0.24901039898395538,
+      "learning_rate": 5e-06,
+      "loss": 0.995,
+      "num_input_tokens_seen": 783923816,
+      "step": 1725,
+      "train_runtime": 124659.2402,
+      "train_tokens_per_second": 6288.534
+    },
+    {
+      "epoch": 2.0895960045025017,
+      "grad_norm": 0.27725812792778015,
+      "learning_rate": 5e-06,
+      "loss": 0.8965,
+      "num_input_tokens_seen": 784361728,
+      "step": 1726,
+      "train_runtime": 124723.8291,
+      "train_tokens_per_second": 6288.788
+    },
+    {
+      "epoch": 2.090806761320103,
+      "grad_norm": 0.26983052492141724,
+      "learning_rate": 5e-06,
+      "loss": 0.8786,
+      "num_input_tokens_seen": 784809792,
+      "step": 1727,
+      "train_runtime": 124789.805,
+      "train_tokens_per_second": 6289.054
+    },
+    {
+      "epoch": 2.0920175181377045,
+      "grad_norm": 0.2453075647354126,
+      "learning_rate": 5e-06,
+      "loss": 0.893,
+      "num_input_tokens_seen": 785274824,
+      "step": 1728,
+      "train_runtime": 124857.9453,
+      "train_tokens_per_second": 6289.346
+    },
+    {
+      "epoch": 2.093228274955306,
+      "grad_norm": 0.2598790228366852,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 785730496,
+      "step": 1729,
+      "train_runtime": 124924.8416,
+      "train_tokens_per_second": 6289.626
+    },
+    {
+      "epoch": 2.0944390317729074,
+      "grad_norm": 0.24463999271392822,
+      "learning_rate": 5e-06,
+      "loss": 0.9228,
+      "num_input_tokens_seen": 786166712,
+      "step": 1730,
+      "train_runtime": 124989.1875,
+      "train_tokens_per_second": 6289.878
+    },
+    {
+      "epoch": 2.0956497885905088,
+      "grad_norm": 0.2674955129623413,
+      "learning_rate": 5e-06,
+      "loss": 0.9096,
+      "num_input_tokens_seen": 786592656,
+      "step": 1731,
+      "train_runtime": 125051.8506,
+      "train_tokens_per_second": 6290.132
+    },
+    {
+      "epoch": 2.09686054540811,
+      "grad_norm": 0.25729501247406006,
+      "learning_rate": 5e-06,
+      "loss": 0.946,
+      "num_input_tokens_seen": 787068024,
+      "step": 1732,
+      "train_runtime": 125122.4222,
+      "train_tokens_per_second": 6290.384
+    },
+    {
+      "epoch": 2.0980713022257116,
+      "grad_norm": 0.25448042154312134,
+      "learning_rate": 5e-06,
+      "loss": 0.8971,
+      "num_input_tokens_seen": 787513456,
+      "step": 1733,
+      "train_runtime": 125188.7353,
+      "train_tokens_per_second": 6290.61
+    },
+    {
+      "epoch": 2.099282059043313,
+      "grad_norm": 0.22716376185417175,
+      "learning_rate": 5e-06,
+      "loss": 0.916,
+      "num_input_tokens_seen": 787957768,
+      "step": 1734,
+      "train_runtime": 125253.9247,
+      "train_tokens_per_second": 6290.883
+    },
+    {
+      "epoch": 2.1004928158609144,
+      "grad_norm": 0.2653203010559082,
+      "learning_rate": 5e-06,
+      "loss": 0.9091,
+      "num_input_tokens_seen": 788385664,
+      "step": 1735,
+      "train_runtime": 125317.0041,
+      "train_tokens_per_second": 6291.131
+    },
+    {
+      "epoch": 2.101703572678516,
+      "grad_norm": 0.2422814965248108,
+      "learning_rate": 5e-06,
+      "loss": 0.927,
+      "num_input_tokens_seen": 788859096,
+      "step": 1736,
+      "train_runtime": 125386.8684,
+      "train_tokens_per_second": 6291.401
+    },
+    {
+      "epoch": 2.1029143294961172,
+      "grad_norm": 0.2769072651863098,
+      "learning_rate": 5e-06,
+      "loss": 0.9175,
+      "num_input_tokens_seen": 789313272,
+      "step": 1737,
+      "train_runtime": 125454.0354,
+      "train_tokens_per_second": 6291.653
+    },
+    {
+      "epoch": 2.1041250863137186,
+      "grad_norm": 0.24323880672454834,
+      "learning_rate": 5e-06,
+      "loss": 0.8791,
+      "num_input_tokens_seen": 789751800,
+      "step": 1738,
+      "train_runtime": 125518.7718,
+      "train_tokens_per_second": 6291.902
+    },
+    {
+      "epoch": 2.1053358431313196,
+      "grad_norm": 0.23501011729240417,
+      "learning_rate": 5e-06,
+      "loss": 0.982,
+      "num_input_tokens_seen": 790204272,
+      "step": 1739,
+      "train_runtime": 125585.6763,
+      "train_tokens_per_second": 6292.153
+    },
+    {
+      "epoch": 2.106546599948921,
+      "grad_norm": 0.2527690529823303,
+      "learning_rate": 5e-06,
+      "loss": 0.9606,
+      "num_input_tokens_seen": 790653104,
+      "step": 1740,
+      "train_runtime": 125651.8735,
+      "train_tokens_per_second": 6292.41
+    },
+    {
+      "epoch": 2.1077573567665224,
+      "grad_norm": 0.23906171321868896,
+      "learning_rate": 5e-06,
+      "loss": 0.8936,
+      "num_input_tokens_seen": 791130304,
+      "step": 1741,
+      "train_runtime": 125722.4514,
+      "train_tokens_per_second": 6292.673
+    },
+    {
+      "epoch": 2.108968113584124,
+      "grad_norm": 0.26574084162712097,
+      "learning_rate": 5e-06,
+      "loss": 0.8722,
+      "num_input_tokens_seen": 791579192,
+      "step": 1742,
+      "train_runtime": 125788.8875,
+      "train_tokens_per_second": 6292.918
+    },
+    {
+      "epoch": 2.1101788704017252,
+      "grad_norm": 0.2502514123916626,
+      "learning_rate": 5e-06,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 792041488,
+      "step": 1743,
+      "train_runtime": 125857.0394,
+      "train_tokens_per_second": 6293.184
+    },
+    {
+      "epoch": 2.1113896272193267,
+      "grad_norm": 0.23396193981170654,
+      "learning_rate": 5e-06,
+      "loss": 0.8746,
+      "num_input_tokens_seen": 792517888,
+      "step": 1744,
+      "train_runtime": 125927.6031,
+      "train_tokens_per_second": 6293.441
+    },
+    {
+      "epoch": 2.112600384036928,
+      "grad_norm": 0.23824480175971985,
+      "learning_rate": 5e-06,
+      "loss": 0.9406,
+      "num_input_tokens_seen": 792972896,
+      "step": 1745,
+      "train_runtime": 125994.9999,
+      "train_tokens_per_second": 6293.685
+    },
+    {
+      "epoch": 2.1138111408545295,
+      "grad_norm": 0.2447684109210968,
+      "learning_rate": 5e-06,
+      "loss": 0.9068,
+      "num_input_tokens_seen": 793422832,
+      "step": 1746,
+      "train_runtime": 126061.4363,
+      "train_tokens_per_second": 6293.938
+    },
+    {
+      "epoch": 2.115021897672131,
+      "grad_norm": 0.22363825142383575,
+      "learning_rate": 5e-06,
+      "loss": 0.8694,
+      "num_input_tokens_seen": 793880960,
+      "step": 1747,
+      "train_runtime": 126129.4678,
+      "train_tokens_per_second": 6294.175
+    },
+    {
+      "epoch": 2.1162326544897323,
+      "grad_norm": 0.23261670768260956,
+      "learning_rate": 5e-06,
+      "loss": 0.9484,
+      "num_input_tokens_seen": 794328136,
+      "step": 1748,
+      "train_runtime": 126195.2383,
+      "train_tokens_per_second": 6294.438
+    },
+    {
+      "epoch": 2.1174434113073337,
+      "grad_norm": 0.22803719341754913,
+      "learning_rate": 5e-06,
+      "loss": 0.8902,
+      "num_input_tokens_seen": 794810736,
+      "step": 1749,
+      "train_runtime": 126266.3352,
+      "train_tokens_per_second": 6294.716
+    },
+    {
+      "epoch": 2.118654168124935,
+      "grad_norm": 0.23991791903972626,
+      "learning_rate": 5e-06,
+      "loss": 0.9623,
+      "num_input_tokens_seen": 795239912,
+      "step": 1750,
+      "train_runtime": 126329.1962,
+      "train_tokens_per_second": 6294.981
+    },
+    {
+      "epoch": 2.1198649249425365,
+      "grad_norm": 0.2476852983236313,
+      "learning_rate": 5e-06,
+      "loss": 0.9741,
+      "num_input_tokens_seen": 795711584,
+      "step": 1751,
+      "train_runtime": 126398.9592,
+      "train_tokens_per_second": 6295.238
+    },
+    {
+      "epoch": 2.1210756817601375,
+      "grad_norm": 0.24314959347248077,
+      "learning_rate": 5e-06,
+      "loss": 0.9451,
+      "num_input_tokens_seen": 796160352,
+      "step": 1752,
+      "train_runtime": 126464.8762,
+      "train_tokens_per_second": 6295.506
+    },
+    {
+      "epoch": 2.122286438577739,
+      "grad_norm": 0.24649563431739807,
+      "learning_rate": 5e-06,
+      "loss": 0.9477,
+      "num_input_tokens_seen": 796618904,
+      "step": 1753,
+      "train_runtime": 126532.6819,
+      "train_tokens_per_second": 6295.756
+    },
+    {
+      "epoch": 2.1234971953953403,
+      "grad_norm": 0.2568952441215515,
+      "learning_rate": 5e-06,
+      "loss": 0.9223,
+      "num_input_tokens_seen": 797063056,
+      "step": 1754,
+      "train_runtime": 126598.1871,
+      "train_tokens_per_second": 6296.007
+    },
+    {
+      "epoch": 2.1247079522129417,
+      "grad_norm": 0.22107072174549103,
+      "learning_rate": 5e-06,
+      "loss": 0.8551,
+      "num_input_tokens_seen": 797544816,
+      "step": 1755,
+      "train_runtime": 126669.3768,
+      "train_tokens_per_second": 6296.272
+    },
+    {
+      "epoch": 2.125918709030543,
+      "grad_norm": 0.29669317603111267,
+      "learning_rate": 5e-06,
+      "loss": 0.9065,
+      "num_input_tokens_seen": 797998352,
+      "step": 1756,
+      "train_runtime": 126736.3752,
+      "train_tokens_per_second": 6296.522
+    },
+    {
+      "epoch": 2.1271294658481446,
+      "grad_norm": 0.2783910036087036,
+      "learning_rate": 5e-06,
+      "loss": 0.9066,
+      "num_input_tokens_seen": 798444912,
+      "step": 1757,
+      "train_runtime": 126801.8963,
+      "train_tokens_per_second": 6296.79
+    },
+    {
+      "epoch": 2.128340222665746,
+      "grad_norm": 0.2530405819416046,
+      "learning_rate": 5e-06,
+      "loss": 0.9181,
+      "num_input_tokens_seen": 798908496,
+      "step": 1758,
+      "train_runtime": 126870.3737,
+      "train_tokens_per_second": 6297.045
+    },
+    {
+      "epoch": 2.1295509794833474,
+      "grad_norm": 0.24973563849925995,
+      "learning_rate": 5e-06,
+      "loss": 0.9519,
+      "num_input_tokens_seen": 799355104,
+      "step": 1759,
+      "train_runtime": 126936.2803,
+      "train_tokens_per_second": 6297.294
+    },
+    {
+      "epoch": 2.130761736300949,
+      "grad_norm": 0.24954435229301453,
+      "learning_rate": 5e-06,
+      "loss": 0.9068,
+      "num_input_tokens_seen": 799829328,
+      "step": 1760,
+      "train_runtime": 127006.5431,
+      "train_tokens_per_second": 6297.544
+    },
+    {
+      "epoch": 2.13197249311855,
+      "grad_norm": 0.2468835860490799,
+      "learning_rate": 5e-06,
+      "loss": 0.905,
+      "num_input_tokens_seen": 800297592,
+      "step": 1761,
+      "train_runtime": 127075.8817,
+      "train_tokens_per_second": 6297.793
+    },
+    {
+      "epoch": 2.1331832499361516,
+      "grad_norm": 0.24968093633651733,
+      "learning_rate": 5e-06,
+      "loss": 0.9725,
+      "num_input_tokens_seen": 800745464,
+      "step": 1762,
+      "train_runtime": 127141.6011,
+      "train_tokens_per_second": 6298.06
+    },
+    {
+      "epoch": 2.134394006753753,
+      "grad_norm": 0.24861465394496918,
+      "learning_rate": 5e-06,
+      "loss": 0.9453,
+      "num_input_tokens_seen": 801182160,
+      "step": 1763,
+      "train_runtime": 127205.6251,
+      "train_tokens_per_second": 6298.323
+    },
+    {
+      "epoch": 2.1356047635713544,
+      "grad_norm": 0.2691054940223694,
+      "learning_rate": 5e-06,
+      "loss": 0.9744,
+      "num_input_tokens_seen": 801626032,
+      "step": 1764,
+      "train_runtime": 127271.2495,
+      "train_tokens_per_second": 6298.563
+    },
+    {
+      "epoch": 2.136815520388956,
+      "grad_norm": 0.2613939046859741,
+      "learning_rate": 5e-06,
+      "loss": 0.9207,
+      "num_input_tokens_seen": 802080576,
+      "step": 1765,
+      "train_runtime": 127338.2741,
+      "train_tokens_per_second": 6298.818
+    },
+    {
+      "epoch": 2.138026277206557,
+      "grad_norm": 0.2544805407524109,
+      "learning_rate": 5e-06,
+      "loss": 0.9109,
+      "num_input_tokens_seen": 802543280,
+      "step": 1766,
+      "train_runtime": 127406.2366,
+      "train_tokens_per_second": 6299.089
+    },
+    {
+      "epoch": 2.139237034024158,
+      "grad_norm": 0.25102829933166504,
+      "learning_rate": 5e-06,
+      "loss": 0.9391,
+      "num_input_tokens_seen": 802991496,
+      "step": 1767,
+      "train_runtime": 127472.4744,
+      "train_tokens_per_second": 6299.332
+    },
+    {
+      "epoch": 2.1404477908417596,
+      "grad_norm": 0.22922591865062714,
+      "learning_rate": 5e-06,
+      "loss": 0.8899,
+      "num_input_tokens_seen": 803454416,
+      "step": 1768,
+      "train_runtime": 127540.4672,
+      "train_tokens_per_second": 6299.604
+    },
+    {
+      "epoch": 2.141658547659361,
+      "grad_norm": 0.24334551393985748,
+      "learning_rate": 5e-06,
+      "loss": 0.9564,
+      "num_input_tokens_seen": 803898848,
+      "step": 1769,
+      "train_runtime": 127606.0132,
+      "train_tokens_per_second": 6299.851
+    },
+    {
+      "epoch": 2.1428693044769624,
+      "grad_norm": 0.26398375630378723,
+      "learning_rate": 5e-06,
+      "loss": 0.9162,
+      "num_input_tokens_seen": 804346008,
+      "step": 1770,
+      "train_runtime": 127671.9825,
+      "train_tokens_per_second": 6300.098
+    },
+    {
+      "epoch": 2.144080061294564,
+      "grad_norm": 0.26432764530181885,
+      "learning_rate": 5e-06,
+      "loss": 0.9098,
+      "num_input_tokens_seen": 804800632,
+      "step": 1771,
+      "train_runtime": 127739.566,
+      "train_tokens_per_second": 6300.324
+    },
+    {
+      "epoch": 2.1452908181121653,
+      "grad_norm": 0.24564692378044128,
+      "learning_rate": 5e-06,
+      "loss": 0.9261,
+      "num_input_tokens_seen": 805243600,
+      "step": 1772,
+      "train_runtime": 127804.5626,
+      "train_tokens_per_second": 6300.586
+    },
+    {
+      "epoch": 2.1465015749297667,
+      "grad_norm": 0.2491164207458496,
+      "learning_rate": 5e-06,
+      "loss": 0.9222,
+      "num_input_tokens_seen": 805698520,
+      "step": 1773,
+      "train_runtime": 127871.3074,
+      "train_tokens_per_second": 6300.855
+    },
+    {
+      "epoch": 2.147712331747368,
+      "grad_norm": 0.2387707233428955,
+      "learning_rate": 5e-06,
+      "loss": 0.971,
+      "num_input_tokens_seen": 806151760,
+      "step": 1774,
+      "train_runtime": 127938.8195,
+      "train_tokens_per_second": 6301.072
+    },
+    {
+      "epoch": 2.1489230885649695,
+      "grad_norm": 0.2344633936882019,
+      "learning_rate": 5e-06,
+      "loss": 0.8934,
+      "num_input_tokens_seen": 806619560,
+      "step": 1775,
+      "train_runtime": 128009.9227,
+      "train_tokens_per_second": 6301.227
+    },
+    {
+      "epoch": 2.150133845382571,
+      "grad_norm": 0.25677409768104553,
+      "learning_rate": 5e-06,
+      "loss": 0.9392,
+      "num_input_tokens_seen": 807056520,
+      "step": 1776,
+      "train_runtime": 128074.5031,
+      "train_tokens_per_second": 6301.461
+    },
+    {
+      "epoch": 2.1513446022001723,
+      "grad_norm": 0.24254010617733002,
+      "learning_rate": 5e-06,
+      "loss": 0.8995,
+      "num_input_tokens_seen": 807505104,
+      "step": 1777,
+      "train_runtime": 128140.1656,
+      "train_tokens_per_second": 6301.733
+    },
+    {
+      "epoch": 2.1525553590177737,
+      "grad_norm": 0.2752172350883484,
+      "learning_rate": 5e-06,
+      "loss": 0.885,
+      "num_input_tokens_seen": 807940568,
+      "step": 1778,
+      "train_runtime": 128204.0096,
+      "train_tokens_per_second": 6301.991
+    },
+    {
+      "epoch": 2.153766115835375,
+      "grad_norm": 0.25673961639404297,
+      "learning_rate": 5e-06,
+      "loss": 0.9249,
+      "num_input_tokens_seen": 808380984,
+      "step": 1779,
+      "train_runtime": 128269.2141,
+      "train_tokens_per_second": 6302.221
+    },
+    {
+      "epoch": 2.154976872652976,
+      "grad_norm": 0.24344174563884735,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 808834400,
+      "step": 1780,
+      "train_runtime": 128335.406,
+      "train_tokens_per_second": 6302.504
+    },
+    {
+      "epoch": 2.1561876294705775,
+      "grad_norm": 0.23879307508468628,
+      "learning_rate": 5e-06,
+      "loss": 0.8993,
+      "num_input_tokens_seen": 809277672,
+      "step": 1781,
+      "train_runtime": 128400.9451,
+      "train_tokens_per_second": 6302.739
+    },
+    {
+      "epoch": 2.157398386288179,
+      "grad_norm": 0.24937401711940765,
+      "learning_rate": 5e-06,
+      "loss": 0.9594,
+      "num_input_tokens_seen": 809742248,
+      "step": 1782,
+      "train_runtime": 128469.3459,
+      "train_tokens_per_second": 6303.0
+    },
+    {
+      "epoch": 2.1586091431057803,
+      "grad_norm": 0.2503887414932251,
+      "learning_rate": 5e-06,
+      "loss": 0.9878,
+      "num_input_tokens_seen": 810215920,
+      "step": 1783,
+      "train_runtime": 128539.3636,
+      "train_tokens_per_second": 6303.251
+    },
+    {
+      "epoch": 2.1598198999233817,
+      "grad_norm": 0.2328265905380249,
+      "learning_rate": 5e-06,
+      "loss": 0.9034,
+      "num_input_tokens_seen": 810667968,
+      "step": 1784,
+      "train_runtime": 128605.684,
+      "train_tokens_per_second": 6303.516
+    },
+    {
+      "epoch": 2.161030656740983,
+      "grad_norm": 0.27375268936157227,
+      "learning_rate": 5e-06,
+      "loss": 0.9682,
+      "num_input_tokens_seen": 811105360,
+      "step": 1785,
+      "train_runtime": 128670.1265,
+      "train_tokens_per_second": 6303.758
+    },
+    {
+      "epoch": 2.1622414135585846,
+      "grad_norm": 0.24299326539039612,
+      "learning_rate": 5e-06,
+      "loss": 0.9181,
+      "num_input_tokens_seen": 811562264,
+      "step": 1786,
+      "train_runtime": 128737.81,
+      "train_tokens_per_second": 6303.993
+    },
+    {
+      "epoch": 2.163452170376186,
+      "grad_norm": 0.25592973828315735,
+      "learning_rate": 5e-06,
+      "loss": 0.9622,
+      "num_input_tokens_seen": 812023096,
+      "step": 1787,
+      "train_runtime": 128805.4346,
+      "train_tokens_per_second": 6304.261
+    },
+    {
+      "epoch": 2.1646629271937874,
+      "grad_norm": 0.27488279342651367,
+      "learning_rate": 5e-06,
+      "loss": 0.8852,
+      "num_input_tokens_seen": 812487488,
+      "step": 1788,
+      "train_runtime": 128874.145,
+      "train_tokens_per_second": 6304.503
+    },
+    {
+      "epoch": 2.165873684011389,
+      "grad_norm": 0.22598235309123993,
+      "learning_rate": 5e-06,
+      "loss": 0.8803,
+      "num_input_tokens_seen": 812951528,
+      "step": 1789,
+      "train_runtime": 128942.4621,
+      "train_tokens_per_second": 6304.762
+    },
+    {
+      "epoch": 2.16708444082899,
+      "grad_norm": 0.2569931149482727,
+      "learning_rate": 5e-06,
+      "loss": 0.9139,
+      "num_input_tokens_seen": 813382096,
+      "step": 1790,
+      "train_runtime": 129005.9065,
+      "train_tokens_per_second": 6304.999
+    },
+    {
+      "epoch": 2.1682951976465916,
+      "grad_norm": 0.24193847179412842,
+      "learning_rate": 5e-06,
+      "loss": 0.9344,
+      "num_input_tokens_seen": 813843352,
+      "step": 1791,
+      "train_runtime": 129073.5943,
+      "train_tokens_per_second": 6305.266
+    },
+    {
+      "epoch": 2.169505954464193,
+      "grad_norm": 0.23365779221057892,
+      "learning_rate": 5e-06,
+      "loss": 0.949,
+      "num_input_tokens_seen": 814308480,
+      "step": 1792,
+      "train_runtime": 129142.3657,
+      "train_tokens_per_second": 6305.51
+    },
+    {
+      "epoch": 2.170716711281794,
+      "grad_norm": 0.23331047594547272,
+      "learning_rate": 5e-06,
+      "loss": 0.9625,
+      "num_input_tokens_seen": 814747656,
+      "step": 1793,
+      "train_runtime": 129207.0033,
+      "train_tokens_per_second": 6305.755
+    },
+    {
+      "epoch": 2.1719274680993954,
+      "grad_norm": 0.26496171951293945,
+      "learning_rate": 5e-06,
+      "loss": 0.9196,
+      "num_input_tokens_seen": 815206384,
+      "step": 1794,
+      "train_runtime": 129274.5471,
+      "train_tokens_per_second": 6306.008
+    },
+    {
+      "epoch": 2.173138224916997,
+      "grad_norm": 0.23653088510036469,
+      "learning_rate": 5e-06,
+      "loss": 0.9278,
+      "num_input_tokens_seen": 815662072,
+      "step": 1795,
+      "train_runtime": 129341.8841,
+      "train_tokens_per_second": 6306.249
+    },
+    {
+      "epoch": 2.1743489817345982,
+      "grad_norm": 0.24810637533664703,
+      "learning_rate": 5e-06,
+      "loss": 0.9657,
+      "num_input_tokens_seen": 816098360,
+      "step": 1796,
+      "train_runtime": 129406.0312,
+      "train_tokens_per_second": 6306.494
+    },
+    {
+      "epoch": 2.1755597385521996,
+      "grad_norm": 0.23452900350093842,
+      "learning_rate": 5e-06,
+      "loss": 0.901,
+      "num_input_tokens_seen": 816563568,
+      "step": 1797,
+      "train_runtime": 129474.7386,
+      "train_tokens_per_second": 6306.74
+    },
+    {
+      "epoch": 2.176770495369801,
+      "grad_norm": 0.2348732203245163,
+      "learning_rate": 5e-06,
+      "loss": 0.9526,
+      "num_input_tokens_seen": 817031280,
+      "step": 1798,
+      "train_runtime": 129544.0556,
+      "train_tokens_per_second": 6306.976
+    },
+    {
+      "epoch": 2.1779812521874025,
+      "grad_norm": 0.2519684135913849,
+      "learning_rate": 5e-06,
+      "loss": 0.9246,
+      "num_input_tokens_seen": 817503224,
+      "step": 1799,
+      "train_runtime": 129613.556,
+      "train_tokens_per_second": 6307.236
+    },
+    {
+      "epoch": 2.179192009005004,
+      "grad_norm": 0.2337455451488495,
+      "learning_rate": 5e-06,
+      "loss": 0.9357,
+      "num_input_tokens_seen": 817952256,
+      "step": 1800,
+      "train_runtime": 129679.9959,
+      "train_tokens_per_second": 6307.467
+    },
+    {
+      "epoch": 2.1804027658226053,
+      "grad_norm": 0.22144410014152527,
+      "learning_rate": 5e-06,
+      "loss": 0.9059,
+      "num_input_tokens_seen": 818411048,
+      "step": 1801,
+      "train_runtime": 129748.001,
+      "train_tokens_per_second": 6307.697
+    },
+    {
+      "epoch": 2.1816135226402067,
+      "grad_norm": 0.23474140465259552,
+      "learning_rate": 5e-06,
+      "loss": 0.9692,
+      "num_input_tokens_seen": 818854960,
+      "step": 1802,
+      "train_runtime": 129813.7428,
+      "train_tokens_per_second": 6307.922
+    },
+    {
+      "epoch": 2.182824279457808,
+      "grad_norm": 0.2501378357410431,
+      "learning_rate": 5e-06,
+      "loss": 0.9379,
+      "num_input_tokens_seen": 819305080,
+      "step": 1803,
+      "train_runtime": 129880.2273,
+      "train_tokens_per_second": 6308.159
+    },
+    {
+      "epoch": 2.1840350362754095,
+      "grad_norm": 0.2469998002052307,
+      "learning_rate": 5e-06,
+      "loss": 0.9185,
+      "num_input_tokens_seen": 819758552,
+      "step": 1804,
+      "train_runtime": 129947.1113,
+      "train_tokens_per_second": 6308.402
+    },
+    {
+      "epoch": 2.185245793093011,
+      "grad_norm": 0.24533340334892273,
+      "learning_rate": 5e-06,
+      "loss": 0.9593,
+      "num_input_tokens_seen": 820199856,
+      "step": 1805,
+      "train_runtime": 130012.1095,
+      "train_tokens_per_second": 6308.642
+    },
+    {
+      "epoch": 2.186456549910612,
+      "grad_norm": 0.24642273783683777,
+      "learning_rate": 5e-06,
+      "loss": 0.934,
+      "num_input_tokens_seen": 820657760,
+      "step": 1806,
+      "train_runtime": 130084.5055,
+      "train_tokens_per_second": 6308.651
+    },
+    {
+      "epoch": 2.1876673067282133,
+      "grad_norm": 0.24866892397403717,
+      "learning_rate": 5e-06,
+      "loss": 0.9497,
+      "num_input_tokens_seen": 821100408,
+      "step": 1807,
+      "train_runtime": 130154.3541,
+      "train_tokens_per_second": 6308.666
+    },
+    {
+      "epoch": 2.1888780635458147,
+      "grad_norm": 0.24068208038806915,
+      "learning_rate": 5e-06,
+      "loss": 0.985,
+      "num_input_tokens_seen": 821535944,
+      "step": 1808,
+      "train_runtime": 130223.3035,
+      "train_tokens_per_second": 6308.671
+    },
+    {
+      "epoch": 2.190088820363416,
+      "grad_norm": 0.2489953488111496,
+      "learning_rate": 5e-06,
+      "loss": 0.9605,
+      "num_input_tokens_seen": 822016328,
+      "step": 1809,
+      "train_runtime": 130299.4476,
+      "train_tokens_per_second": 6308.671
+    },
+    {
+      "epoch": 2.1912995771810175,
+      "grad_norm": 0.2993757724761963,
+      "learning_rate": 5e-06,
+      "loss": 0.9075,
+      "num_input_tokens_seen": 822468376,
+      "step": 1810,
+      "train_runtime": 130370.0272,
+      "train_tokens_per_second": 6308.723
+    },
+    {
+      "epoch": 2.192510333998619,
+      "grad_norm": 0.23804070055484772,
+      "learning_rate": 5e-06,
+      "loss": 0.8944,
+      "num_input_tokens_seen": 822908128,
+      "step": 1811,
+      "train_runtime": 130439.4385,
+      "train_tokens_per_second": 6308.737
+    },
+    {
+      "epoch": 2.1937210908162204,
+      "grad_norm": 0.2520151734352112,
+      "learning_rate": 5e-06,
+      "loss": 0.9288,
+      "num_input_tokens_seen": 823370440,
+      "step": 1812,
+      "train_runtime": 130512.4486,
+      "train_tokens_per_second": 6308.75
+    },
+    {
+      "epoch": 2.1949318476338218,
+      "grad_norm": 0.27723604440689087,
+      "learning_rate": 5e-06,
+      "loss": 0.9607,
+      "num_input_tokens_seen": 823827464,
+      "step": 1813,
+      "train_runtime": 130584.4904,
+      "train_tokens_per_second": 6308.77
+    },
+    {
+      "epoch": 2.196142604451423,
+      "grad_norm": 0.24269568920135498,
+      "learning_rate": 5e-06,
+      "loss": 0.8963,
+      "num_input_tokens_seen": 824292328,
+      "step": 1814,
+      "train_runtime": 130657.7113,
+      "train_tokens_per_second": 6308.792
+    },
+    {
+      "epoch": 2.1973533612690246,
+      "grad_norm": 0.2714741826057434,
+      "learning_rate": 5e-06,
+      "loss": 0.9484,
+      "num_input_tokens_seen": 824727776,
+      "step": 1815,
+      "train_runtime": 130725.9019,
+      "train_tokens_per_second": 6308.832
+    },
+    {
+      "epoch": 2.198564118086626,
+      "grad_norm": 0.2618526518344879,
+      "learning_rate": 5e-06,
+      "loss": 0.88,
+      "num_input_tokens_seen": 825185376,
+      "step": 1816,
+      "train_runtime": 130798.1284,
+      "train_tokens_per_second": 6308.847
+    },
+    {
+      "epoch": 2.1997748749042274,
+      "grad_norm": 0.23151424527168274,
+      "learning_rate": 5e-06,
+      "loss": 0.9386,
+      "num_input_tokens_seen": 825654456,
+      "step": 1817,
+      "train_runtime": 130871.6577,
+      "train_tokens_per_second": 6308.887
+    },
+    {
+      "epoch": 2.200985631721829,
+      "grad_norm": 0.2615219056606293,
+      "learning_rate": 5e-06,
+      "loss": 0.9338,
+      "num_input_tokens_seen": 826103496,
+      "step": 1818,
+      "train_runtime": 130942.5052,
+      "train_tokens_per_second": 6308.902
+    },
+    {
+      "epoch": 2.20219638853943,
+      "grad_norm": 0.24982737004756927,
+      "learning_rate": 5e-06,
+      "loss": 0.9204,
+      "num_input_tokens_seen": 826591216,
+      "step": 1819,
+      "train_runtime": 131020.0461,
+      "train_tokens_per_second": 6308.891
+    },
+    {
+      "epoch": 2.203407145357031,
+      "grad_norm": 0.2572263479232788,
+      "learning_rate": 5e-06,
+      "loss": 0.8943,
+      "num_input_tokens_seen": 827049808,
+      "step": 1820,
+      "train_runtime": 131088.1052,
+      "train_tokens_per_second": 6309.114
+    },
+    {
+      "epoch": 2.2046179021746326,
+      "grad_norm": 0.2785727083683014,
+      "learning_rate": 5e-06,
+      "loss": 0.953,
+      "num_input_tokens_seen": 827506440,
+      "step": 1821,
+      "train_runtime": 131155.3257,
+      "train_tokens_per_second": 6309.362
+    },
+    {
+      "epoch": 2.205828658992234,
+      "grad_norm": 0.23997686803340912,
+      "learning_rate": 5e-06,
+      "loss": 0.9181,
+      "num_input_tokens_seen": 827997808,
+      "step": 1822,
+      "train_runtime": 131228.0259,
+      "train_tokens_per_second": 6309.611
+    },
+    {
+      "epoch": 2.2070394158098354,
+      "grad_norm": 0.2337905317544937,
+      "learning_rate": 5e-06,
+      "loss": 0.8995,
+      "num_input_tokens_seen": 828443496,
+      "step": 1823,
+      "train_runtime": 131293.7615,
+      "train_tokens_per_second": 6309.847
+    },
+    {
+      "epoch": 2.208250172627437,
+      "grad_norm": 0.22939272224903107,
+      "learning_rate": 5e-06,
+      "loss": 0.9455,
+      "num_input_tokens_seen": 828911096,
+      "step": 1824,
+      "train_runtime": 131363.1117,
+      "train_tokens_per_second": 6310.075
+    },
+    {
+      "epoch": 2.2094609294450382,
+      "grad_norm": 0.3020130693912506,
+      "learning_rate": 5e-06,
+      "loss": 0.9275,
+      "num_input_tokens_seen": 829374400,
+      "step": 1825,
+      "train_runtime": 131431.3819,
+      "train_tokens_per_second": 6310.322
+    },
+    {
+      "epoch": 2.2106716862626397,
+      "grad_norm": 0.25360703468322754,
+      "learning_rate": 5e-06,
+      "loss": 0.9106,
+      "num_input_tokens_seen": 829831288,
+      "step": 1826,
+      "train_runtime": 131498.3697,
+      "train_tokens_per_second": 6310.582
+    },
+    {
+      "epoch": 2.211882443080241,
+      "grad_norm": 0.24077729880809784,
+      "learning_rate": 5e-06,
+      "loss": 0.9154,
+      "num_input_tokens_seen": 830266224,
+      "step": 1827,
+      "train_runtime": 131564.1036,
+      "train_tokens_per_second": 6310.735
+    },
+    {
+      "epoch": 2.2130931998978425,
+      "grad_norm": 0.26646628975868225,
+      "learning_rate": 5e-06,
+      "loss": 0.9073,
+      "num_input_tokens_seen": 830695456,
+      "step": 1828,
+      "train_runtime": 131628.3066,
+      "train_tokens_per_second": 6310.918
+    },
+    {
+      "epoch": 2.214303956715444,
+      "grad_norm": 0.24032685160636902,
+      "learning_rate": 5e-06,
+      "loss": 0.9257,
+      "num_input_tokens_seen": 831167968,
+      "step": 1829,
+      "train_runtime": 131697.9225,
+      "train_tokens_per_second": 6311.17
+    },
+    {
+      "epoch": 2.2155147135330453,
+      "grad_norm": 0.24201683700084686,
+      "learning_rate": 5e-06,
+      "loss": 0.9432,
+      "num_input_tokens_seen": 831603632,
+      "step": 1830,
+      "train_runtime": 131762.2198,
+      "train_tokens_per_second": 6311.397
+    },
+    {
+      "epoch": 2.2167254703506467,
+      "grad_norm": 0.25040099024772644,
+      "learning_rate": 5e-06,
+      "loss": 0.9309,
+      "num_input_tokens_seen": 832060792,
+      "step": 1831,
+      "train_runtime": 131829.2539,
+      "train_tokens_per_second": 6311.655
+    },
+    {
+      "epoch": 2.2179362271682477,
+      "grad_norm": 0.2554630935192108,
+      "learning_rate": 5e-06,
+      "loss": 0.9374,
+      "num_input_tokens_seen": 832517720,
+      "step": 1832,
+      "train_runtime": 131896.5149,
+      "train_tokens_per_second": 6311.901
+    },
+    {
+      "epoch": 2.219146983985849,
+      "grad_norm": 0.2625337839126587,
+      "learning_rate": 5e-06,
+      "loss": 0.8854,
+      "num_input_tokens_seen": 832952008,
+      "step": 1833,
+      "train_runtime": 131960.5471,
+      "train_tokens_per_second": 6312.129
+    },
+    {
+      "epoch": 2.2203577408034505,
+      "grad_norm": 0.250442236661911,
+      "learning_rate": 5e-06,
+      "loss": 0.9404,
+      "num_input_tokens_seen": 833400512,
+      "step": 1834,
+      "train_runtime": 132026.3765,
+      "train_tokens_per_second": 6312.379
+    },
+    {
+      "epoch": 2.221568497621052,
+      "grad_norm": 0.24164512753486633,
+      "learning_rate": 5e-06,
+      "loss": 0.9089,
+      "num_input_tokens_seen": 833865880,
+      "step": 1835,
+      "train_runtime": 132095.3899,
+      "train_tokens_per_second": 6312.604
+    },
+    {
+      "epoch": 2.2227792544386533,
+      "grad_norm": 0.2589486837387085,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 834320256,
+      "step": 1836,
+      "train_runtime": 132162.8118,
+      "train_tokens_per_second": 6312.822
+    },
+    {
+      "epoch": 2.2239900112562547,
+      "grad_norm": 0.26678481698036194,
+      "learning_rate": 5e-06,
+      "loss": 0.9453,
+      "num_input_tokens_seen": 834793808,
+      "step": 1837,
+      "train_runtime": 132232.281,
+      "train_tokens_per_second": 6313.086
+    },
+    {
+      "epoch": 2.225200768073856,
+      "grad_norm": 0.2960735261440277,
+      "learning_rate": 5e-06,
+      "loss": 0.8841,
+      "num_input_tokens_seen": 835242864,
+      "step": 1838,
+      "train_runtime": 132298.5746,
+      "train_tokens_per_second": 6313.317
+    },
+    {
+      "epoch": 2.2264115248914575,
+      "grad_norm": 0.24359485507011414,
+      "learning_rate": 5e-06,
+      "loss": 0.9434,
+      "num_input_tokens_seen": 835713144,
+      "step": 1839,
+      "train_runtime": 132367.7406,
+      "train_tokens_per_second": 6313.571
+    },
+    {
+      "epoch": 2.227622281709059,
+      "grad_norm": 0.24145717918872833,
+      "learning_rate": 5e-06,
+      "loss": 0.9528,
+      "num_input_tokens_seen": 836169392,
+      "step": 1840,
+      "train_runtime": 132435.3509,
+      "train_tokens_per_second": 6313.793
+    },
+    {
+      "epoch": 2.2288330385266604,
+      "grad_norm": 0.23885925114154816,
+      "learning_rate": 5e-06,
+      "loss": 0.9194,
+      "num_input_tokens_seen": 836648992,
+      "step": 1841,
+      "train_runtime": 132506.0657,
+      "train_tokens_per_second": 6314.043
+    },
+    {
+      "epoch": 2.230043795344262,
+      "grad_norm": 0.2691201865673065,
+      "learning_rate": 5e-06,
+      "loss": 0.9245,
+      "num_input_tokens_seen": 837122792,
+      "step": 1842,
+      "train_runtime": 132575.9881,
+      "train_tokens_per_second": 6314.287
+    },
+    {
+      "epoch": 2.231254552161863,
+      "grad_norm": 0.2495044767856598,
+      "learning_rate": 5e-06,
+      "loss": 0.9572,
+      "num_input_tokens_seen": 837581056,
+      "step": 1843,
+      "train_runtime": 132643.3397,
+      "train_tokens_per_second": 6314.535
+    },
+    {
+      "epoch": 2.2324653089794646,
+      "grad_norm": 0.2624557316303253,
+      "learning_rate": 5e-06,
+      "loss": 0.9458,
+      "num_input_tokens_seen": 838029032,
+      "step": 1844,
+      "train_runtime": 132709.3351,
+      "train_tokens_per_second": 6314.771
+    },
+    {
+      "epoch": 2.233676065797066,
+      "grad_norm": 0.23831219971179962,
+      "learning_rate": 5e-06,
+      "loss": 0.9305,
+      "num_input_tokens_seen": 838473072,
+      "step": 1845,
+      "train_runtime": 132775.0436,
+      "train_tokens_per_second": 6314.99
+    },
+    {
+      "epoch": 2.234886822614667,
+      "grad_norm": 0.2543146014213562,
+      "learning_rate": 5e-06,
+      "loss": 0.9035,
+      "num_input_tokens_seen": 838923928,
+      "step": 1846,
+      "train_runtime": 132841.3512,
+      "train_tokens_per_second": 6315.232
+    },
+    {
+      "epoch": 2.2360975794322684,
+      "grad_norm": 0.238714799284935,
+      "learning_rate": 5e-06,
+      "loss": 0.8885,
+      "num_input_tokens_seen": 839396800,
+      "step": 1847,
+      "train_runtime": 132911.5196,
+      "train_tokens_per_second": 6315.456
+    },
+    {
+      "epoch": 2.23730833624987,
+      "grad_norm": 0.22185099124908447,
+      "learning_rate": 5e-06,
+      "loss": 0.8943,
+      "num_input_tokens_seen": 839870296,
+      "step": 1848,
+      "train_runtime": 132981.288,
+      "train_tokens_per_second": 6315.703
+    },
+    {
+      "epoch": 2.238519093067471,
+      "grad_norm": 0.23457881808280945,
+      "learning_rate": 5e-06,
+      "loss": 0.9404,
+      "num_input_tokens_seen": 840334928,
+      "step": 1849,
+      "train_runtime": 133049.8116,
+      "train_tokens_per_second": 6315.942
+    },
+    {
+      "epoch": 2.2397298498850726,
+      "grad_norm": 0.22963935136795044,
+      "learning_rate": 5e-06,
+      "loss": 0.9318,
+      "num_input_tokens_seen": 840803472,
+      "step": 1850,
+      "train_runtime": 133118.9729,
+      "train_tokens_per_second": 6316.181
+    },
+    {
+      "epoch": 2.240940606702674,
+      "grad_norm": 0.24061468243598938,
+      "learning_rate": 5e-06,
+      "loss": 0.896,
+      "num_input_tokens_seen": 841253104,
+      "step": 1851,
+      "train_runtime": 133185.6102,
+      "train_tokens_per_second": 6316.396
+    },
+    {
+      "epoch": 2.2421513635202754,
+      "grad_norm": 0.28269779682159424,
+      "learning_rate": 5e-06,
+      "loss": 0.8956,
+      "num_input_tokens_seen": 841712024,
+      "step": 1852,
+      "train_runtime": 133253.9849,
+      "train_tokens_per_second": 6316.599
+    },
+    {
+      "epoch": 2.243362120337877,
+      "grad_norm": 0.2352578043937683,
+      "learning_rate": 5e-06,
+      "loss": 0.9073,
+      "num_input_tokens_seen": 842172480,
+      "step": 1853,
+      "train_runtime": 133322.1946,
+      "train_tokens_per_second": 6316.821
+    },
+    {
+      "epoch": 2.2445728771554783,
+      "grad_norm": 0.24535781145095825,
+      "learning_rate": 5e-06,
+      "loss": 0.9765,
+      "num_input_tokens_seen": 842620904,
+      "step": 1854,
+      "train_runtime": 133388.3394,
+      "train_tokens_per_second": 6317.051
+    },
+    {
+      "epoch": 2.2457836339730797,
+      "grad_norm": 0.24296994507312775,
+      "learning_rate": 5e-06,
+      "loss": 0.931,
+      "num_input_tokens_seen": 843068456,
+      "step": 1855,
+      "train_runtime": 133454.0409,
+      "train_tokens_per_second": 6317.294
+    },
+    {
+      "epoch": 2.246994390790681,
+      "grad_norm": 0.24628207087516785,
+      "learning_rate": 5e-06,
+      "loss": 0.9485,
+      "num_input_tokens_seen": 843536640,
+      "step": 1856,
+      "train_runtime": 133523.3347,
+      "train_tokens_per_second": 6317.522
+    },
+    {
+      "epoch": 2.2482051476082825,
+      "grad_norm": 0.2603435814380646,
+      "learning_rate": 5e-06,
+      "loss": 0.8639,
+      "num_input_tokens_seen": 843998264,
+      "step": 1857,
+      "train_runtime": 133591.3388,
+      "train_tokens_per_second": 6317.762
+    },
+    {
+      "epoch": 2.249415904425884,
+      "grad_norm": 0.2735736072063446,
+      "learning_rate": 5e-06,
+      "loss": 0.9561,
+      "num_input_tokens_seen": 844454984,
+      "step": 1858,
+      "train_runtime": 133659.0053,
+      "train_tokens_per_second": 6317.98
+    },
+    {
+      "epoch": 2.2506266612434853,
+      "grad_norm": 0.25031837821006775,
+      "learning_rate": 5e-06,
+      "loss": 0.9065,
+      "num_input_tokens_seen": 844918424,
+      "step": 1859,
+      "train_runtime": 133727.5797,
+      "train_tokens_per_second": 6318.206
+    },
+    {
+      "epoch": 2.2518374180610863,
+      "grad_norm": 0.24365690350532532,
+      "learning_rate": 5e-06,
+      "loss": 0.9319,
+      "num_input_tokens_seen": 845370456,
+      "step": 1860,
+      "train_runtime": 133794.1892,
+      "train_tokens_per_second": 6318.439
+    },
+    {
+      "epoch": 2.2530481748786877,
+      "grad_norm": 0.23625266551971436,
+      "learning_rate": 5e-06,
+      "loss": 0.9334,
+      "num_input_tokens_seen": 845840944,
+      "step": 1861,
+      "train_runtime": 133864.0008,
+      "train_tokens_per_second": 6318.659
+    },
+    {
+      "epoch": 2.254258931696289,
+      "grad_norm": 0.2634667456150055,
+      "learning_rate": 5e-06,
+      "loss": 0.9272,
+      "num_input_tokens_seen": 846290816,
+      "step": 1862,
+      "train_runtime": 133930.3378,
+      "train_tokens_per_second": 6318.888
+    },
+    {
+      "epoch": 2.2554696885138905,
+      "grad_norm": 0.2611207067966461,
+      "learning_rate": 5e-06,
+      "loss": 0.9475,
+      "num_input_tokens_seen": 846744432,
+      "step": 1863,
+      "train_runtime": 133997.2146,
+      "train_tokens_per_second": 6319.12
+    },
+    {
+      "epoch": 2.256680445331492,
+      "grad_norm": 0.2601044178009033,
+      "learning_rate": 5e-06,
+      "loss": 0.9298,
+      "num_input_tokens_seen": 847201376,
+      "step": 1864,
+      "train_runtime": 134064.8678,
+      "train_tokens_per_second": 6319.339
+    },
+    {
+      "epoch": 2.2578912021490933,
+      "grad_norm": 0.24679550528526306,
+      "learning_rate": 5e-06,
+      "loss": 0.9705,
+      "num_input_tokens_seen": 847641792,
+      "step": 1865,
+      "train_runtime": 134129.2413,
+      "train_tokens_per_second": 6319.59
+    },
+    {
+      "epoch": 2.2591019589666947,
+      "grad_norm": 0.23708128929138184,
+      "learning_rate": 5e-06,
+      "loss": 0.9267,
+      "num_input_tokens_seen": 848110896,
+      "step": 1866,
+      "train_runtime": 134198.5814,
+      "train_tokens_per_second": 6319.82
+    },
+    {
+      "epoch": 2.260312715784296,
+      "grad_norm": 0.2722652554512024,
+      "learning_rate": 5e-06,
+      "loss": 0.9508,
+      "num_input_tokens_seen": 848564368,
+      "step": 1867,
+      "train_runtime": 134265.8682,
+      "train_tokens_per_second": 6320.03
+    },
+    {
+      "epoch": 2.2615234726018976,
+      "grad_norm": 0.2940795123577118,
+      "learning_rate": 5e-06,
+      "loss": 0.9672,
+      "num_input_tokens_seen": 849026776,
+      "step": 1868,
+      "train_runtime": 134334.2382,
+      "train_tokens_per_second": 6320.256
+    },
+    {
+      "epoch": 2.262734229419499,
+      "grad_norm": 0.22633950412273407,
+      "learning_rate": 5e-06,
+      "loss": 0.9377,
+      "num_input_tokens_seen": 849482712,
+      "step": 1869,
+      "train_runtime": 134401.8248,
+      "train_tokens_per_second": 6320.47
+    },
+    {
+      "epoch": 2.2639449862371004,
+      "grad_norm": 0.24709929525852203,
+      "learning_rate": 5e-06,
+      "loss": 0.9169,
+      "num_input_tokens_seen": 849939544,
+      "step": 1870,
+      "train_runtime": 134469.2516,
+      "train_tokens_per_second": 6320.698
+    },
+    {
+      "epoch": 2.265155743054702,
+      "grad_norm": 0.2768784463405609,
+      "learning_rate": 5e-06,
+      "loss": 0.904,
+      "num_input_tokens_seen": 850413688,
+      "step": 1871,
+      "train_runtime": 134539.3239,
+      "train_tokens_per_second": 6320.93
+    },
+    {
+      "epoch": 2.266366499872303,
+      "grad_norm": 0.24461229145526886,
+      "learning_rate": 5e-06,
+      "loss": 0.9515,
+      "num_input_tokens_seen": 850865528,
+      "step": 1872,
+      "train_runtime": 134605.9731,
+      "train_tokens_per_second": 6321.157
+    },
+    {
+      "epoch": 2.267577256689904,
+      "grad_norm": 0.282145619392395,
+      "learning_rate": 5e-06,
+      "loss": 0.9657,
+      "num_input_tokens_seen": 851305456,
+      "step": 1873,
+      "train_runtime": 134670.8221,
+      "train_tokens_per_second": 6321.38
+    },
+    {
+      "epoch": 2.2687880135075056,
+      "grad_norm": 0.24732042849063873,
+      "learning_rate": 5e-06,
+      "loss": 0.9111,
+      "num_input_tokens_seen": 851761888,
+      "step": 1874,
+      "train_runtime": 134738.0896,
+      "train_tokens_per_second": 6321.612
+    },
+    {
+      "epoch": 2.269998770325107,
+      "grad_norm": 0.22736340761184692,
+      "learning_rate": 5e-06,
+      "loss": 0.9206,
+      "num_input_tokens_seen": 852221120,
+      "step": 1875,
+      "train_runtime": 134806.452,
+      "train_tokens_per_second": 6321.813
+    },
+    {
+      "epoch": 2.2712095271427084,
+      "grad_norm": 0.2657550275325775,
+      "learning_rate": 5e-06,
+      "loss": 0.9847,
+      "num_input_tokens_seen": 852692200,
+      "step": 1876,
+      "train_runtime": 134875.6621,
+      "train_tokens_per_second": 6322.061
+    },
+    {
+      "epoch": 2.27242028396031,
+      "grad_norm": 0.2386472225189209,
+      "learning_rate": 5e-06,
+      "loss": 0.9157,
+      "num_input_tokens_seen": 853149952,
+      "step": 1877,
+      "train_runtime": 134943.8512,
+      "train_tokens_per_second": 6322.259
+    },
+    {
+      "epoch": 2.2736310407779112,
+      "grad_norm": 0.2535218298435211,
+      "learning_rate": 5e-06,
+      "loss": 0.9699,
+      "num_input_tokens_seen": 853585528,
+      "step": 1878,
+      "train_runtime": 135007.8471,
+      "train_tokens_per_second": 6322.488
+    },
+    {
+      "epoch": 2.2748417975955126,
+      "grad_norm": 0.2574761211872101,
+      "learning_rate": 5e-06,
+      "loss": 0.9425,
+      "num_input_tokens_seen": 854028664,
+      "step": 1879,
+      "train_runtime": 135073.4954,
+      "train_tokens_per_second": 6322.696
+    },
+    {
+      "epoch": 2.276052554413114,
+      "grad_norm": 0.25591275095939636,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 854480232,
+      "step": 1880,
+      "train_runtime": 135141.1933,
+      "train_tokens_per_second": 6322.87
+    },
+    {
+      "epoch": 2.2772633112307155,
+      "grad_norm": 0.2474929392337799,
+      "learning_rate": 5e-06,
+      "loss": 0.9189,
+      "num_input_tokens_seen": 854957440,
+      "step": 1881,
+      "train_runtime": 135213.5472,
+      "train_tokens_per_second": 6323.016
+    },
+    {
+      "epoch": 2.278474068048317,
+      "grad_norm": 0.24820934236049652,
+      "learning_rate": 5e-06,
+      "loss": 0.9193,
+      "num_input_tokens_seen": 855410112,
+      "step": 1882,
+      "train_runtime": 135280.3287,
+      "train_tokens_per_second": 6323.241
+    },
+    {
+      "epoch": 2.2796848248659183,
+      "grad_norm": 0.25758039951324463,
+      "learning_rate": 5e-06,
+      "loss": 0.9387,
+      "num_input_tokens_seen": 855843248,
+      "step": 1883,
+      "train_runtime": 135343.7932,
+      "train_tokens_per_second": 6323.476
+    },
+    {
+      "epoch": 2.2808955816835197,
+      "grad_norm": 0.32192301750183105,
+      "learning_rate": 5e-06,
+      "loss": 0.9572,
+      "num_input_tokens_seen": 856285992,
+      "step": 1884,
+      "train_runtime": 135408.6894,
+      "train_tokens_per_second": 6323.715
+    },
+    {
+      "epoch": 2.282106338501121,
+      "grad_norm": 0.2613389194011688,
+      "learning_rate": 5e-06,
+      "loss": 0.9244,
+      "num_input_tokens_seen": 856720480,
+      "step": 1885,
+      "train_runtime": 135473.0216,
+      "train_tokens_per_second": 6323.919
+    },
+    {
+      "epoch": 2.283317095318722,
+      "grad_norm": 0.2691548764705658,
+      "learning_rate": 5e-06,
+      "loss": 0.9155,
+      "num_input_tokens_seen": 857171960,
+      "step": 1886,
+      "train_runtime": 135539.9108,
+      "train_tokens_per_second": 6324.13
+    },
+    {
+      "epoch": 2.2845278521363235,
+      "grad_norm": 0.2469540685415268,
+      "learning_rate": 5e-06,
+      "loss": 0.914,
+      "num_input_tokens_seen": 857629224,
+      "step": 1887,
+      "train_runtime": 135607.533,
+      "train_tokens_per_second": 6324.348
+    },
+    {
+      "epoch": 2.285738608953925,
+      "grad_norm": 0.24443942308425903,
+      "learning_rate": 5e-06,
+      "loss": 0.8825,
+      "num_input_tokens_seen": 858109800,
+      "step": 1888,
+      "train_runtime": 135678.9773,
+      "train_tokens_per_second": 6324.56
+    },
+    {
+      "epoch": 2.2869493657715263,
+      "grad_norm": 0.2294890135526657,
+      "learning_rate": 5e-06,
+      "loss": 0.9354,
+      "num_input_tokens_seen": 858577656,
+      "step": 1889,
+      "train_runtime": 135748.465,
+      "train_tokens_per_second": 6324.769
+    },
+    {
+      "epoch": 2.2881601225891277,
+      "grad_norm": 0.23962783813476562,
+      "learning_rate": 5e-06,
+      "loss": 0.9559,
+      "num_input_tokens_seen": 859030552,
+      "step": 1890,
+      "train_runtime": 135815.0908,
+      "train_tokens_per_second": 6325.001
+    },
+    {
+      "epoch": 2.289370879406729,
+      "grad_norm": 0.28975754976272583,
+      "learning_rate": 5e-06,
+      "loss": 0.9192,
+      "num_input_tokens_seen": 859488344,
+      "step": 1891,
+      "train_runtime": 135882.7476,
+      "train_tokens_per_second": 6325.221
+    },
+    {
+      "epoch": 2.2905816362243305,
+      "grad_norm": 0.23890255391597748,
+      "learning_rate": 5e-06,
+      "loss": 0.8657,
+      "num_input_tokens_seen": 859934904,
+      "step": 1892,
+      "train_runtime": 135949.0563,
+      "train_tokens_per_second": 6325.42
+    },
+    {
+      "epoch": 2.291792393041932,
+      "grad_norm": 0.25363996624946594,
+      "learning_rate": 5e-06,
+      "loss": 0.9056,
+      "num_input_tokens_seen": 860406744,
+      "step": 1893,
+      "train_runtime": 136018.9588,
+      "train_tokens_per_second": 6325.638
+    },
+    {
+      "epoch": 2.2930031498595334,
+      "grad_norm": 0.26004326343536377,
+      "learning_rate": 5e-06,
+      "loss": 0.9289,
+      "num_input_tokens_seen": 860848024,
+      "step": 1894,
+      "train_runtime": 136084.1855,
+      "train_tokens_per_second": 6325.849
+    },
+    {
+      "epoch": 2.2942139066771348,
+      "grad_norm": 0.31975099444389343,
+      "learning_rate": 5e-06,
+      "loss": 0.9069,
+      "num_input_tokens_seen": 861297312,
+      "step": 1895,
+      "train_runtime": 136150.7509,
+      "train_tokens_per_second": 6326.056
+    },
+    {
+      "epoch": 2.295424663494736,
+      "grad_norm": 0.2796708345413208,
+      "learning_rate": 5e-06,
+      "loss": 0.8722,
+      "num_input_tokens_seen": 861726552,
+      "step": 1896,
+      "train_runtime": 136214.2119,
+      "train_tokens_per_second": 6326.26
+    },
+    {
+      "epoch": 2.2966354203123376,
+      "grad_norm": 0.32552340626716614,
+      "learning_rate": 5e-06,
+      "loss": 0.9589,
+      "num_input_tokens_seen": 862175240,
+      "step": 1897,
+      "train_runtime": 136280.4971,
+      "train_tokens_per_second": 6326.476
+    },
+    {
+      "epoch": 2.297846177129939,
+      "grad_norm": 0.2615937292575836,
+      "learning_rate": 5e-06,
+      "loss": 0.8747,
+      "num_input_tokens_seen": 862622672,
+      "step": 1898,
+      "train_runtime": 136346.7206,
+      "train_tokens_per_second": 6326.684
+    },
+    {
+      "epoch": 2.29905693394754,
+      "grad_norm": 0.27208948135375977,
+      "learning_rate": 5e-06,
+      "loss": 0.9689,
+      "num_input_tokens_seen": 863047272,
+      "step": 1899,
+      "train_runtime": 136409.4794,
+      "train_tokens_per_second": 6326.886
+    },
+    {
+      "epoch": 2.3002676907651414,
+      "grad_norm": 0.2440728098154068,
+      "learning_rate": 5e-06,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 863494008,
+      "step": 1900,
+      "train_runtime": 136475.8625,
+      "train_tokens_per_second": 6327.082
+    },
+    {
+      "epoch": 2.301478447582743,
+      "grad_norm": 0.24035605788230896,
+      "learning_rate": 5e-06,
+      "loss": 0.9087,
+      "num_input_tokens_seen": 863952264,
+      "step": 1901,
+      "train_runtime": 136543.8991,
+      "train_tokens_per_second": 6327.286
+    },
+    {
+      "epoch": 2.302689204400344,
+      "grad_norm": 0.32341066002845764,
+      "learning_rate": 5e-06,
+      "loss": 0.8986,
+      "num_input_tokens_seen": 864426280,
+      "step": 1902,
+      "train_runtime": 136614.3437,
+      "train_tokens_per_second": 6327.493
+    },
+    {
+      "epoch": 2.3038999612179456,
+      "grad_norm": 0.28295764327049255,
+      "learning_rate": 5e-06,
+      "loss": 0.9257,
+      "num_input_tokens_seen": 864905968,
+      "step": 1903,
+      "train_runtime": 136684.861,
+      "train_tokens_per_second": 6327.738
+    },
+    {
+      "epoch": 2.305110718035547,
+      "grad_norm": 0.2590475380420685,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 865342848,
+      "step": 1904,
+      "train_runtime": 136749.3564,
+      "train_tokens_per_second": 6327.948
+    },
+    {
+      "epoch": 2.3063214748531484,
+      "grad_norm": 0.25882232189178467,
+      "learning_rate": 5e-06,
+      "loss": 0.8907,
+      "num_input_tokens_seen": 865794736,
+      "step": 1905,
+      "train_runtime": 136815.6825,
+      "train_tokens_per_second": 6328.183
+    },
+    {
+      "epoch": 2.30753223167075,
+      "grad_norm": 0.26275938749313354,
+      "learning_rate": 5e-06,
+      "loss": 0.9502,
+      "num_input_tokens_seen": 866250416,
+      "step": 1906,
+      "train_runtime": 136883.0305,
+      "train_tokens_per_second": 6328.399
+    },
+    {
+      "epoch": 2.3087429884883512,
+      "grad_norm": 0.2927948236465454,
+      "learning_rate": 5e-06,
+      "loss": 0.8985,
+      "num_input_tokens_seen": 866709976,
+      "step": 1907,
+      "train_runtime": 136951.2483,
+      "train_tokens_per_second": 6328.602
+    },
+    {
+      "epoch": 2.3099537453059527,
+      "grad_norm": 0.2844955027103424,
+      "learning_rate": 5e-06,
+      "loss": 0.932,
+      "num_input_tokens_seen": 867193176,
+      "step": 1908,
+      "train_runtime": 137022.6963,
+      "train_tokens_per_second": 6328.829
+    },
+    {
+      "epoch": 2.311164502123554,
+      "grad_norm": 0.2642100155353546,
+      "learning_rate": 5e-06,
+      "loss": 0.9547,
+      "num_input_tokens_seen": 867661560,
+      "step": 1909,
+      "train_runtime": 137092.1567,
+      "train_tokens_per_second": 6329.039
+    },
+    {
+      "epoch": 2.3123752589411555,
+      "grad_norm": 0.2718662917613983,
+      "learning_rate": 5e-06,
+      "loss": 0.9502,
+      "num_input_tokens_seen": 868124000,
+      "step": 1910,
+      "train_runtime": 137160.7427,
+      "train_tokens_per_second": 6329.245
+    },
+    {
+      "epoch": 2.313586015758757,
+      "grad_norm": 0.2536037862300873,
+      "learning_rate": 5e-06,
+      "loss": 0.9193,
+      "num_input_tokens_seen": 868588696,
+      "step": 1911,
+      "train_runtime": 137229.9509,
+      "train_tokens_per_second": 6329.44
+    },
+    {
+      "epoch": 2.314796772576358,
+      "grad_norm": 0.249566450715065,
+      "learning_rate": 5e-06,
+      "loss": 0.949,
+      "num_input_tokens_seen": 869053760,
+      "step": 1912,
+      "train_runtime": 137299.3417,
+      "train_tokens_per_second": 6329.628
+    },
+    {
+      "epoch": 2.3160075293939597,
+      "grad_norm": 0.262437105178833,
+      "learning_rate": 5e-06,
+      "loss": 0.9716,
+      "num_input_tokens_seen": 869515720,
+      "step": 1913,
+      "train_runtime": 137367.5168,
+      "train_tokens_per_second": 6329.85
+    },
+    {
+      "epoch": 2.3172182862115607,
+      "grad_norm": 0.23782069981098175,
+      "learning_rate": 5e-06,
+      "loss": 0.9011,
+      "num_input_tokens_seen": 869971160,
+      "step": 1914,
+      "train_runtime": 137434.8916,
+      "train_tokens_per_second": 6330.06
+    },
+    {
+      "epoch": 2.318429043029162,
+      "grad_norm": 0.2517566978931427,
+      "learning_rate": 5e-06,
+      "loss": 0.91,
+      "num_input_tokens_seen": 870399880,
+      "step": 1915,
+      "train_runtime": 137497.6211,
+      "train_tokens_per_second": 6330.29
+    },
+    {
+      "epoch": 2.3196397998467635,
+      "grad_norm": 0.26012682914733887,
+      "learning_rate": 5e-06,
+      "loss": 0.9396,
+      "num_input_tokens_seen": 870853040,
+      "step": 1916,
+      "train_runtime": 137564.414,
+      "train_tokens_per_second": 6330.511
+    },
+    {
+      "epoch": 2.320850556664365,
+      "grad_norm": 0.24836315214633942,
+      "learning_rate": 5e-06,
+      "loss": 1.01,
+      "num_input_tokens_seen": 871314416,
+      "step": 1917,
+      "train_runtime": 137632.4092,
+      "train_tokens_per_second": 6330.736
+    },
+    {
+      "epoch": 2.3220613134819663,
+      "grad_norm": 0.26975148916244507,
+      "learning_rate": 5e-06,
+      "loss": 0.9313,
+      "num_input_tokens_seen": 871770264,
+      "step": 1918,
+      "train_runtime": 137699.9741,
+      "train_tokens_per_second": 6330.94
+    },
+    {
+      "epoch": 2.3232720702995677,
+      "grad_norm": 0.23591186106204987,
+      "learning_rate": 5e-06,
+      "loss": 0.9242,
+      "num_input_tokens_seen": 872229016,
+      "step": 1919,
+      "train_runtime": 137767.7326,
+      "train_tokens_per_second": 6331.156
+    },
+    {
+      "epoch": 2.324482827117169,
+      "grad_norm": 0.24724294245243073,
+      "learning_rate": 5e-06,
+      "loss": 0.9166,
+      "num_input_tokens_seen": 872653144,
+      "step": 1920,
+      "train_runtime": 137830.5002,
+      "train_tokens_per_second": 6331.35
+    },
+    {
+      "epoch": 2.3256935839347705,
+      "grad_norm": 0.23832382261753082,
+      "learning_rate": 5e-06,
+      "loss": 0.9463,
+      "num_input_tokens_seen": 873110384,
+      "step": 1921,
+      "train_runtime": 137898.239,
+      "train_tokens_per_second": 6331.556
+    },
+    {
+      "epoch": 2.326904340752372,
+      "grad_norm": 0.28097233176231384,
+      "learning_rate": 5e-06,
+      "loss": 0.9624,
+      "num_input_tokens_seen": 873570488,
+      "step": 1922,
+      "train_runtime": 137966.7648,
+      "train_tokens_per_second": 6331.746
+    },
+    {
+      "epoch": 2.3281150975699734,
+      "grad_norm": 0.23570659756660461,
+      "learning_rate": 5e-06,
+      "loss": 0.9168,
+      "num_input_tokens_seen": 874019688,
+      "step": 1923,
+      "train_runtime": 138032.8862,
+      "train_tokens_per_second": 6331.967
+    },
+    {
+      "epoch": 2.329325854387575,
+      "grad_norm": 0.2484421581029892,
+      "learning_rate": 5e-06,
+      "loss": 0.9224,
+      "num_input_tokens_seen": 874476456,
+      "step": 1924,
+      "train_runtime": 138100.3145,
+      "train_tokens_per_second": 6332.183
+    },
+    {
+      "epoch": 2.3305366112051757,
+      "grad_norm": 0.2436489313840866,
+      "learning_rate": 5e-06,
+      "loss": 0.9769,
+      "num_input_tokens_seen": 874906120,
+      "step": 1925,
+      "train_runtime": 138163.392,
+      "train_tokens_per_second": 6332.402
+    },
+    {
+      "epoch": 2.3317473680227776,
+      "grad_norm": 0.23818077147006989,
+      "learning_rate": 5e-06,
+      "loss": 0.9719,
+      "num_input_tokens_seen": 875359880,
+      "step": 1926,
+      "train_runtime": 138230.2722,
+      "train_tokens_per_second": 6332.621
+    },
+    {
+      "epoch": 2.3329581248403786,
+      "grad_norm": 0.2646999955177307,
+      "learning_rate": 5e-06,
+      "loss": 0.9759,
+      "num_input_tokens_seen": 875813712,
+      "step": 1927,
+      "train_runtime": 138297.4023,
+      "train_tokens_per_second": 6332.828
+    },
+    {
+      "epoch": 2.33416888165798,
+      "grad_norm": 0.24218083918094635,
+      "learning_rate": 5e-06,
+      "loss": 0.9444,
+      "num_input_tokens_seen": 876275792,
+      "step": 1928,
+      "train_runtime": 138366.0473,
+      "train_tokens_per_second": 6333.026
+    },
+    {
+      "epoch": 2.3353796384755814,
+      "grad_norm": 0.22336937487125397,
+      "learning_rate": 5e-06,
+      "loss": 0.8828,
+      "num_input_tokens_seen": 876756576,
+      "step": 1929,
+      "train_runtime": 138437.719,
+      "train_tokens_per_second": 6333.22
+    },
+    {
+      "epoch": 2.336590395293183,
+      "grad_norm": 0.21716539561748505,
+      "learning_rate": 5e-06,
+      "loss": 0.9001,
+      "num_input_tokens_seen": 877237832,
+      "step": 1930,
+      "train_runtime": 138508.8901,
+      "train_tokens_per_second": 6333.441
+    },
+    {
+      "epoch": 2.337801152110784,
+      "grad_norm": 0.24788719415664673,
+      "learning_rate": 5e-06,
+      "loss": 0.9169,
+      "num_input_tokens_seen": 877681584,
+      "step": 1931,
+      "train_runtime": 138574.6608,
+      "train_tokens_per_second": 6333.637
+    },
+    {
+      "epoch": 2.3390119089283856,
+      "grad_norm": 0.2476462423801422,
+      "learning_rate": 5e-06,
+      "loss": 0.9653,
+      "num_input_tokens_seen": 878125368,
+      "step": 1932,
+      "train_runtime": 138639.9943,
+      "train_tokens_per_second": 6333.853
+    },
+    {
+      "epoch": 2.340222665745987,
+      "grad_norm": 0.26290398836135864,
+      "learning_rate": 5e-06,
+      "loss": 0.9275,
+      "num_input_tokens_seen": 878571608,
+      "step": 1933,
+      "train_runtime": 138706.0769,
+      "train_tokens_per_second": 6334.053
+    },
+    {
+      "epoch": 2.3414334225635884,
+      "grad_norm": 0.26040390133857727,
+      "learning_rate": 5e-06,
+      "loss": 0.9176,
+      "num_input_tokens_seen": 879012848,
+      "step": 1934,
+      "train_runtime": 138772.6778,
+      "train_tokens_per_second": 6334.192
+    },
+    {
+      "epoch": 2.34264417938119,
+      "grad_norm": 0.22445742785930634,
+      "learning_rate": 5e-06,
+      "loss": 0.8518,
+      "num_input_tokens_seen": 879501408,
+      "step": 1935,
+      "train_runtime": 138846.372,
+      "train_tokens_per_second": 6334.349
+    },
+    {
+      "epoch": 2.3438549361987913,
+      "grad_norm": 0.2317107766866684,
+      "learning_rate": 5e-06,
+      "loss": 0.9035,
+      "num_input_tokens_seen": 879957520,
+      "step": 1936,
+      "train_runtime": 138913.7202,
+      "train_tokens_per_second": 6334.562
+    },
+    {
+      "epoch": 2.3450656930163927,
+      "grad_norm": 0.2713346481323242,
+      "learning_rate": 5e-06,
+      "loss": 0.9087,
+      "num_input_tokens_seen": 880411232,
+      "step": 1937,
+      "train_runtime": 138981.0054,
+      "train_tokens_per_second": 6334.759
+    },
+    {
+      "epoch": 2.346276449833994,
+      "grad_norm": 0.24011683464050293,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 880860792,
+      "step": 1938,
+      "train_runtime": 139047.4125,
+      "train_tokens_per_second": 6334.967
+    },
+    {
+      "epoch": 2.3474872066515955,
+      "grad_norm": 0.2560282349586487,
+      "learning_rate": 5e-06,
+      "loss": 0.9062,
+      "num_input_tokens_seen": 881332280,
+      "step": 1939,
+      "train_runtime": 139117.5608,
+      "train_tokens_per_second": 6335.162
+    },
+    {
+      "epoch": 2.3486979634691965,
+      "grad_norm": 0.23384442925453186,
+      "learning_rate": 5e-06,
+      "loss": 0.879,
+      "num_input_tokens_seen": 881765136,
+      "step": 1940,
+      "train_runtime": 139181.4369,
+      "train_tokens_per_second": 6335.365
+    },
+    {
+      "epoch": 2.349908720286798,
+      "grad_norm": 0.23254314064979553,
+      "learning_rate": 5e-06,
+      "loss": 0.8938,
+      "num_input_tokens_seen": 882225136,
+      "step": 1941,
+      "train_runtime": 139249.4601,
+      "train_tokens_per_second": 6335.573
+    },
+    {
+      "epoch": 2.3511194771043993,
+      "grad_norm": 0.2877858281135559,
+      "learning_rate": 5e-06,
+      "loss": 0.9639,
+      "num_input_tokens_seen": 882660080,
+      "step": 1942,
+      "train_runtime": 139313.9834,
+      "train_tokens_per_second": 6335.761
+    },
+    {
+      "epoch": 2.3523302339220007,
+      "grad_norm": 0.24326159060001373,
+      "learning_rate": 5e-06,
+      "loss": 0.9099,
+      "num_input_tokens_seen": 883082800,
+      "step": 1943,
+      "train_runtime": 139376.2313,
+      "train_tokens_per_second": 6335.964
+    },
+    {
+      "epoch": 2.353540990739602,
+      "grad_norm": 0.23450767993927002,
+      "learning_rate": 5e-06,
+      "loss": 0.9258,
+      "num_input_tokens_seen": 883532720,
+      "step": 1944,
+      "train_runtime": 139443.249,
+      "train_tokens_per_second": 6336.146
+    },
+    {
+      "epoch": 2.3547517475572035,
+      "grad_norm": 0.25885146856307983,
+      "learning_rate": 5e-06,
+      "loss": 0.8931,
+      "num_input_tokens_seen": 883983312,
+      "step": 1945,
+      "train_runtime": 139509.936,
+      "train_tokens_per_second": 6336.347
+    },
+    {
+      "epoch": 2.355962504374805,
+      "grad_norm": 0.23597835004329681,
+      "learning_rate": 5e-06,
+      "loss": 0.9222,
+      "num_input_tokens_seen": 884453544,
+      "step": 1946,
+      "train_runtime": 139579.5403,
+      "train_tokens_per_second": 6336.556
+    },
+    {
+      "epoch": 2.3571732611924063,
+      "grad_norm": 0.2448599487543106,
+      "learning_rate": 5e-06,
+      "loss": 0.9685,
+      "num_input_tokens_seen": 884895312,
+      "step": 1947,
+      "train_runtime": 139645.5434,
+      "train_tokens_per_second": 6336.724
+    },
+    {
+      "epoch": 2.3583840180100077,
+      "grad_norm": 0.25267136096954346,
+      "learning_rate": 5e-06,
+      "loss": 0.9375,
+      "num_input_tokens_seen": 885354208,
+      "step": 1948,
+      "train_runtime": 139713.3438,
+      "train_tokens_per_second": 6336.934
+    },
+    {
+      "epoch": 2.359594774827609,
+      "grad_norm": 0.2259773463010788,
+      "learning_rate": 5e-06,
+      "loss": 0.8995,
+      "num_input_tokens_seen": 885828656,
+      "step": 1949,
+      "train_runtime": 139783.4906,
+      "train_tokens_per_second": 6337.148
+    },
+    {
+      "epoch": 2.3608055316452106,
+      "grad_norm": 0.25038328766822815,
+      "learning_rate": 5e-06,
+      "loss": 0.9297,
+      "num_input_tokens_seen": 886262736,
+      "step": 1950,
+      "train_runtime": 139847.7611,
+      "train_tokens_per_second": 6337.339
+    },
+    {
+      "epoch": 2.362016288462812,
+      "grad_norm": 0.23766860365867615,
+      "learning_rate": 5e-06,
+      "loss": 0.8919,
+      "num_input_tokens_seen": 886724640,
+      "step": 1951,
+      "train_runtime": 139916.2008,
+      "train_tokens_per_second": 6337.541
+    },
+    {
+      "epoch": 2.3632270452804134,
+      "grad_norm": 0.2303091287612915,
+      "learning_rate": 5e-06,
+      "loss": 0.8914,
+      "num_input_tokens_seen": 887164120,
+      "step": 1952,
+      "train_runtime": 139981.2882,
+      "train_tokens_per_second": 6337.734
+    },
+    {
+      "epoch": 2.3644378020980144,
+      "grad_norm": 0.24684786796569824,
+      "learning_rate": 5e-06,
+      "loss": 0.8894,
+      "num_input_tokens_seen": 887620064,
+      "step": 1953,
+      "train_runtime": 140048.5002,
+      "train_tokens_per_second": 6337.948
+    },
+    {
+      "epoch": 2.3656485589156158,
+      "grad_norm": 0.2284991294145584,
+      "learning_rate": 5e-06,
+      "loss": 0.9494,
+      "num_input_tokens_seen": 888070904,
+      "step": 1954,
+      "train_runtime": 140114.8455,
+      "train_tokens_per_second": 6338.164
+    },
+    {
+      "epoch": 2.366859315733217,
+      "grad_norm": 0.254375159740448,
+      "learning_rate": 5e-06,
+      "loss": 0.8982,
+      "num_input_tokens_seen": 888519704,
+      "step": 1955,
+      "train_runtime": 140181.3735,
+      "train_tokens_per_second": 6338.358
+    },
+    {
+      "epoch": 2.3680700725508186,
+      "grad_norm": 0.2587945759296417,
+      "learning_rate": 5e-06,
+      "loss": 0.926,
+      "num_input_tokens_seen": 888953576,
+      "step": 1956,
+      "train_runtime": 140245.6256,
+      "train_tokens_per_second": 6338.548
+    },
+    {
+      "epoch": 2.36928082936842,
+      "grad_norm": 0.263895183801651,
+      "learning_rate": 5e-06,
+      "loss": 0.8845,
+      "num_input_tokens_seen": 889422280,
+      "step": 1957,
+      "train_runtime": 140315.4592,
+      "train_tokens_per_second": 6338.733
+    },
+    {
+      "epoch": 2.3704915861860214,
+      "grad_norm": 0.22773973643779755,
+      "learning_rate": 5e-06,
+      "loss": 0.8691,
+      "num_input_tokens_seen": 889895248,
+      "step": 1958,
+      "train_runtime": 140386.1495,
+      "train_tokens_per_second": 6338.911
+    },
+    {
+      "epoch": 2.371702343003623,
+      "grad_norm": 0.26075223088264465,
+      "learning_rate": 5e-06,
+      "loss": 1.0117,
+      "num_input_tokens_seen": 890333472,
+      "step": 1959,
+      "train_runtime": 140450.4448,
+      "train_tokens_per_second": 6339.129
+    },
+    {
+      "epoch": 2.3729130998212242,
+      "grad_norm": 0.2427862286567688,
+      "learning_rate": 5e-06,
+      "loss": 0.9224,
+      "num_input_tokens_seen": 890779816,
+      "step": 1960,
+      "train_runtime": 140516.3711,
+      "train_tokens_per_second": 6339.331
+    },
+    {
+      "epoch": 2.3741238566388256,
+      "grad_norm": 0.24546240270137787,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 891243432,
+      "step": 1961,
+      "train_runtime": 140584.7256,
+      "train_tokens_per_second": 6339.547
+    },
+    {
+      "epoch": 2.375334613456427,
+      "grad_norm": 0.24161502718925476,
+      "learning_rate": 5e-06,
+      "loss": 0.9268,
+      "num_input_tokens_seen": 891695152,
+      "step": 1962,
+      "train_runtime": 140651.3388,
+      "train_tokens_per_second": 6339.756
+    },
+    {
+      "epoch": 2.3765453702740285,
+      "grad_norm": 0.25115856528282166,
+      "learning_rate": 5e-06,
+      "loss": 0.9467,
+      "num_input_tokens_seen": 892133512,
+      "step": 1963,
+      "train_runtime": 140716.2837,
+      "train_tokens_per_second": 6339.945
+    },
+    {
+      "epoch": 2.37775612709163,
+      "grad_norm": 0.2623535692691803,
+      "learning_rate": 5e-06,
+      "loss": 0.9482,
+      "num_input_tokens_seen": 892581496,
+      "step": 1964,
+      "train_runtime": 140782.484,
+      "train_tokens_per_second": 6340.146
+    },
+    {
+      "epoch": 2.3789668839092313,
+      "grad_norm": 0.2622727155685425,
+      "learning_rate": 5e-06,
+      "loss": 0.9253,
+      "num_input_tokens_seen": 893044504,
+      "step": 1965,
+      "train_runtime": 140850.9639,
+      "train_tokens_per_second": 6340.351
+    },
+    {
+      "epoch": 2.3801776407268322,
+      "grad_norm": 0.2433587610721588,
+      "learning_rate": 5e-06,
+      "loss": 0.9352,
+      "num_input_tokens_seen": 893498056,
+      "step": 1966,
+      "train_runtime": 140918.3136,
+      "train_tokens_per_second": 6340.539
+    },
+    {
+      "epoch": 2.3813883975444337,
+      "grad_norm": 0.25335007905960083,
+      "learning_rate": 5e-06,
+      "loss": 0.9527,
+      "num_input_tokens_seen": 893927120,
+      "step": 1967,
+      "train_runtime": 140981.7443,
+      "train_tokens_per_second": 6340.73
+    },
+    {
+      "epoch": 2.382599154362035,
+      "grad_norm": 0.24073803424835205,
+      "learning_rate": 5e-06,
+      "loss": 0.964,
+      "num_input_tokens_seen": 894397904,
+      "step": 1968,
+      "train_runtime": 141051.8869,
+      "train_tokens_per_second": 6340.914
+    },
+    {
+      "epoch": 2.3838099111796365,
+      "grad_norm": 0.2417605221271515,
+      "learning_rate": 5e-06,
+      "loss": 0.8975,
+      "num_input_tokens_seen": 894866064,
+      "step": 1969,
+      "train_runtime": 141121.0337,
+      "train_tokens_per_second": 6341.125
+    },
+    {
+      "epoch": 2.385020667997238,
+      "grad_norm": 0.264097660779953,
+      "learning_rate": 5e-06,
+      "loss": 0.8888,
+      "num_input_tokens_seen": 895325256,
+      "step": 1970,
+      "train_runtime": 141188.7929,
+      "train_tokens_per_second": 6341.334
+    },
+    {
+      "epoch": 2.3862314248148393,
+      "grad_norm": 0.23401835560798645,
+      "learning_rate": 5e-06,
+      "loss": 0.914,
+      "num_input_tokens_seen": 895793728,
+      "step": 1971,
+      "train_runtime": 141257.3012,
+      "train_tokens_per_second": 6341.575
+    },
+    {
+      "epoch": 2.3874421816324407,
+      "grad_norm": 0.23458734154701233,
+      "learning_rate": 5e-06,
+      "loss": 0.9237,
+      "num_input_tokens_seen": 896231368,
+      "step": 1972,
+      "train_runtime": 141321.9812,
+      "train_tokens_per_second": 6341.769
+    },
+    {
+      "epoch": 2.388652938450042,
+      "grad_norm": 0.24703070521354675,
+      "learning_rate": 5e-06,
+      "loss": 0.8911,
+      "num_input_tokens_seen": 896673912,
+      "step": 1973,
+      "train_runtime": 141387.431,
+      "train_tokens_per_second": 6341.963
+    },
+    {
+      "epoch": 2.3898636952676435,
+      "grad_norm": 0.2715272009372711,
+      "learning_rate": 5e-06,
+      "loss": 0.9271,
+      "num_input_tokens_seen": 897130160,
+      "step": 1974,
+      "train_runtime": 141455.1371,
+      "train_tokens_per_second": 6342.153
+    },
+    {
+      "epoch": 2.391074452085245,
+      "grad_norm": 0.27634164690971375,
+      "learning_rate": 5e-06,
+      "loss": 0.9441,
+      "num_input_tokens_seen": 897585568,
+      "step": 1975,
+      "train_runtime": 141522.4112,
+      "train_tokens_per_second": 6342.356
+    },
+    {
+      "epoch": 2.3922852089028463,
+      "grad_norm": 0.2545999586582184,
+      "learning_rate": 5e-06,
+      "loss": 0.9379,
+      "num_input_tokens_seen": 898024864,
+      "step": 1976,
+      "train_runtime": 141587.355,
+      "train_tokens_per_second": 6342.55
+    },
+    {
+      "epoch": 2.3934959657204478,
+      "grad_norm": 0.23588921129703522,
+      "learning_rate": 5e-06,
+      "loss": 0.8916,
+      "num_input_tokens_seen": 898487168,
+      "step": 1977,
+      "train_runtime": 141655.6271,
+      "train_tokens_per_second": 6342.757
+    },
+    {
+      "epoch": 2.394706722538049,
+      "grad_norm": 0.28697672486305237,
+      "learning_rate": 5e-06,
+      "loss": 0.9252,
+      "num_input_tokens_seen": 898948576,
+      "step": 1978,
+      "train_runtime": 141724.1485,
+      "train_tokens_per_second": 6342.946
+    },
+    {
+      "epoch": 2.39591747935565,
+      "grad_norm": 0.2565509080886841,
+      "learning_rate": 5e-06,
+      "loss": 0.8936,
+      "num_input_tokens_seen": 899411768,
+      "step": 1979,
+      "train_runtime": 141793.0536,
+      "train_tokens_per_second": 6343.13
+    },
+    {
+      "epoch": 2.3971282361732515,
+      "grad_norm": 0.25218653678894043,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 899887136,
+      "step": 1980,
+      "train_runtime": 141862.8968,
+      "train_tokens_per_second": 6343.358
+    },
+    {
+      "epoch": 2.398338992990853,
+      "grad_norm": 0.25139865279197693,
+      "learning_rate": 5e-06,
+      "loss": 0.9023,
+      "num_input_tokens_seen": 900321552,
+      "step": 1981,
+      "train_runtime": 141927.0945,
+      "train_tokens_per_second": 6343.55
+    },
+    {
+      "epoch": 2.3995497498084544,
+      "grad_norm": 0.2799871265888214,
+      "learning_rate": 5e-06,
+      "loss": 0.9437,
+      "num_input_tokens_seen": 900784368,
+      "step": 1982,
+      "train_runtime": 141995.7321,
+      "train_tokens_per_second": 6343.743
+    },
+    {
+      "epoch": 2.400760506626056,
+      "grad_norm": 0.25518181920051575,
+      "learning_rate": 5e-06,
+      "loss": 0.8679,
+      "num_input_tokens_seen": 901240864,
+      "step": 1983,
+      "train_runtime": 142063.228,
+      "train_tokens_per_second": 6343.942
+    },
+    {
+      "epoch": 2.401971263443657,
+      "grad_norm": 0.28088992834091187,
+      "learning_rate": 5e-06,
+      "loss": 0.9436,
+      "num_input_tokens_seen": 901673304,
+      "step": 1984,
+      "train_runtime": 142126.5258,
+      "train_tokens_per_second": 6344.159
+    },
+    {
+      "epoch": 2.4031820202612586,
+      "grad_norm": 0.23146390914916992,
+      "learning_rate": 5e-06,
+      "loss": 0.928,
+      "num_input_tokens_seen": 902127568,
+      "step": 1985,
+      "train_runtime": 142193.8578,
+      "train_tokens_per_second": 6344.35
+    },
+    {
+      "epoch": 2.40439277707886,
+      "grad_norm": 0.23194481432437897,
+      "learning_rate": 5e-06,
+      "loss": 0.9461,
+      "num_input_tokens_seen": 902577560,
+      "step": 1986,
+      "train_runtime": 142260.1684,
+      "train_tokens_per_second": 6344.556
+    },
+    {
+      "epoch": 2.4056035338964614,
+      "grad_norm": 0.2525422275066376,
+      "learning_rate": 5e-06,
+      "loss": 0.9334,
+      "num_input_tokens_seen": 903038008,
+      "step": 1987,
+      "train_runtime": 142328.7983,
+      "train_tokens_per_second": 6344.731
+    },
+    {
+      "epoch": 2.406814290714063,
+      "grad_norm": 0.258497953414917,
+      "learning_rate": 5e-06,
+      "loss": 0.9355,
+      "num_input_tokens_seen": 903491080,
+      "step": 1988,
+      "train_runtime": 142397.3731,
+      "train_tokens_per_second": 6344.858
+    },
+    {
+      "epoch": 2.4080250475316642,
+      "grad_norm": 0.24086523056030273,
+      "learning_rate": 5e-06,
+      "loss": 0.9504,
+      "num_input_tokens_seen": 903940184,
+      "step": 1989,
+      "train_runtime": 142463.8782,
+      "train_tokens_per_second": 6345.048
+    },
+    {
+      "epoch": 2.4092358043492657,
+      "grad_norm": 0.24795937538146973,
+      "learning_rate": 5e-06,
+      "loss": 0.9263,
+      "num_input_tokens_seen": 904404544,
+      "step": 1990,
+      "train_runtime": 142532.6712,
+      "train_tokens_per_second": 6345.244
+    },
+    {
+      "epoch": 2.410446561166867,
+      "grad_norm": 0.2638545632362366,
+      "learning_rate": 5e-06,
+      "loss": 1.017,
+      "num_input_tokens_seen": 904832936,
+      "step": 1991,
+      "train_runtime": 142595.965,
+      "train_tokens_per_second": 6345.432
+    },
+    {
+      "epoch": 2.411657317984468,
+      "grad_norm": 0.23633180558681488,
+      "learning_rate": 5e-06,
+      "loss": 0.9562,
+      "num_input_tokens_seen": 905310056,
+      "step": 1992,
+      "train_runtime": 142666.5754,
+      "train_tokens_per_second": 6345.635
+    },
+    {
+      "epoch": 2.41286807480207,
+      "grad_norm": 0.2632332444190979,
+      "learning_rate": 5e-06,
+      "loss": 0.9153,
+      "num_input_tokens_seen": 905746048,
+      "step": 1993,
+      "train_runtime": 142730.9361,
+      "train_tokens_per_second": 6345.829
+    },
+    {
+      "epoch": 2.414078831619671,
+      "grad_norm": 0.2594749927520752,
+      "learning_rate": 5e-06,
+      "loss": 0.9256,
+      "num_input_tokens_seen": 906175336,
+      "step": 1994,
+      "train_runtime": 142794.2311,
+      "train_tokens_per_second": 6346.022
+    },
+    {
+      "epoch": 2.4152895884372723,
+      "grad_norm": 0.24447709321975708,
+      "learning_rate": 5e-06,
+      "loss": 0.8639,
+      "num_input_tokens_seen": 906625416,
+      "step": 1995,
+      "train_runtime": 142860.8603,
+      "train_tokens_per_second": 6346.213
+    },
+    {
+      "epoch": 2.4165003452548737,
+      "grad_norm": 0.2638216018676758,
+      "learning_rate": 5e-06,
+      "loss": 0.9065,
+      "num_input_tokens_seen": 907116368,
+      "step": 1996,
+      "train_runtime": 142934.0058,
+      "train_tokens_per_second": 6346.4
+    },
+    {
+      "epoch": 2.417711102072475,
+      "grad_norm": 0.23817259073257446,
+      "learning_rate": 5e-06,
+      "loss": 0.9236,
+      "num_input_tokens_seen": 907590384,
+      "step": 1997,
+      "train_runtime": 143004.1952,
+      "train_tokens_per_second": 6346.6
+    },
+    {
+      "epoch": 2.4189218588900765,
+      "grad_norm": 0.2550632059574127,
+      "learning_rate": 5e-06,
+      "loss": 0.967,
+      "num_input_tokens_seen": 908026040,
+      "step": 1998,
+      "train_runtime": 143068.2631,
+      "train_tokens_per_second": 6346.803
+    },
+    {
+      "epoch": 2.420132615707678,
+      "grad_norm": 0.2464226633310318,
+      "learning_rate": 5e-06,
+      "loss": 0.9368,
+      "num_input_tokens_seen": 908465552,
+      "step": 1999,
+      "train_runtime": 143133.3558,
+      "train_tokens_per_second": 6346.987
+    },
+    {
+      "epoch": 2.4213433725252793,
+      "grad_norm": 0.2467721402645111,
+      "learning_rate": 5e-06,
+      "loss": 0.9368,
+      "num_input_tokens_seen": 908920080,
+      "step": 2000,
+      "train_runtime": 143200.8915,
+      "train_tokens_per_second": 6347.168
+    },
+    {
+      "epoch": 2.4225541293428807,
+      "grad_norm": 0.2405187487602234,
+      "learning_rate": 5e-06,
+      "loss": 0.9122,
+      "num_input_tokens_seen": 909366536,
+      "step": 2001,
+      "train_runtime": 143268.6692,
+      "train_tokens_per_second": 6347.281
+    },
+    {
+      "epoch": 2.423764886160482,
+      "grad_norm": 0.2485346794128418,
+      "learning_rate": 5e-06,
+      "loss": 0.9035,
+      "num_input_tokens_seen": 909816392,
+      "step": 2002,
+      "train_runtime": 143335.0761,
+      "train_tokens_per_second": 6347.479
+    },
+    {
+      "epoch": 2.4249756429780835,
+      "grad_norm": 0.24442023038864136,
+      "learning_rate": 5e-06,
+      "loss": 0.9275,
+      "num_input_tokens_seen": 910258544,
+      "step": 2003,
+      "train_runtime": 143400.4166,
+      "train_tokens_per_second": 6347.67
+    },
+    {
+      "epoch": 2.426186399795685,
+      "grad_norm": 0.229239359498024,
+      "learning_rate": 5e-06,
+      "loss": 0.9361,
+      "num_input_tokens_seen": 910717192,
+      "step": 2004,
+      "train_runtime": 143468.3168,
+      "train_tokens_per_second": 6347.863
+    },
+    {
+      "epoch": 2.427397156613286,
+      "grad_norm": 0.24774321913719177,
+      "learning_rate": 5e-06,
+      "loss": 0.9516,
+      "num_input_tokens_seen": 911158464,
+      "step": 2005,
+      "train_runtime": 143533.5062,
+      "train_tokens_per_second": 6348.054
+    },
+    {
+      "epoch": 2.4286079134308878,
+      "grad_norm": 0.22622303664684296,
+      "learning_rate": 5e-06,
+      "loss": 0.8989,
+      "num_input_tokens_seen": 911625768,
+      "step": 2006,
+      "train_runtime": 143602.5212,
+      "train_tokens_per_second": 6348.257
+    },
+    {
+      "epoch": 2.4298186702484887,
+      "grad_norm": 0.23639139533042908,
+      "learning_rate": 5e-06,
+      "loss": 0.8516,
+      "num_input_tokens_seen": 912074848,
+      "step": 2007,
+      "train_runtime": 143668.9004,
+      "train_tokens_per_second": 6348.45
+    },
+    {
+      "epoch": 2.43102942706609,
+      "grad_norm": 0.22876761853694916,
+      "learning_rate": 5e-06,
+      "loss": 0.9411,
+      "num_input_tokens_seen": 912544480,
+      "step": 2008,
+      "train_runtime": 143738.708,
+      "train_tokens_per_second": 6348.634
+    },
+    {
+      "epoch": 2.4322401838836916,
+      "grad_norm": 0.22991536557674408,
+      "learning_rate": 5e-06,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 912999640,
+      "step": 2009,
+      "train_runtime": 143805.9728,
+      "train_tokens_per_second": 6348.83
+    },
+    {
+      "epoch": 2.433450940701293,
+      "grad_norm": 0.2503306567668915,
+      "learning_rate": 5e-06,
+      "loss": 0.9616,
+      "num_input_tokens_seen": 913462304,
+      "step": 2010,
+      "train_runtime": 143874.5271,
+      "train_tokens_per_second": 6349.02
+    },
+    {
+      "epoch": 2.4346616975188944,
+      "grad_norm": 0.2324354350566864,
+      "learning_rate": 5e-06,
+      "loss": 0.9464,
+      "num_input_tokens_seen": 913940856,
+      "step": 2011,
+      "train_runtime": 143945.0382,
+      "train_tokens_per_second": 6349.235
+    },
+    {
+      "epoch": 2.435872454336496,
+      "grad_norm": 0.2581816017627716,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 914400040,
+      "step": 2012,
+      "train_runtime": 144012.6324,
+      "train_tokens_per_second": 6349.443
+    },
+    {
+      "epoch": 2.437083211154097,
+      "grad_norm": 0.22747096419334412,
+      "learning_rate": 5e-06,
+      "loss": 0.8607,
+      "num_input_tokens_seen": 914857280,
+      "step": 2013,
+      "train_runtime": 144079.8825,
+      "train_tokens_per_second": 6349.653
+    },
+    {
+      "epoch": 2.4382939679716986,
+      "grad_norm": 0.2326267808675766,
+      "learning_rate": 5e-06,
+      "loss": 0.9106,
+      "num_input_tokens_seen": 915326624,
+      "step": 2014,
+      "train_runtime": 144149.1853,
+      "train_tokens_per_second": 6349.856
+    },
+    {
+      "epoch": 2.4395047247893,
+      "grad_norm": 0.23372125625610352,
+      "learning_rate": 5e-06,
+      "loss": 0.9309,
+      "num_input_tokens_seen": 915785008,
+      "step": 2015,
+      "train_runtime": 144216.7032,
+      "train_tokens_per_second": 6350.062
+    },
+    {
+      "epoch": 2.4407154816069014,
+      "grad_norm": 0.22626471519470215,
+      "learning_rate": 5e-06,
+      "loss": 0.9278,
+      "num_input_tokens_seen": 916238880,
+      "step": 2016,
+      "train_runtime": 144283.6442,
+      "train_tokens_per_second": 6350.262
+    },
+    {
+      "epoch": 2.441926238424503,
+      "grad_norm": 0.25401008129119873,
+      "learning_rate": 5e-06,
+      "loss": 0.9314,
+      "num_input_tokens_seen": 916695648,
+      "step": 2017,
+      "train_runtime": 144350.7873,
+      "train_tokens_per_second": 6350.472
+    },
+    {
+      "epoch": 2.4431369952421043,
+      "grad_norm": 0.2441287785768509,
+      "learning_rate": 5e-06,
+      "loss": 0.9458,
+      "num_input_tokens_seen": 917130712,
+      "step": 2018,
+      "train_runtime": 144414.7762,
+      "train_tokens_per_second": 6350.671
+    },
+    {
+      "epoch": 2.4443477520597057,
+      "grad_norm": 0.2315591424703598,
+      "learning_rate": 5e-06,
+      "loss": 0.915,
+      "num_input_tokens_seen": 917573008,
+      "step": 2019,
+      "train_runtime": 144480.3945,
+      "train_tokens_per_second": 6350.848
+    },
+    {
+      "epoch": 2.4455585088773066,
+      "grad_norm": 0.24778081476688385,
+      "learning_rate": 5e-06,
+      "loss": 0.9151,
+      "num_input_tokens_seen": 918042304,
+      "step": 2020,
+      "train_runtime": 144550.1954,
+      "train_tokens_per_second": 6351.028
+    },
+    {
+      "epoch": 2.446769265694908,
+      "grad_norm": 0.24255888164043427,
+      "learning_rate": 5e-06,
+      "loss": 0.9598,
+      "num_input_tokens_seen": 918472152,
+      "step": 2021,
+      "train_runtime": 144613.6113,
+      "train_tokens_per_second": 6351.215
+    },
+    {
+      "epoch": 2.4479800225125095,
+      "grad_norm": 0.2313011735677719,
+      "learning_rate": 5e-06,
+      "loss": 0.8695,
+      "num_input_tokens_seen": 918918720,
+      "step": 2022,
+      "train_runtime": 144679.5413,
+      "train_tokens_per_second": 6351.407
+    },
+    {
+      "epoch": 2.449190779330111,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 5e-06,
+      "loss": 0.9775,
+      "num_input_tokens_seen": 919349928,
+      "step": 2023,
+      "train_runtime": 144743.4514,
+      "train_tokens_per_second": 6351.582
+    },
+    {
+      "epoch": 2.4504015361477123,
+      "grad_norm": 0.2424296885728836,
+      "learning_rate": 5e-06,
+      "loss": 0.965,
+      "num_input_tokens_seen": 919786592,
+      "step": 2024,
+      "train_runtime": 144807.5707,
+      "train_tokens_per_second": 6351.785
+    },
+    {
+      "epoch": 2.4516122929653137,
+      "grad_norm": 0.24074110388755798,
+      "learning_rate": 5e-06,
+      "loss": 0.9531,
+      "num_input_tokens_seen": 920241992,
+      "step": 2025,
+      "train_runtime": 144875.0746,
+      "train_tokens_per_second": 6351.969
+    },
+    {
+      "epoch": 2.452823049782915,
+      "grad_norm": 0.2590942084789276,
+      "learning_rate": 5e-06,
+      "loss": 0.9863,
+      "num_input_tokens_seen": 920659648,
+      "step": 2026,
+      "train_runtime": 144937.2065,
+      "train_tokens_per_second": 6352.128
+    },
+    {
+      "epoch": 2.4540338066005165,
+      "grad_norm": 0.24782414734363556,
+      "learning_rate": 5e-06,
+      "loss": 0.9386,
+      "num_input_tokens_seen": 921097432,
+      "step": 2027,
+      "train_runtime": 145001.8229,
+      "train_tokens_per_second": 6352.316
+    },
+    {
+      "epoch": 2.455244563418118,
+      "grad_norm": 0.26278966665267944,
+      "learning_rate": 5e-06,
+      "loss": 0.9022,
+      "num_input_tokens_seen": 921551424,
+      "step": 2028,
+      "train_runtime": 145068.6754,
+      "train_tokens_per_second": 6352.518
+    },
+    {
+      "epoch": 2.4564553202357193,
+      "grad_norm": 0.2415189892053604,
+      "learning_rate": 5e-06,
+      "loss": 0.8962,
+      "num_input_tokens_seen": 921997752,
+      "step": 2029,
+      "train_runtime": 145134.5917,
+      "train_tokens_per_second": 6352.708
+    },
+    {
+      "epoch": 2.4576660770533207,
+      "grad_norm": 0.23638790845870972,
+      "learning_rate": 5e-06,
+      "loss": 0.8967,
+      "num_input_tokens_seen": 922462192,
+      "step": 2030,
+      "train_runtime": 145203.6043,
+      "train_tokens_per_second": 6352.888
+    },
+    {
+      "epoch": 2.458876833870922,
+      "grad_norm": 0.27461180090904236,
+      "learning_rate": 5e-06,
+      "loss": 0.9226,
+      "num_input_tokens_seen": 922906560,
+      "step": 2031,
+      "train_runtime": 145269.2551,
+      "train_tokens_per_second": 6353.076
+    },
+    {
+      "epoch": 2.4600875906885236,
+      "grad_norm": 0.24975448846817017,
+      "learning_rate": 5e-06,
+      "loss": 0.9153,
+      "num_input_tokens_seen": 923371312,
+      "step": 2032,
+      "train_runtime": 145338.224,
+      "train_tokens_per_second": 6353.259
+    },
+    {
+      "epoch": 2.4612983475061245,
+      "grad_norm": 0.23750756680965424,
+      "learning_rate": 5e-06,
+      "loss": 0.8991,
+      "num_input_tokens_seen": 923838344,
+      "step": 2033,
+      "train_runtime": 145407.6286,
+      "train_tokens_per_second": 6353.438
+    },
+    {
+      "epoch": 2.462509104323726,
+      "grad_norm": 0.2277829796075821,
+      "learning_rate": 5e-06,
+      "loss": 0.884,
+      "num_input_tokens_seen": 924294392,
+      "step": 2034,
+      "train_runtime": 145475.5205,
+      "train_tokens_per_second": 6353.608
+    },
+    {
+      "epoch": 2.4637198611413273,
+      "grad_norm": 0.2631170451641083,
+      "learning_rate": 5e-06,
+      "loss": 0.9468,
+      "num_input_tokens_seen": 924720120,
+      "step": 2035,
+      "train_runtime": 145538.1668,
+      "train_tokens_per_second": 6353.798
+    },
+    {
+      "epoch": 2.4649306179589288,
+      "grad_norm": 0.24038782715797424,
+      "learning_rate": 5e-06,
+      "loss": 0.8965,
+      "num_input_tokens_seen": 925176312,
+      "step": 2036,
+      "train_runtime": 145605.7781,
+      "train_tokens_per_second": 6353.981
+    },
+    {
+      "epoch": 2.46614137477653,
+      "grad_norm": 0.2566758692264557,
+      "learning_rate": 5e-06,
+      "loss": 0.9498,
+      "num_input_tokens_seen": 925601920,
+      "step": 2037,
+      "train_runtime": 145668.7144,
+      "train_tokens_per_second": 6354.157
+    },
+    {
+      "epoch": 2.4673521315941316,
+      "grad_norm": 0.24463194608688354,
+      "learning_rate": 5e-06,
+      "loss": 0.9263,
+      "num_input_tokens_seen": 926052952,
+      "step": 2038,
+      "train_runtime": 145735.808,
+      "train_tokens_per_second": 6354.327
+    },
+    {
+      "epoch": 2.468562888411733,
+      "grad_norm": 0.2460647076368332,
+      "learning_rate": 5e-06,
+      "loss": 0.8975,
+      "num_input_tokens_seen": 926514368,
+      "step": 2039,
+      "train_runtime": 145804.5927,
+      "train_tokens_per_second": 6354.494
+    },
+    {
+      "epoch": 2.4697736452293344,
+      "grad_norm": 0.2725125253200531,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "num_input_tokens_seen": 926978616,
+      "step": 2040,
+      "train_runtime": 145872.9181,
+      "train_tokens_per_second": 6354.7
+    },
+    {
+      "epoch": 2.470984402046936,
+      "grad_norm": 0.245590940117836,
+      "learning_rate": 5e-06,
+      "loss": 0.9422,
+      "num_input_tokens_seen": 927427896,
+      "step": 2041,
+      "train_runtime": 145940.2315,
+      "train_tokens_per_second": 6354.847
+    },
+    {
+      "epoch": 2.4721951588645372,
+      "grad_norm": 0.22320939600467682,
+      "learning_rate": 5e-06,
+      "loss": 0.8796,
+      "num_input_tokens_seen": 927878992,
+      "step": 2042,
+      "train_runtime": 146008.6109,
+      "train_tokens_per_second": 6354.961
+    },
+    {
+      "epoch": 2.4734059156821386,
+      "grad_norm": 0.23028956353664398,
+      "learning_rate": 5e-06,
+      "loss": 0.8894,
+      "num_input_tokens_seen": 928332296,
+      "step": 2043,
+      "train_runtime": 146075.3686,
+      "train_tokens_per_second": 6355.16
+    },
+    {
+      "epoch": 2.47461667249974,
+      "grad_norm": 0.2439645677804947,
+      "learning_rate": 5e-06,
+      "loss": 0.9377,
+      "num_input_tokens_seen": 928771176,
+      "step": 2044,
+      "train_runtime": 146140.3819,
+      "train_tokens_per_second": 6355.336
+    },
+    {
+      "epoch": 2.4758274293173415,
+      "grad_norm": 0.26759254932403564,
+      "learning_rate": 5e-06,
+      "loss": 0.9297,
+      "num_input_tokens_seen": 929245128,
+      "step": 2045,
+      "train_runtime": 146210.4408,
+      "train_tokens_per_second": 6355.532
+    },
+    {
+      "epoch": 2.4770381861349424,
+      "grad_norm": 0.26013848185539246,
+      "learning_rate": 5e-06,
+      "loss": 0.8866,
+      "num_input_tokens_seen": 929700048,
+      "step": 2046,
+      "train_runtime": 146277.6773,
+      "train_tokens_per_second": 6355.721
+    },
+    {
+      "epoch": 2.478248942952544,
+      "grad_norm": 0.2415570616722107,
+      "learning_rate": 5e-06,
+      "loss": 0.9105,
+      "num_input_tokens_seen": 930155200,
+      "step": 2047,
+      "train_runtime": 146345.2032,
+      "train_tokens_per_second": 6355.898
+    },
+    {
+      "epoch": 2.4794596997701452,
+      "grad_norm": 0.23563383519649506,
+      "learning_rate": 5e-06,
+      "loss": 0.924,
+      "num_input_tokens_seen": 930593920,
+      "step": 2048,
+      "train_runtime": 146410.2731,
+      "train_tokens_per_second": 6356.07
+    },
+    {
+      "epoch": 2.4806704565877467,
+      "grad_norm": 0.2751082479953766,
+      "learning_rate": 5e-06,
+      "loss": 0.9136,
+      "num_input_tokens_seen": 931067912,
+      "step": 2049,
+      "train_runtime": 146480.5438,
+      "train_tokens_per_second": 6356.257
+    },
+    {
+      "epoch": 2.481881213405348,
+      "grad_norm": 0.24614796042442322,
+      "learning_rate": 5e-06,
+      "loss": 0.9161,
+      "num_input_tokens_seen": 931535648,
+      "step": 2050,
+      "train_runtime": 146549.9494,
+      "train_tokens_per_second": 6356.438
+    },
+    {
+      "epoch": 2.4830919702229495,
+      "grad_norm": 0.2446848303079605,
+      "learning_rate": 5e-06,
+      "loss": 0.9223,
+      "num_input_tokens_seen": 931996664,
+      "step": 2051,
+      "train_runtime": 146617.8963,
+      "train_tokens_per_second": 6356.636
+    },
+    {
+      "epoch": 2.484302727040551,
+      "grad_norm": 0.24272581934928894,
+      "learning_rate": 5e-06,
+      "loss": 0.9565,
+      "num_input_tokens_seen": 932455392,
+      "step": 2052,
+      "train_runtime": 146685.9301,
+      "train_tokens_per_second": 6356.815
+    },
+    {
+      "epoch": 2.4855134838581523,
+      "grad_norm": 0.24807094037532806,
+      "learning_rate": 5e-06,
+      "loss": 0.9369,
+      "num_input_tokens_seen": 932892240,
+      "step": 2053,
+      "train_runtime": 146750.5502,
+      "train_tokens_per_second": 6356.993
+    },
+    {
+      "epoch": 2.4867242406757537,
+      "grad_norm": 0.24745595455169678,
+      "learning_rate": 5e-06,
+      "loss": 0.9749,
+      "num_input_tokens_seen": 933347928,
+      "step": 2054,
+      "train_runtime": 146817.8809,
+      "train_tokens_per_second": 6357.182
+    },
+    {
+      "epoch": 2.487934997493355,
+      "grad_norm": 0.2522644102573395,
+      "learning_rate": 5e-06,
+      "loss": 0.9338,
+      "num_input_tokens_seen": 933807000,
+      "step": 2055,
+      "train_runtime": 146885.7573,
+      "train_tokens_per_second": 6357.369
+    },
+    {
+      "epoch": 2.4891457543109565,
+      "grad_norm": 0.24964258074760437,
+      "learning_rate": 5e-06,
+      "loss": 0.916,
+      "num_input_tokens_seen": 934241376,
+      "step": 2056,
+      "train_runtime": 146949.703,
+      "train_tokens_per_second": 6357.559
+    },
+    {
+      "epoch": 2.490356511128558,
+      "grad_norm": 0.24483104050159454,
+      "learning_rate": 5e-06,
+      "loss": 0.9004,
+      "num_input_tokens_seen": 934681960,
+      "step": 2057,
+      "train_runtime": 147014.7916,
+      "train_tokens_per_second": 6357.741
+    },
+    {
+      "epoch": 2.4915672679461593,
+      "grad_norm": 0.23873838782310486,
+      "learning_rate": 5e-06,
+      "loss": 0.9291,
+      "num_input_tokens_seen": 935154456,
+      "step": 2058,
+      "train_runtime": 147084.9039,
+      "train_tokens_per_second": 6357.923
+    },
+    {
+      "epoch": 2.4927780247637603,
+      "grad_norm": 0.23718827962875366,
+      "learning_rate": 5e-06,
+      "loss": 0.8689,
+      "num_input_tokens_seen": 935605960,
+      "step": 2059,
+      "train_runtime": 147152.0711,
+      "train_tokens_per_second": 6358.089
+    },
+    {
+      "epoch": 2.4939887815813617,
+      "grad_norm": 0.2440134733915329,
+      "learning_rate": 5e-06,
+      "loss": 0.9532,
+      "num_input_tokens_seen": 936070728,
+      "step": 2060,
+      "train_runtime": 147221.0941,
+      "train_tokens_per_second": 6358.265
+    },
+    {
+      "epoch": 2.495199538398963,
+      "grad_norm": 0.24385643005371094,
+      "learning_rate": 5e-06,
+      "loss": 0.8583,
+      "num_input_tokens_seen": 936518568,
+      "step": 2061,
+      "train_runtime": 147287.537,
+      "train_tokens_per_second": 6358.437
+    },
+    {
+      "epoch": 2.4964102952165645,
+      "grad_norm": 0.23779569566249847,
+      "learning_rate": 5e-06,
+      "loss": 0.9048,
+      "num_input_tokens_seen": 936975120,
+      "step": 2062,
+      "train_runtime": 147355.2483,
+      "train_tokens_per_second": 6358.614
+    },
+    {
+      "epoch": 2.497621052034166,
+      "grad_norm": 0.25262778997421265,
+      "learning_rate": 5e-06,
+      "loss": 0.9233,
+      "num_input_tokens_seen": 937426104,
+      "step": 2063,
+      "train_runtime": 147422.2915,
+      "train_tokens_per_second": 6358.781
+    },
+    {
+      "epoch": 2.4988318088517674,
+      "grad_norm": 0.24266116321086884,
+      "learning_rate": 5e-06,
+      "loss": 0.9427,
+      "num_input_tokens_seen": 937903712,
+      "step": 2064,
+      "train_runtime": 147492.5493,
+      "train_tokens_per_second": 6358.99
+    },
+    {
+      "epoch": 2.5000425656693688,
+      "grad_norm": 0.24687156081199646,
+      "learning_rate": 5e-06,
+      "loss": 0.9445,
+      "num_input_tokens_seen": 938338192,
+      "step": 2065,
+      "train_runtime": 147556.7522,
+      "train_tokens_per_second": 6359.168
+    },
+    {
+      "epoch": 2.50125332248697,
+      "grad_norm": 0.2338828295469284,
+      "learning_rate": 5e-06,
+      "loss": 0.9168,
+      "num_input_tokens_seen": 938795784,
+      "step": 2066,
+      "train_runtime": 147625.0006,
+      "train_tokens_per_second": 6359.328
+    },
+    {
+      "epoch": 2.5024640793045716,
+      "grad_norm": 0.22915604710578918,
+      "learning_rate": 5e-06,
+      "loss": 0.8868,
+      "num_input_tokens_seen": 939266392,
+      "step": 2067,
+      "train_runtime": 147694.5446,
+      "train_tokens_per_second": 6359.52
+    },
+    {
+      "epoch": 2.503674836122173,
+      "grad_norm": 0.23226921260356903,
+      "learning_rate": 5e-06,
+      "loss": 0.9124,
+      "num_input_tokens_seen": 939729888,
+      "step": 2068,
+      "train_runtime": 147763.2806,
+      "train_tokens_per_second": 6359.698
+    },
+    {
+      "epoch": 2.5048855929397744,
+      "grad_norm": 0.24283023178577423,
+      "learning_rate": 5e-06,
+      "loss": 0.9313,
+      "num_input_tokens_seen": 940204240,
+      "step": 2069,
+      "train_runtime": 147833.4404,
+      "train_tokens_per_second": 6359.889
+    },
+    {
+      "epoch": 2.506096349757376,
+      "grad_norm": 0.24000869691371918,
+      "learning_rate": 5e-06,
+      "loss": 0.9282,
+      "num_input_tokens_seen": 940655272,
+      "step": 2070,
+      "train_runtime": 147899.9283,
+      "train_tokens_per_second": 6360.079
+    },
+    {
+      "epoch": 2.5073071065749772,
+      "grad_norm": 0.2344265878200531,
+      "learning_rate": 5e-06,
+      "loss": 0.9358,
+      "num_input_tokens_seen": 941102232,
+      "step": 2071,
+      "train_runtime": 147966.0637,
+      "train_tokens_per_second": 6360.257
+    },
+    {
+      "epoch": 2.508517863392578,
+      "grad_norm": 0.22600269317626953,
+      "learning_rate": 5e-06,
+      "loss": 0.8906,
+      "num_input_tokens_seen": 941580024,
+      "step": 2072,
+      "train_runtime": 148036.6621,
+      "train_tokens_per_second": 6360.452
+    },
+    {
+      "epoch": 2.50972862021018,
+      "grad_norm": 0.23776832222938538,
+      "learning_rate": 5e-06,
+      "loss": 0.9121,
+      "num_input_tokens_seen": 942039728,
+      "step": 2073,
+      "train_runtime": 148104.8937,
+      "train_tokens_per_second": 6360.625
+    },
+    {
+      "epoch": 2.510939377027781,
+      "grad_norm": 0.22566133737564087,
+      "learning_rate": 5e-06,
+      "loss": 0.9624,
+      "num_input_tokens_seen": 942489560,
+      "step": 2074,
+      "train_runtime": 148171.3227,
+      "train_tokens_per_second": 6360.81
+    },
+    {
+      "epoch": 2.5121501338453824,
+      "grad_norm": 0.24746361374855042,
+      "learning_rate": 5e-06,
+      "loss": 0.8688,
+      "num_input_tokens_seen": 942940600,
+      "step": 2075,
+      "train_runtime": 148237.979,
+      "train_tokens_per_second": 6360.992
+    },
+    {
+      "epoch": 2.513360890662984,
+      "grad_norm": 0.2346951961517334,
+      "learning_rate": 5e-06,
+      "loss": 0.9307,
+      "num_input_tokens_seen": 943417360,
+      "step": 2076,
+      "train_runtime": 148308.1213,
+      "train_tokens_per_second": 6361.198
+    },
+    {
+      "epoch": 2.5145716474805853,
+      "grad_norm": 0.2295297533273697,
+      "learning_rate": 5e-06,
+      "loss": 0.958,
+      "num_input_tokens_seen": 943867744,
+      "step": 2077,
+      "train_runtime": 148374.8559,
+      "train_tokens_per_second": 6361.373
+    },
+    {
+      "epoch": 2.5157824042981867,
+      "grad_norm": 0.2399854212999344,
+      "learning_rate": 5e-06,
+      "loss": 0.8859,
+      "num_input_tokens_seen": 944347752,
+      "step": 2078,
+      "train_runtime": 148445.8736,
+      "train_tokens_per_second": 6361.563
+    },
+    {
+      "epoch": 2.516993161115788,
+      "grad_norm": 0.25821027159690857,
+      "learning_rate": 5e-06,
+      "loss": 0.9398,
+      "num_input_tokens_seen": 944819984,
+      "step": 2079,
+      "train_runtime": 148515.6507,
+      "train_tokens_per_second": 6361.754
+    },
+    {
+      "epoch": 2.5182039179333895,
+      "grad_norm": 0.24560266733169556,
+      "learning_rate": 5e-06,
+      "loss": 0.9439,
+      "num_input_tokens_seen": 945260464,
+      "step": 2080,
+      "train_runtime": 148580.7954,
+      "train_tokens_per_second": 6361.929
+    },
+    {
+      "epoch": 2.519414674750991,
+      "grad_norm": 0.23482368886470795,
+      "learning_rate": 5e-06,
+      "loss": 0.9254,
+      "num_input_tokens_seen": 945718168,
+      "step": 2081,
+      "train_runtime": 148648.5841,
+      "train_tokens_per_second": 6362.107
+    },
+    {
+      "epoch": 2.5206254315685923,
+      "grad_norm": 0.24930696189403534,
+      "learning_rate": 5e-06,
+      "loss": 0.9276,
+      "num_input_tokens_seen": 946169448,
+      "step": 2082,
+      "train_runtime": 148715.3849,
+      "train_tokens_per_second": 6362.284
+    },
+    {
+      "epoch": 2.5218361883861937,
+      "grad_norm": 0.27057182788848877,
+      "learning_rate": 5e-06,
+      "loss": 0.9687,
+      "num_input_tokens_seen": 946606096,
+      "step": 2083,
+      "train_runtime": 148779.659,
+      "train_tokens_per_second": 6362.47
+    },
+    {
+      "epoch": 2.523046945203795,
+      "grad_norm": 0.2677522301673889,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 947064336,
+      "step": 2084,
+      "train_runtime": 148847.4866,
+      "train_tokens_per_second": 6362.649
+    },
+    {
+      "epoch": 2.524257702021396,
+      "grad_norm": 0.24084171652793884,
+      "learning_rate": 5e-06,
+      "loss": 0.9752,
+      "num_input_tokens_seen": 947511856,
+      "step": 2085,
+      "train_runtime": 148913.4171,
+      "train_tokens_per_second": 6362.837
+    },
+    {
+      "epoch": 2.525468458838998,
+      "grad_norm": 0.2556767165660858,
+      "learning_rate": 5e-06,
+      "loss": 0.9244,
+      "num_input_tokens_seen": 947972304,
+      "step": 2086,
+      "train_runtime": 148981.7706,
+      "train_tokens_per_second": 6363.009
+    },
+    {
+      "epoch": 2.526679215656599,
+      "grad_norm": 0.25337082147598267,
+      "learning_rate": 5e-06,
+      "loss": 0.9532,
+      "num_input_tokens_seen": 948416456,
+      "step": 2087,
+      "train_runtime": 149047.4661,
+      "train_tokens_per_second": 6363.184
+    },
+    {
+      "epoch": 2.5278899724742003,
+      "grad_norm": 0.23191265761852264,
+      "learning_rate": 5e-06,
+      "loss": 0.9283,
+      "num_input_tokens_seen": 948876472,
+      "step": 2088,
+      "train_runtime": 149115.6529,
+      "train_tokens_per_second": 6363.359
+    },
+    {
+      "epoch": 2.5291007292918017,
+      "grad_norm": 0.24382182955741882,
+      "learning_rate": 5e-06,
+      "loss": 0.9737,
+      "num_input_tokens_seen": 949310000,
+      "step": 2089,
+      "train_runtime": 149179.5981,
+      "train_tokens_per_second": 6363.538
+    },
+    {
+      "epoch": 2.530311486109403,
+      "grad_norm": 0.25065913796424866,
+      "learning_rate": 5e-06,
+      "loss": 0.9474,
+      "num_input_tokens_seen": 949744928,
+      "step": 2090,
+      "train_runtime": 149243.5236,
+      "train_tokens_per_second": 6363.726
+    },
+    {
+      "epoch": 2.5315222429270046,
+      "grad_norm": 0.24396991729736328,
+      "learning_rate": 5e-06,
+      "loss": 0.895,
+      "num_input_tokens_seen": 950192536,
+      "step": 2091,
+      "train_runtime": 149309.8845,
+      "train_tokens_per_second": 6363.896
+    },
+    {
+      "epoch": 2.532732999744606,
+      "grad_norm": 0.2316816747188568,
+      "learning_rate": 5e-06,
+      "loss": 0.9147,
+      "num_input_tokens_seen": 950658280,
+      "step": 2092,
+      "train_runtime": 149379.1212,
+      "train_tokens_per_second": 6364.064
+    },
+    {
+      "epoch": 2.5339437565622074,
+      "grad_norm": 0.2816956043243408,
+      "learning_rate": 5e-06,
+      "loss": 0.9337,
+      "num_input_tokens_seen": 951108960,
+      "step": 2093,
+      "train_runtime": 149445.9212,
+      "train_tokens_per_second": 6364.235
+    },
+    {
+      "epoch": 2.535154513379809,
+      "grad_norm": 0.24696174263954163,
+      "learning_rate": 5e-06,
+      "loss": 0.9976,
+      "num_input_tokens_seen": 951526808,
+      "step": 2094,
+      "train_runtime": 149507.8536,
+      "train_tokens_per_second": 6364.393
+    },
+    {
+      "epoch": 2.53636527019741,
+      "grad_norm": 0.23096802830696106,
+      "learning_rate": 5e-06,
+      "loss": 0.9126,
+      "num_input_tokens_seen": 951990024,
+      "step": 2095,
+      "train_runtime": 149578.1316,
+      "train_tokens_per_second": 6364.5
+    },
+    {
+      "epoch": 2.5375760270150116,
+      "grad_norm": 0.2423764020204544,
+      "learning_rate": 5e-06,
+      "loss": 0.9433,
+      "num_input_tokens_seen": 952442632,
+      "step": 2096,
+      "train_runtime": 149645.4898,
+      "train_tokens_per_second": 6364.66
+    },
+    {
+      "epoch": 2.538786783832613,
+      "grad_norm": 0.2315463125705719,
+      "learning_rate": 5e-06,
+      "loss": 0.9252,
+      "num_input_tokens_seen": 952889608,
+      "step": 2097,
+      "train_runtime": 149711.4793,
+      "train_tokens_per_second": 6364.84
+    },
+    {
+      "epoch": 2.539997540650214,
+      "grad_norm": 0.23303987085819244,
+      "learning_rate": 5e-06,
+      "loss": 0.9057,
+      "num_input_tokens_seen": 953335880,
+      "step": 2098,
+      "train_runtime": 149777.8167,
+      "train_tokens_per_second": 6365.001
+    },
+    {
+      "epoch": 2.541208297467816,
+      "grad_norm": 0.22208106517791748,
+      "learning_rate": 5e-06,
+      "loss": 0.8773,
+      "num_input_tokens_seen": 953792496,
+      "step": 2099,
+      "train_runtime": 149845.1928,
+      "train_tokens_per_second": 6365.186
+    },
+    {
+      "epoch": 2.542419054285417,
+      "grad_norm": 0.27171242237091064,
+      "learning_rate": 5e-06,
+      "loss": 0.9345,
+      "num_input_tokens_seen": 954254432,
+      "step": 2100,
+      "train_runtime": 149913.5984,
+      "train_tokens_per_second": 6365.363
+    },
+    {
+      "epoch": 2.5436298111030182,
+      "grad_norm": 0.24096918106079102,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 954702408,
+      "step": 2101,
+      "train_runtime": 149979.536,
+      "train_tokens_per_second": 6365.551
+    },
+    {
+      "epoch": 2.5448405679206196,
+      "grad_norm": 0.22997787594795227,
+      "learning_rate": 5e-06,
+      "loss": 0.882,
+      "num_input_tokens_seen": 955166928,
+      "step": 2102,
+      "train_runtime": 150048.5149,
+      "train_tokens_per_second": 6365.721
+    },
+    {
+      "epoch": 2.546051324738221,
+      "grad_norm": 0.23458710312843323,
+      "learning_rate": 5e-06,
+      "loss": 0.8823,
+      "num_input_tokens_seen": 955611512,
+      "step": 2103,
+      "train_runtime": 150113.7698,
+      "train_tokens_per_second": 6365.915
+    },
+    {
+      "epoch": 2.5472620815558225,
+      "grad_norm": 0.2433023899793625,
+      "learning_rate": 5e-06,
+      "loss": 0.959,
+      "num_input_tokens_seen": 956040800,
+      "step": 2104,
+      "train_runtime": 150176.961,
+      "train_tokens_per_second": 6366.095
+    },
+    {
+      "epoch": 2.548472838373424,
+      "grad_norm": 0.24917687475681305,
+      "learning_rate": 5e-06,
+      "loss": 0.9486,
+      "num_input_tokens_seen": 956490904,
+      "step": 2105,
+      "train_runtime": 150243.2865,
+      "train_tokens_per_second": 6366.28
+    },
+    {
+      "epoch": 2.5496835951910253,
+      "grad_norm": 0.24541530013084412,
+      "learning_rate": 5e-06,
+      "loss": 0.9464,
+      "num_input_tokens_seen": 956941400,
+      "step": 2106,
+      "train_runtime": 150309.8385,
+      "train_tokens_per_second": 6366.459
+    },
+    {
+      "epoch": 2.5508943520086267,
+      "grad_norm": 0.23959662020206451,
+      "learning_rate": 5e-06,
+      "loss": 0.884,
+      "num_input_tokens_seen": 957382960,
+      "step": 2107,
+      "train_runtime": 150375.1278,
+      "train_tokens_per_second": 6366.631
+    },
+    {
+      "epoch": 2.552105108826228,
+      "grad_norm": 0.24745765328407288,
+      "learning_rate": 5e-06,
+      "loss": 0.9583,
+      "num_input_tokens_seen": 957828816,
+      "step": 2108,
+      "train_runtime": 150441.1512,
+      "train_tokens_per_second": 6366.801
+    },
+    {
+      "epoch": 2.5533158656438295,
+      "grad_norm": 0.3009890019893646,
+      "learning_rate": 5e-06,
+      "loss": 0.9098,
+      "num_input_tokens_seen": 958242640,
+      "step": 2109,
+      "train_runtime": 150502.4514,
+      "train_tokens_per_second": 6366.957
+    },
+    {
+      "epoch": 2.554526622461431,
+      "grad_norm": 0.23632347583770752,
+      "learning_rate": 5e-06,
+      "loss": 0.9395,
+      "num_input_tokens_seen": 958689592,
+      "step": 2110,
+      "train_runtime": 150568.8159,
+      "train_tokens_per_second": 6367.119
+    },
+    {
+      "epoch": 2.555737379279032,
+      "grad_norm": 0.2490553855895996,
+      "learning_rate": 5e-06,
+      "loss": 0.8992,
+      "num_input_tokens_seen": 959154704,
+      "step": 2111,
+      "train_runtime": 150637.4185,
+      "train_tokens_per_second": 6367.307
+    },
+    {
+      "epoch": 2.5569481360966337,
+      "grad_norm": 0.2370673418045044,
+      "learning_rate": 5e-06,
+      "loss": 0.9111,
+      "num_input_tokens_seen": 959608064,
+      "step": 2112,
+      "train_runtime": 150704.8437,
+      "train_tokens_per_second": 6367.467
+    },
+    {
+      "epoch": 2.5581588929142347,
+      "grad_norm": 0.24848392605781555,
+      "learning_rate": 5e-06,
+      "loss": 0.9228,
+      "num_input_tokens_seen": 960056176,
+      "step": 2113,
+      "train_runtime": 150771.1853,
+      "train_tokens_per_second": 6367.637
+    },
+    {
+      "epoch": 2.5593696497318366,
+      "grad_norm": 0.22288735210895538,
+      "learning_rate": 5e-06,
+      "loss": 0.876,
+      "num_input_tokens_seen": 960532728,
+      "step": 2114,
+      "train_runtime": 150842.3276,
+      "train_tokens_per_second": 6367.793
+    },
+    {
+      "epoch": 2.5605804065494375,
+      "grad_norm": 0.2513042986392975,
+      "learning_rate": 5e-06,
+      "loss": 1.0092,
+      "num_input_tokens_seen": 960985864,
+      "step": 2115,
+      "train_runtime": 150909.5334,
+      "train_tokens_per_second": 6367.96
+    },
+    {
+      "epoch": 2.561791163367039,
+      "grad_norm": 0.28590673208236694,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "num_input_tokens_seen": 961433280,
+      "step": 2116,
+      "train_runtime": 150975.5143,
+      "train_tokens_per_second": 6368.14
+    },
+    {
+      "epoch": 2.5630019201846403,
+      "grad_norm": 0.26200953125953674,
+      "learning_rate": 5e-06,
+      "loss": 0.9099,
+      "num_input_tokens_seen": 961888288,
+      "step": 2117,
+      "train_runtime": 151042.961,
+      "train_tokens_per_second": 6368.309
+    },
+    {
+      "epoch": 2.5642126770022418,
+      "grad_norm": 0.24091939628124237,
+      "learning_rate": 5e-06,
+      "loss": 0.905,
+      "num_input_tokens_seen": 962325576,
+      "step": 2118,
+      "train_runtime": 151107.3832,
+      "train_tokens_per_second": 6368.488
+    },
+    {
+      "epoch": 2.565423433819843,
+      "grad_norm": 0.305169016122818,
+      "learning_rate": 5e-06,
+      "loss": 0.9368,
+      "num_input_tokens_seen": 962790480,
+      "step": 2119,
+      "train_runtime": 151176.0572,
+      "train_tokens_per_second": 6368.67
+    },
+    {
+      "epoch": 2.5666341906374446,
+      "grad_norm": 0.23745113611221313,
+      "learning_rate": 5e-06,
+      "loss": 0.912,
+      "num_input_tokens_seen": 963234680,
+      "step": 2120,
+      "train_runtime": 151241.8959,
+      "train_tokens_per_second": 6368.835
+    },
+    {
+      "epoch": 2.567844947455046,
+      "grad_norm": 0.26773974299430847,
+      "learning_rate": 5e-06,
+      "loss": 0.9186,
+      "num_input_tokens_seen": 963693880,
+      "step": 2121,
+      "train_runtime": 151309.6612,
+      "train_tokens_per_second": 6369.017
+    },
+    {
+      "epoch": 2.5690557042726474,
+      "grad_norm": 0.23392970860004425,
+      "learning_rate": 5e-06,
+      "loss": 0.9131,
+      "num_input_tokens_seen": 964156400,
+      "step": 2122,
+      "train_runtime": 151377.9456,
+      "train_tokens_per_second": 6369.2
+    },
+    {
+      "epoch": 2.570266461090249,
+      "grad_norm": 0.24104426801204681,
+      "learning_rate": 5e-06,
+      "loss": 0.9098,
+      "num_input_tokens_seen": 964603680,
+      "step": 2123,
+      "train_runtime": 151443.8686,
+      "train_tokens_per_second": 6369.381
+    },
+    {
+      "epoch": 2.57147721790785,
+      "grad_norm": 0.27819520235061646,
+      "learning_rate": 5e-06,
+      "loss": 0.9433,
+      "num_input_tokens_seen": 965051904,
+      "step": 2124,
+      "train_runtime": 151510.0321,
+      "train_tokens_per_second": 6369.558
+    },
+    {
+      "epoch": 2.5726879747254516,
+      "grad_norm": 0.23141422867774963,
+      "learning_rate": 5e-06,
+      "loss": 0.9482,
+      "num_input_tokens_seen": 965491424,
+      "step": 2125,
+      "train_runtime": 151574.8146,
+      "train_tokens_per_second": 6369.735
+    },
+    {
+      "epoch": 2.5738987315430526,
+      "grad_norm": 0.2362852543592453,
+      "learning_rate": 5e-06,
+      "loss": 0.8856,
+      "num_input_tokens_seen": 965942960,
+      "step": 2126,
+      "train_runtime": 151641.7588,
+      "train_tokens_per_second": 6369.901
+    },
+    {
+      "epoch": 2.5751094883606545,
+      "grad_norm": 0.2561604380607605,
+      "learning_rate": 5e-06,
+      "loss": 0.931,
+      "num_input_tokens_seen": 966402048,
+      "step": 2127,
+      "train_runtime": 151710.0948,
+      "train_tokens_per_second": 6370.058
+    },
+    {
+      "epoch": 2.5763202451782554,
+      "grad_norm": 0.2245933711528778,
+      "learning_rate": 5e-06,
+      "loss": 0.8996,
+      "num_input_tokens_seen": 966854136,
+      "step": 2128,
+      "train_runtime": 151777.079,
+      "train_tokens_per_second": 6370.225
+    },
+    {
+      "epoch": 2.577531001995857,
+      "grad_norm": 0.2425384670495987,
+      "learning_rate": 5e-06,
+      "loss": 0.9431,
+      "num_input_tokens_seen": 967327272,
+      "step": 2129,
+      "train_runtime": 151847.5021,
+      "train_tokens_per_second": 6370.386
+    },
+    {
+      "epoch": 2.5787417588134582,
+      "grad_norm": 0.2366553246974945,
+      "learning_rate": 5e-06,
+      "loss": 0.9586,
+      "num_input_tokens_seen": 967784400,
+      "step": 2130,
+      "train_runtime": 151915.0318,
+      "train_tokens_per_second": 6370.564
+    },
+    {
+      "epoch": 2.5799525156310597,
+      "grad_norm": 0.24099212884902954,
+      "learning_rate": 5e-06,
+      "loss": 0.9046,
+      "num_input_tokens_seen": 968237464,
+      "step": 2131,
+      "train_runtime": 151982.077,
+      "train_tokens_per_second": 6370.735
+    },
+    {
+      "epoch": 2.581163272448661,
+      "grad_norm": 0.25684481859207153,
+      "learning_rate": 5e-06,
+      "loss": 0.9971,
+      "num_input_tokens_seen": 968699672,
+      "step": 2132,
+      "train_runtime": 152050.2017,
+      "train_tokens_per_second": 6370.92
+    },
+    {
+      "epoch": 2.5823740292662625,
+      "grad_norm": 0.23455548286437988,
+      "learning_rate": 5e-06,
+      "loss": 0.9301,
+      "num_input_tokens_seen": 969139440,
+      "step": 2133,
+      "train_runtime": 152115.1846,
+      "train_tokens_per_second": 6371.089
+    },
+    {
+      "epoch": 2.583584786083864,
+      "grad_norm": 0.2384224683046341,
+      "learning_rate": 5e-06,
+      "loss": 0.9473,
+      "num_input_tokens_seen": 969581296,
+      "step": 2134,
+      "train_runtime": 152180.5835,
+      "train_tokens_per_second": 6371.255
+    },
+    {
+      "epoch": 2.5847955429014653,
+      "grad_norm": 0.2409534454345703,
+      "learning_rate": 5e-06,
+      "loss": 0.88,
+      "num_input_tokens_seen": 970046112,
+      "step": 2135,
+      "train_runtime": 152248.9143,
+      "train_tokens_per_second": 6371.448
+    },
+    {
+      "epoch": 2.5860062997190667,
+      "grad_norm": 0.25234049558639526,
+      "learning_rate": 5e-06,
+      "loss": 0.952,
+      "num_input_tokens_seen": 970487920,
+      "step": 2136,
+      "train_runtime": 152314.0961,
+      "train_tokens_per_second": 6371.622
+    },
+    {
+      "epoch": 2.587217056536668,
+      "grad_norm": 0.22701537609100342,
+      "learning_rate": 5e-06,
+      "loss": 0.8846,
+      "num_input_tokens_seen": 970944456,
+      "step": 2137,
+      "train_runtime": 152381.1973,
+      "train_tokens_per_second": 6371.813
+    },
+    {
+      "epoch": 2.5884278133542695,
+      "grad_norm": 0.22347159683704376,
+      "learning_rate": 5e-06,
+      "loss": 0.896,
+      "num_input_tokens_seen": 971420496,
+      "step": 2138,
+      "train_runtime": 152452.0329,
+      "train_tokens_per_second": 6371.975
+    },
+    {
+      "epoch": 2.5896385701718705,
+      "grad_norm": 0.23158830404281616,
+      "learning_rate": 5e-06,
+      "loss": 0.9145,
+      "num_input_tokens_seen": 971864936,
+      "step": 2139,
+      "train_runtime": 152517.7639,
+      "train_tokens_per_second": 6372.143
+    },
+    {
+      "epoch": 2.5908493269894723,
+      "grad_norm": 0.24082769453525543,
+      "learning_rate": 5e-06,
+      "loss": 0.9517,
+      "num_input_tokens_seen": 972316368,
+      "step": 2140,
+      "train_runtime": 152584.4859,
+      "train_tokens_per_second": 6372.315
+    },
+    {
+      "epoch": 2.5920600838070733,
+      "grad_norm": 0.2324010580778122,
+      "learning_rate": 5e-06,
+      "loss": 0.9356,
+      "num_input_tokens_seen": 972751424,
+      "step": 2141,
+      "train_runtime": 152648.8383,
+      "train_tokens_per_second": 6372.478
+    },
+    {
+      "epoch": 2.5932708406246747,
+      "grad_norm": 0.24019919335842133,
+      "learning_rate": 5e-06,
+      "loss": 0.9627,
+      "num_input_tokens_seen": 973202808,
+      "step": 2142,
+      "train_runtime": 152715.4644,
+      "train_tokens_per_second": 6372.654
+    },
+    {
+      "epoch": 2.594481597442276,
+      "grad_norm": 0.23422782123088837,
+      "learning_rate": 5e-06,
+      "loss": 0.8628,
+      "num_input_tokens_seen": 973689168,
+      "step": 2143,
+      "train_runtime": 152787.9495,
+      "train_tokens_per_second": 6372.814
+    },
+    {
+      "epoch": 2.5956923542598775,
+      "grad_norm": 0.2257990539073944,
+      "learning_rate": 5e-06,
+      "loss": 0.8893,
+      "num_input_tokens_seen": 974141104,
+      "step": 2144,
+      "train_runtime": 152854.4834,
+      "train_tokens_per_second": 6372.997
+    },
+    {
+      "epoch": 2.596903111077479,
+      "grad_norm": 0.2405652552843094,
+      "learning_rate": 5e-06,
+      "loss": 0.9073,
+      "num_input_tokens_seen": 974607168,
+      "step": 2145,
+      "train_runtime": 152923.3103,
+      "train_tokens_per_second": 6373.176
+    },
+    {
+      "epoch": 2.5981138678950804,
+      "grad_norm": 0.25007355213165283,
+      "learning_rate": 5e-06,
+      "loss": 0.9286,
+      "num_input_tokens_seen": 975054616,
+      "step": 2146,
+      "train_runtime": 152989.2769,
+      "train_tokens_per_second": 6373.353
+    },
+    {
+      "epoch": 2.5993246247126818,
+      "grad_norm": 0.2606528103351593,
+      "learning_rate": 5e-06,
+      "loss": 0.9382,
+      "num_input_tokens_seen": 975497336,
+      "step": 2147,
+      "train_runtime": 153054.2115,
+      "train_tokens_per_second": 6373.541
+    },
+    {
+      "epoch": 2.600535381530283,
+      "grad_norm": 0.22446538507938385,
+      "learning_rate": 5e-06,
+      "loss": 0.8875,
+      "num_input_tokens_seen": 975941776,
+      "step": 2148,
+      "train_runtime": 153120.0609,
+      "train_tokens_per_second": 6373.703
+    },
+    {
+      "epoch": 2.6017461383478846,
+      "grad_norm": 0.2446034997701645,
+      "learning_rate": 5e-06,
+      "loss": 0.9442,
+      "num_input_tokens_seen": 976394880,
+      "step": 2149,
+      "train_runtime": 153188.6693,
+      "train_tokens_per_second": 6373.806
+    },
+    {
+      "epoch": 2.602956895165486,
+      "grad_norm": 0.22049270570278168,
+      "learning_rate": 5e-06,
+      "loss": 0.8881,
+      "num_input_tokens_seen": 976866832,
+      "step": 2150,
+      "train_runtime": 153258.796,
+      "train_tokens_per_second": 6373.969
+    },
+    {
+      "epoch": 2.6041676519830874,
+      "grad_norm": 0.22306476533412933,
+      "learning_rate": 5e-06,
+      "loss": 0.8982,
+      "num_input_tokens_seen": 977324560,
+      "step": 2151,
+      "train_runtime": 153326.3775,
+      "train_tokens_per_second": 6374.145
+    },
+    {
+      "epoch": 2.6053784088006884,
+      "grad_norm": 0.25735023617744446,
+      "learning_rate": 5e-06,
+      "loss": 0.9181,
+      "num_input_tokens_seen": 977761376,
+      "step": 2152,
+      "train_runtime": 153390.9315,
+      "train_tokens_per_second": 6374.31
+    },
+    {
+      "epoch": 2.6065891656182902,
+      "grad_norm": 0.23419278860092163,
+      "learning_rate": 5e-06,
+      "loss": 0.9264,
+      "num_input_tokens_seen": 978205792,
+      "step": 2153,
+      "train_runtime": 153457.0095,
+      "train_tokens_per_second": 6374.461
+    },
+    {
+      "epoch": 2.607799922435891,
+      "grad_norm": 0.23010873794555664,
+      "learning_rate": 5e-06,
+      "loss": 0.9316,
+      "num_input_tokens_seen": 978649992,
+      "step": 2154,
+      "train_runtime": 153522.7683,
+      "train_tokens_per_second": 6374.624
+    },
+    {
+      "epoch": 2.6090106792534926,
+      "grad_norm": 0.2428400218486786,
+      "learning_rate": 5e-06,
+      "loss": 0.9585,
+      "num_input_tokens_seen": 979073824,
+      "step": 2155,
+      "train_runtime": 153585.4951,
+      "train_tokens_per_second": 6374.781
+    },
+    {
+      "epoch": 2.610221436071094,
+      "grad_norm": 0.24073754251003265,
+      "learning_rate": 5e-06,
+      "loss": 0.9351,
+      "num_input_tokens_seen": 979532472,
+      "step": 2156,
+      "train_runtime": 153653.4719,
+      "train_tokens_per_second": 6374.945
+    },
+    {
+      "epoch": 2.6114321928886954,
+      "grad_norm": 0.24380506575107574,
+      "learning_rate": 5e-06,
+      "loss": 0.8991,
+      "num_input_tokens_seen": 979999864,
+      "step": 2157,
+      "train_runtime": 153722.7985,
+      "train_tokens_per_second": 6375.111
+    },
+    {
+      "epoch": 2.612642949706297,
+      "grad_norm": 0.23714521527290344,
+      "learning_rate": 5e-06,
+      "loss": 0.9145,
+      "num_input_tokens_seen": 980473120,
+      "step": 2158,
+      "train_runtime": 153793.1517,
+      "train_tokens_per_second": 6375.272
+    },
+    {
+      "epoch": 2.6138537065238983,
+      "grad_norm": 0.2587903141975403,
+      "learning_rate": 5e-06,
+      "loss": 0.919,
+      "num_input_tokens_seen": 980913512,
+      "step": 2159,
+      "train_runtime": 153858.4779,
+      "train_tokens_per_second": 6375.427
+    },
+    {
+      "epoch": 2.6150644633414997,
+      "grad_norm": 0.2620103359222412,
+      "learning_rate": 5e-06,
+      "loss": 0.9178,
+      "num_input_tokens_seen": 981375896,
+      "step": 2160,
+      "train_runtime": 153927.0515,
+      "train_tokens_per_second": 6375.591
+    },
+    {
+      "epoch": 2.616275220159101,
+      "grad_norm": 0.24088148772716522,
+      "learning_rate": 5e-06,
+      "loss": 0.9379,
+      "num_input_tokens_seen": 981832360,
+      "step": 2161,
+      "train_runtime": 153994.5461,
+      "train_tokens_per_second": 6375.761
+    },
+    {
+      "epoch": 2.6174859769767025,
+      "grad_norm": 0.22991852462291718,
+      "learning_rate": 5e-06,
+      "loss": 0.9617,
+      "num_input_tokens_seen": 982288048,
+      "step": 2162,
+      "train_runtime": 154062.1977,
+      "train_tokens_per_second": 6375.919
+    },
+    {
+      "epoch": 2.618696733794304,
+      "grad_norm": 0.24822624027729034,
+      "learning_rate": 5e-06,
+      "loss": 0.9686,
+      "num_input_tokens_seen": 982743976,
+      "step": 2163,
+      "train_runtime": 154129.7489,
+      "train_tokens_per_second": 6376.082
+    },
+    {
+      "epoch": 2.6199074906119053,
+      "grad_norm": 0.25701308250427246,
+      "learning_rate": 5e-06,
+      "loss": 0.9104,
+      "num_input_tokens_seen": 983187152,
+      "step": 2164,
+      "train_runtime": 154195.5626,
+      "train_tokens_per_second": 6376.235
+    },
+    {
+      "epoch": 2.6211182474295063,
+      "grad_norm": 0.2755506932735443,
+      "learning_rate": 5e-06,
+      "loss": 0.9725,
+      "num_input_tokens_seen": 983623800,
+      "step": 2165,
+      "train_runtime": 154260.2571,
+      "train_tokens_per_second": 6376.392
+    },
+    {
+      "epoch": 2.622329004247108,
+      "grad_norm": 0.25525012612342834,
+      "learning_rate": 5e-06,
+      "loss": 0.9259,
+      "num_input_tokens_seen": 984073384,
+      "step": 2166,
+      "train_runtime": 154327.0854,
+      "train_tokens_per_second": 6376.544
+    },
+    {
+      "epoch": 2.623539761064709,
+      "grad_norm": 0.26483437418937683,
+      "learning_rate": 5e-06,
+      "loss": 0.9128,
+      "num_input_tokens_seen": 984513016,
+      "step": 2167,
+      "train_runtime": 154392.1294,
+      "train_tokens_per_second": 6376.705
+    },
+    {
+      "epoch": 2.6247505178823105,
+      "grad_norm": 0.23384696245193481,
+      "learning_rate": 5e-06,
+      "loss": 0.957,
+      "num_input_tokens_seen": 984968520,
+      "step": 2168,
+      "train_runtime": 154459.688,
+      "train_tokens_per_second": 6376.865
+    },
+    {
+      "epoch": 2.625961274699912,
+      "grad_norm": 0.233501136302948,
+      "learning_rate": 5e-06,
+      "loss": 0.8981,
+      "num_input_tokens_seen": 985445104,
+      "step": 2169,
+      "train_runtime": 154529.8475,
+      "train_tokens_per_second": 6377.053
+    },
+    {
+      "epoch": 2.6271720315175133,
+      "grad_norm": 0.2487708330154419,
+      "learning_rate": 5e-06,
+      "loss": 0.8331,
+      "num_input_tokens_seen": 985877536,
+      "step": 2170,
+      "train_runtime": 154593.5382,
+      "train_tokens_per_second": 6377.223
+    },
+    {
+      "epoch": 2.6283827883351147,
+      "grad_norm": 0.23218314349651337,
+      "learning_rate": 5e-06,
+      "loss": 0.95,
+      "num_input_tokens_seen": 986316704,
+      "step": 2171,
+      "train_runtime": 154657.7931,
+      "train_tokens_per_second": 6377.414
+    },
+    {
+      "epoch": 2.629593545152716,
+      "grad_norm": 0.2570416033267975,
+      "learning_rate": 5e-06,
+      "loss": 0.8875,
+      "num_input_tokens_seen": 986752352,
+      "step": 2172,
+      "train_runtime": 154721.7442,
+      "train_tokens_per_second": 6377.593
+    },
+    {
+      "epoch": 2.6308043019703176,
+      "grad_norm": 0.2248729020357132,
+      "learning_rate": 5e-06,
+      "loss": 0.8952,
+      "num_input_tokens_seen": 987227168,
+      "step": 2173,
+      "train_runtime": 154792.0587,
+      "train_tokens_per_second": 6377.764
+    },
+    {
+      "epoch": 2.632015058787919,
+      "grad_norm": 0.23463650047779083,
+      "learning_rate": 5e-06,
+      "loss": 0.9381,
+      "num_input_tokens_seen": 987681176,
+      "step": 2174,
+      "train_runtime": 154858.7972,
+      "train_tokens_per_second": 6377.947
+    },
+    {
+      "epoch": 2.6332258156055204,
+      "grad_norm": 0.24335210025310516,
+      "learning_rate": 5e-06,
+      "loss": 0.9145,
+      "num_input_tokens_seen": 988153656,
+      "step": 2175,
+      "train_runtime": 154928.7355,
+      "train_tokens_per_second": 6378.117
+    },
+    {
+      "epoch": 2.634436572423122,
+      "grad_norm": 0.24974526464939117,
+      "learning_rate": 5e-06,
+      "loss": 0.9623,
+      "num_input_tokens_seen": 988604512,
+      "step": 2176,
+      "train_runtime": 154995.4793,
+      "train_tokens_per_second": 6378.28
+    },
+    {
+      "epoch": 2.635647329240723,
+      "grad_norm": 0.23491837084293365,
+      "learning_rate": 5e-06,
+      "loss": 0.925,
+      "num_input_tokens_seen": 989041648,
+      "step": 2177,
+      "train_runtime": 155060.32,
+      "train_tokens_per_second": 6378.432
+    },
+    {
+      "epoch": 2.636858086058324,
+      "grad_norm": 0.2458321899175644,
+      "learning_rate": 5e-06,
+      "loss": 0.9523,
+      "num_input_tokens_seen": 989484256,
+      "step": 2178,
+      "train_runtime": 155126.0643,
+      "train_tokens_per_second": 6378.582
+    },
+    {
+      "epoch": 2.638068842875926,
+      "grad_norm": 0.28002414107322693,
+      "learning_rate": 5e-06,
+      "loss": 0.9521,
+      "num_input_tokens_seen": 989918248,
+      "step": 2179,
+      "train_runtime": 155190.3341,
+      "train_tokens_per_second": 6378.736
+    },
+    {
+      "epoch": 2.639279599693527,
+      "grad_norm": 0.2300572544336319,
+      "learning_rate": 5e-06,
+      "loss": 0.9063,
+      "num_input_tokens_seen": 990388592,
+      "step": 2180,
+      "train_runtime": 155259.9905,
+      "train_tokens_per_second": 6378.904
+    },
+    {
+      "epoch": 2.6404903565111284,
+      "grad_norm": 0.23866574466228485,
+      "learning_rate": 5e-06,
+      "loss": 0.9428,
+      "num_input_tokens_seen": 990856224,
+      "step": 2181,
+      "train_runtime": 155329.3298,
+      "train_tokens_per_second": 6379.067
+    },
+    {
+      "epoch": 2.64170111332873,
+      "grad_norm": 0.2776472270488739,
+      "learning_rate": 5e-06,
+      "loss": 0.8795,
+      "num_input_tokens_seen": 991300536,
+      "step": 2182,
+      "train_runtime": 155395.1153,
+      "train_tokens_per_second": 6379.226
+    },
+    {
+      "epoch": 2.642911870146331,
+      "grad_norm": 0.24262697994709015,
+      "learning_rate": 5e-06,
+      "loss": 0.8967,
+      "num_input_tokens_seen": 991741200,
+      "step": 2183,
+      "train_runtime": 155459.8715,
+      "train_tokens_per_second": 6379.403
+    },
+    {
+      "epoch": 2.6441226269639326,
+      "grad_norm": 0.25825032591819763,
+      "learning_rate": 5e-06,
+      "loss": 0.9596,
+      "num_input_tokens_seen": 992195600,
+      "step": 2184,
+      "train_runtime": 155526.9125,
+      "train_tokens_per_second": 6379.575
+    },
+    {
+      "epoch": 2.645333383781534,
+      "grad_norm": 0.25043049454689026,
+      "learning_rate": 5e-06,
+      "loss": 0.9482,
+      "num_input_tokens_seen": 992628344,
+      "step": 2185,
+      "train_runtime": 155590.6849,
+      "train_tokens_per_second": 6379.741
+    },
+    {
+      "epoch": 2.6465441405991355,
+      "grad_norm": 0.24327807128429413,
+      "learning_rate": 5e-06,
+      "loss": 0.9272,
+      "num_input_tokens_seen": 993091536,
+      "step": 2186,
+      "train_runtime": 155659.1615,
+      "train_tokens_per_second": 6379.911
+    },
+    {
+      "epoch": 2.647754897416737,
+      "grad_norm": 0.26455357670783997,
+      "learning_rate": 5e-06,
+      "loss": 0.9241,
+      "num_input_tokens_seen": 993539712,
+      "step": 2187,
+      "train_runtime": 155725.1034,
+      "train_tokens_per_second": 6380.087
+    },
+    {
+      "epoch": 2.6489656542343383,
+      "grad_norm": 0.24340102076530457,
+      "learning_rate": 5e-06,
+      "loss": 0.9586,
+      "num_input_tokens_seen": 993981440,
+      "step": 2188,
+      "train_runtime": 155790.4247,
+      "train_tokens_per_second": 6380.247
+    },
+    {
+      "epoch": 2.6501764110519397,
+      "grad_norm": 0.24760021269321442,
+      "learning_rate": 5e-06,
+      "loss": 0.9187,
+      "num_input_tokens_seen": 994453512,
+      "step": 2189,
+      "train_runtime": 155860.8542,
+      "train_tokens_per_second": 6380.393
+    },
+    {
+      "epoch": 2.651387167869541,
+      "grad_norm": 0.25143691897392273,
+      "learning_rate": 5e-06,
+      "loss": 0.9341,
+      "num_input_tokens_seen": 994882632,
+      "step": 2190,
+      "train_runtime": 155923.9754,
+      "train_tokens_per_second": 6380.562
+    },
+    {
+      "epoch": 2.652597924687142,
+      "grad_norm": 0.2322501242160797,
+      "learning_rate": 5e-06,
+      "loss": 0.8817,
+      "num_input_tokens_seen": 995341712,
+      "step": 2191,
+      "train_runtime": 155992.0321,
+      "train_tokens_per_second": 6380.721
+    },
+    {
+      "epoch": 2.653808681504744,
+      "grad_norm": 0.23527227342128754,
+      "learning_rate": 5e-06,
+      "loss": 0.9028,
+      "num_input_tokens_seen": 995823768,
+      "step": 2192,
+      "train_runtime": 156063.4226,
+      "train_tokens_per_second": 6380.892
+    },
+    {
+      "epoch": 2.655019438322345,
+      "grad_norm": 0.2262798249721527,
+      "learning_rate": 5e-06,
+      "loss": 0.9217,
+      "num_input_tokens_seen": 996285904,
+      "step": 2193,
+      "train_runtime": 156131.4608,
+      "train_tokens_per_second": 6381.071
+    },
+    {
+      "epoch": 2.6562301951399467,
+      "grad_norm": 0.24012240767478943,
+      "learning_rate": 5e-06,
+      "loss": 0.9692,
+      "num_input_tokens_seen": 996740120,
+      "step": 2194,
+      "train_runtime": 156198.4805,
+      "train_tokens_per_second": 6381.241
+    },
+    {
+      "epoch": 2.6574409519575477,
+      "grad_norm": 0.2367800921201706,
+      "learning_rate": 5e-06,
+      "loss": 0.8777,
+      "num_input_tokens_seen": 997206712,
+      "step": 2195,
+      "train_runtime": 156267.5628,
+      "train_tokens_per_second": 6381.406
+    },
+    {
+      "epoch": 2.658651708775149,
+      "grad_norm": 0.22343586385250092,
+      "learning_rate": 5e-06,
+      "loss": 0.8786,
+      "num_input_tokens_seen": 997680768,
+      "step": 2196,
+      "train_runtime": 156337.5139,
+      "train_tokens_per_second": 6381.583
+    },
+    {
+      "epoch": 2.6598624655927505,
+      "grad_norm": 0.2318398803472519,
+      "learning_rate": 5e-06,
+      "loss": 0.9135,
+      "num_input_tokens_seen": 998140896,
+      "step": 2197,
+      "train_runtime": 156405.329,
+      "train_tokens_per_second": 6381.758
+    },
+    {
+      "epoch": 2.661073222410352,
+      "grad_norm": 0.23731204867362976,
+      "learning_rate": 5e-06,
+      "loss": 0.9568,
+      "num_input_tokens_seen": 998581544,
+      "step": 2198,
+      "train_runtime": 156470.6646,
+      "train_tokens_per_second": 6381.909
+    },
+    {
+      "epoch": 2.6622839792279533,
+      "grad_norm": 0.2556219696998596,
+      "learning_rate": 5e-06,
+      "loss": 0.9705,
+      "num_input_tokens_seen": 999021544,
+      "step": 2199,
+      "train_runtime": 156535.5906,
+      "train_tokens_per_second": 6382.073
+    },
+    {
+      "epoch": 2.6634947360455548,
+      "grad_norm": 0.25406965613365173,
+      "learning_rate": 5e-06,
+      "loss": 0.9043,
+      "num_input_tokens_seen": 999456000,
+      "step": 2200,
+      "train_runtime": 156600.1967,
+      "train_tokens_per_second": 6382.214
+    },
+    {
+      "epoch": 2.664705492863156,
+      "grad_norm": 0.2429000586271286,
+      "learning_rate": 5e-06,
+      "loss": 1.0054,
+      "num_input_tokens_seen": 999917048,
+      "step": 2201,
+      "train_runtime": 156667.8114,
+      "train_tokens_per_second": 6382.403
+    },
+    {
+      "epoch": 2.6659162496807576,
+      "grad_norm": 0.24307996034622192,
+      "learning_rate": 5e-06,
+      "loss": 0.9031,
+      "num_input_tokens_seen": 1000345496,
+      "step": 2202,
+      "train_runtime": 156731.558,
+      "train_tokens_per_second": 6382.54
+    },
+    {
+      "epoch": 2.667127006498359,
+      "grad_norm": 0.2613001763820648,
+      "learning_rate": 5e-06,
+      "loss": 0.9146,
+      "num_input_tokens_seen": 1000775024,
+      "step": 2203,
+      "train_runtime": 156796.6198,
+      "train_tokens_per_second": 6382.631
+    },
+    {
+      "epoch": 2.6683377633159604,
+      "grad_norm": 0.2521812617778778,
+      "learning_rate": 5e-06,
+      "loss": 0.9449,
+      "num_input_tokens_seen": 1001214208,
+      "step": 2204,
+      "train_runtime": 156861.3258,
+      "train_tokens_per_second": 6382.798
+    },
+    {
+      "epoch": 2.669548520133562,
+      "grad_norm": 0.22570690512657166,
+      "learning_rate": 5e-06,
+      "loss": 0.8841,
+      "num_input_tokens_seen": 1001691928,
+      "step": 2205,
+      "train_runtime": 156931.9112,
+      "train_tokens_per_second": 6382.972
+    },
+    {
+      "epoch": 2.6707592769511628,
+      "grad_norm": 0.2318730354309082,
+      "learning_rate": 5e-06,
+      "loss": 0.89,
+      "num_input_tokens_seen": 1002167032,
+      "step": 2206,
+      "train_runtime": 157002.068,
+      "train_tokens_per_second": 6383.145
+    },
+    {
+      "epoch": 2.6719700337687646,
+      "grad_norm": 0.26219817996025085,
+      "learning_rate": 5e-06,
+      "loss": 0.8752,
+      "num_input_tokens_seen": 1002621280,
+      "step": 2207,
+      "train_runtime": 157069.3885,
+      "train_tokens_per_second": 6383.302
+    },
+    {
+      "epoch": 2.6731807905863656,
+      "grad_norm": 0.23726919293403625,
+      "learning_rate": 5e-06,
+      "loss": 0.8883,
+      "num_input_tokens_seen": 1003092128,
+      "step": 2208,
+      "train_runtime": 157139.0605,
+      "train_tokens_per_second": 6383.468
+    },
+    {
+      "epoch": 2.674391547403967,
+      "grad_norm": 0.24438372254371643,
+      "learning_rate": 5e-06,
+      "loss": 0.9029,
+      "num_input_tokens_seen": 1003551736,
+      "step": 2209,
+      "train_runtime": 157207.0617,
+      "train_tokens_per_second": 6383.63
+    },
+    {
+      "epoch": 2.6756023042215684,
+      "grad_norm": 0.2408195585012436,
+      "learning_rate": 5e-06,
+      "loss": 0.9428,
+      "num_input_tokens_seen": 1003992272,
+      "step": 2210,
+      "train_runtime": 157272.0435,
+      "train_tokens_per_second": 6383.794
+    },
+    {
+      "epoch": 2.67681306103917,
+      "grad_norm": 0.23207896947860718,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 1004464200,
+      "step": 2211,
+      "train_runtime": 157341.891,
+      "train_tokens_per_second": 6383.959
+    },
+    {
+      "epoch": 2.6780238178567712,
+      "grad_norm": 0.26204124093055725,
+      "learning_rate": 5e-06,
+      "loss": 0.911,
+      "num_input_tokens_seen": 1004918912,
+      "step": 2212,
+      "train_runtime": 157409.1733,
+      "train_tokens_per_second": 6384.119
+    },
+    {
+      "epoch": 2.6792345746743726,
+      "grad_norm": 0.24040430784225464,
+      "learning_rate": 5e-06,
+      "loss": 0.8979,
+      "num_input_tokens_seen": 1005365120,
+      "step": 2213,
+      "train_runtime": 157475.3659,
+      "train_tokens_per_second": 6384.269
+    },
+    {
+      "epoch": 2.680445331491974,
+      "grad_norm": 0.2542877495288849,
+      "learning_rate": 5e-06,
+      "loss": 0.9251,
+      "num_input_tokens_seen": 1005804512,
+      "step": 2214,
+      "train_runtime": 157540.2892,
+      "train_tokens_per_second": 6384.427
+    },
+    {
+      "epoch": 2.6816560883095755,
+      "grad_norm": 0.2377696931362152,
+      "learning_rate": 5e-06,
+      "loss": 0.8792,
+      "num_input_tokens_seen": 1006260000,
+      "step": 2215,
+      "train_runtime": 157607.9347,
+      "train_tokens_per_second": 6384.577
+    },
+    {
+      "epoch": 2.682866845127177,
+      "grad_norm": 0.23569363355636597,
+      "learning_rate": 5e-06,
+      "loss": 0.9299,
+      "num_input_tokens_seen": 1006738640,
+      "step": 2216,
+      "train_runtime": 157678.5377,
+      "train_tokens_per_second": 6384.754
+    },
+    {
+      "epoch": 2.6840776019447783,
+      "grad_norm": 0.2451499104499817,
+      "learning_rate": 5e-06,
+      "loss": 0.9518,
+      "num_input_tokens_seen": 1007184656,
+      "step": 2217,
+      "train_runtime": 157744.1772,
+      "train_tokens_per_second": 6384.924
+    },
+    {
+      "epoch": 2.6852883587623797,
+      "grad_norm": 0.2470230609178543,
+      "learning_rate": 5e-06,
+      "loss": 0.927,
+      "num_input_tokens_seen": 1007627432,
+      "step": 2218,
+      "train_runtime": 157809.6053,
+      "train_tokens_per_second": 6385.083
+    },
+    {
+      "epoch": 2.6864991155799807,
+      "grad_norm": 0.24628578126430511,
+      "learning_rate": 5e-06,
+      "loss": 0.9285,
+      "num_input_tokens_seen": 1008077632,
+      "step": 2219,
+      "train_runtime": 157876.7498,
+      "train_tokens_per_second": 6385.219
+    },
+    {
+      "epoch": 2.6877098723975825,
+      "grad_norm": 0.2287086695432663,
+      "learning_rate": 5e-06,
+      "loss": 0.9016,
+      "num_input_tokens_seen": 1008546760,
+      "step": 2220,
+      "train_runtime": 157946.0167,
+      "train_tokens_per_second": 6385.389
+    },
+    {
+      "epoch": 2.6889206292151835,
+      "grad_norm": 0.25545141100883484,
+      "learning_rate": 5e-06,
+      "loss": 0.9121,
+      "num_input_tokens_seen": 1009016192,
+      "step": 2221,
+      "train_runtime": 158015.3011,
+      "train_tokens_per_second": 6385.56
+    },
+    {
+      "epoch": 2.690131386032785,
+      "grad_norm": 0.22718414664268494,
+      "learning_rate": 5e-06,
+      "loss": 0.9043,
+      "num_input_tokens_seen": 1009470936,
+      "step": 2222,
+      "train_runtime": 158082.415,
+      "train_tokens_per_second": 6385.726
+    },
+    {
+      "epoch": 2.6913421428503863,
+      "grad_norm": 0.2230096310377121,
+      "learning_rate": 5e-06,
+      "loss": 0.9253,
+      "num_input_tokens_seen": 1009952464,
+      "step": 2223,
+      "train_runtime": 158154.0362,
+      "train_tokens_per_second": 6385.879
+    },
+    {
+      "epoch": 2.6925528996679877,
+      "grad_norm": 0.23132304847240448,
+      "learning_rate": 5e-06,
+      "loss": 0.9229,
+      "num_input_tokens_seen": 1010405368,
+      "step": 2224,
+      "train_runtime": 158220.9026,
+      "train_tokens_per_second": 6386.042
+    },
+    {
+      "epoch": 2.693763656485589,
+      "grad_norm": 0.22348402440547943,
+      "learning_rate": 5e-06,
+      "loss": 0.8622,
+      "num_input_tokens_seen": 1010875144,
+      "step": 2225,
+      "train_runtime": 158290.9411,
+      "train_tokens_per_second": 6386.184
+    },
+    {
+      "epoch": 2.6949744133031905,
+      "grad_norm": 0.25180912017822266,
+      "learning_rate": 5e-06,
+      "loss": 0.934,
+      "num_input_tokens_seen": 1011328552,
+      "step": 2226,
+      "train_runtime": 158358.6024,
+      "train_tokens_per_second": 6386.319
+    },
+    {
+      "epoch": 2.696185170120792,
+      "grad_norm": 0.23059271275997162,
+      "learning_rate": 5e-06,
+      "loss": 0.9463,
+      "num_input_tokens_seen": 1011765960,
+      "step": 2227,
+      "train_runtime": 158423.3929,
+      "train_tokens_per_second": 6386.468
+    },
+    {
+      "epoch": 2.6973959269383934,
+      "grad_norm": 0.23937790095806122,
+      "learning_rate": 5e-06,
+      "loss": 0.9551,
+      "num_input_tokens_seen": 1012221776,
+      "step": 2228,
+      "train_runtime": 158490.551,
+      "train_tokens_per_second": 6386.638
+    },
+    {
+      "epoch": 2.6986066837559948,
+      "grad_norm": 0.23659993708133698,
+      "learning_rate": 5e-06,
+      "loss": 0.8974,
+      "num_input_tokens_seen": 1012684104,
+      "step": 2229,
+      "train_runtime": 158559.0434,
+      "train_tokens_per_second": 6386.795
+    },
+    {
+      "epoch": 2.699817440573596,
+      "grad_norm": 0.2516309320926666,
+      "learning_rate": 5e-06,
+      "loss": 0.965,
+      "num_input_tokens_seen": 1013148096,
+      "step": 2230,
+      "train_runtime": 158627.7065,
+      "train_tokens_per_second": 6386.955
+    },
+    {
+      "epoch": 2.7010281973911976,
+      "grad_norm": 0.25234147906303406,
+      "learning_rate": 5e-06,
+      "loss": 0.8918,
+      "num_input_tokens_seen": 1013602984,
+      "step": 2231,
+      "train_runtime": 158694.9766,
+      "train_tokens_per_second": 6387.114
+    },
+    {
+      "epoch": 2.7022389542087986,
+      "grad_norm": 0.2293567955493927,
+      "learning_rate": 5e-06,
+      "loss": 0.9286,
+      "num_input_tokens_seen": 1014069312,
+      "step": 2232,
+      "train_runtime": 158764.1805,
+      "train_tokens_per_second": 6387.268
+    },
+    {
+      "epoch": 2.7034497110264004,
+      "grad_norm": 0.2538798153400421,
+      "learning_rate": 5e-06,
+      "loss": 0.9303,
+      "num_input_tokens_seen": 1014506672,
+      "step": 2233,
+      "train_runtime": 158828.7542,
+      "train_tokens_per_second": 6387.424
+    },
+    {
+      "epoch": 2.7046604678440014,
+      "grad_norm": 0.25850167870521545,
+      "learning_rate": 5e-06,
+      "loss": 0.9683,
+      "num_input_tokens_seen": 1014949832,
+      "step": 2234,
+      "train_runtime": 158894.4091,
+      "train_tokens_per_second": 6387.574
+    },
+    {
+      "epoch": 2.705871224661603,
+      "grad_norm": 0.23657569289207458,
+      "learning_rate": 5e-06,
+      "loss": 0.9358,
+      "num_input_tokens_seen": 1015406592,
+      "step": 2235,
+      "train_runtime": 158962.0909,
+      "train_tokens_per_second": 6387.728
+    },
+    {
+      "epoch": 2.707081981479204,
+      "grad_norm": 0.2708401381969452,
+      "learning_rate": 5e-06,
+      "loss": 0.8852,
+      "num_input_tokens_seen": 1015841432,
+      "step": 2236,
+      "train_runtime": 159026.4419,
+      "train_tokens_per_second": 6387.878
+    },
+    {
+      "epoch": 2.7082927382968056,
+      "grad_norm": 0.24284714460372925,
+      "learning_rate": 5e-06,
+      "loss": 0.9317,
+      "num_input_tokens_seen": 1016289424,
+      "step": 2237,
+      "train_runtime": 159092.4722,
+      "train_tokens_per_second": 6388.042
+    },
+    {
+      "epoch": 2.709503495114407,
+      "grad_norm": 0.25480154156684875,
+      "learning_rate": 5e-06,
+      "loss": 0.9192,
+      "num_input_tokens_seen": 1016757504,
+      "step": 2238,
+      "train_runtime": 159161.1907,
+      "train_tokens_per_second": 6388.225
+    },
+    {
+      "epoch": 2.7107142519320084,
+      "grad_norm": 0.24498331546783447,
+      "learning_rate": 5e-06,
+      "loss": 0.8707,
+      "num_input_tokens_seen": 1017194928,
+      "step": 2239,
+      "train_runtime": 159226.0946,
+      "train_tokens_per_second": 6388.368
+    },
+    {
+      "epoch": 2.71192500874961,
+      "grad_norm": 0.26153630018234253,
+      "learning_rate": 5e-06,
+      "loss": 0.9109,
+      "num_input_tokens_seen": 1017660048,
+      "step": 2240,
+      "train_runtime": 159295.3482,
+      "train_tokens_per_second": 6388.511
+    },
+    {
+      "epoch": 2.7131357655672113,
+      "grad_norm": 0.28027719259262085,
+      "learning_rate": 5e-06,
+      "loss": 0.9673,
+      "num_input_tokens_seen": 1018086808,
+      "step": 2241,
+      "train_runtime": 159358.1538,
+      "train_tokens_per_second": 6388.671
+    },
+    {
+      "epoch": 2.7143465223848127,
+      "grad_norm": 0.3030099868774414,
+      "learning_rate": 5e-06,
+      "loss": 0.9419,
+      "num_input_tokens_seen": 1018528160,
+      "step": 2242,
+      "train_runtime": 159423.698,
+      "train_tokens_per_second": 6388.813
+    },
+    {
+      "epoch": 2.715557279202414,
+      "grad_norm": 0.2761872112751007,
+      "learning_rate": 5e-06,
+      "loss": 0.9203,
+      "num_input_tokens_seen": 1018979560,
+      "step": 2243,
+      "train_runtime": 159490.4403,
+      "train_tokens_per_second": 6388.97
+    },
+    {
+      "epoch": 2.7167680360200155,
+      "grad_norm": 0.2496478110551834,
+      "learning_rate": 5e-06,
+      "loss": 0.9394,
+      "num_input_tokens_seen": 1019421000,
+      "step": 2244,
+      "train_runtime": 159555.4925,
+      "train_tokens_per_second": 6389.131
+    },
+    {
+      "epoch": 2.7179787928376165,
+      "grad_norm": 0.33068129420280457,
+      "learning_rate": 5e-06,
+      "loss": 0.917,
+      "num_input_tokens_seen": 1019848624,
+      "step": 2245,
+      "train_runtime": 159619.1337,
+      "train_tokens_per_second": 6389.263
+    },
+    {
+      "epoch": 2.7191895496552183,
+      "grad_norm": 0.26431363821029663,
+      "learning_rate": 5e-06,
+      "loss": 0.957,
+      "num_input_tokens_seen": 1020290632,
+      "step": 2246,
+      "train_runtime": 159684.4414,
+      "train_tokens_per_second": 6389.418
+    },
+    {
+      "epoch": 2.7204003064728193,
+      "grad_norm": 0.25907760858535767,
+      "learning_rate": 5e-06,
+      "loss": 0.9241,
+      "num_input_tokens_seen": 1020772456,
+      "step": 2247,
+      "train_runtime": 159755.9211,
+      "train_tokens_per_second": 6389.575
+    },
+    {
+      "epoch": 2.7216110632904207,
+      "grad_norm": 0.26979854702949524,
+      "learning_rate": 5e-06,
+      "loss": 0.9457,
+      "num_input_tokens_seen": 1021232408,
+      "step": 2248,
+      "train_runtime": 159823.991,
+      "train_tokens_per_second": 6389.732
+    },
+    {
+      "epoch": 2.722821820108022,
+      "grad_norm": 0.27133068442344666,
+      "learning_rate": 5e-06,
+      "loss": 0.9257,
+      "num_input_tokens_seen": 1021703000,
+      "step": 2249,
+      "train_runtime": 159893.8238,
+      "train_tokens_per_second": 6389.884
+    },
+    {
+      "epoch": 2.7240325769256235,
+      "grad_norm": 0.2623973786830902,
+      "learning_rate": 5e-06,
+      "loss": 0.9326,
+      "num_input_tokens_seen": 1022143904,
+      "step": 2250,
+      "train_runtime": 159958.597,
+      "train_tokens_per_second": 6390.053
+    },
+    {
+      "epoch": 2.725243333743225,
+      "grad_norm": 0.2727581262588501,
+      "learning_rate": 5e-06,
+      "loss": 0.8614,
+      "num_input_tokens_seen": 1022607144,
+      "step": 2251,
+      "train_runtime": 160027.1697,
+      "train_tokens_per_second": 6390.21
+    },
+    {
+      "epoch": 2.7264540905608263,
+      "grad_norm": 0.2389581948518753,
+      "learning_rate": 5e-06,
+      "loss": 0.9231,
+      "num_input_tokens_seen": 1023053400,
+      "step": 2252,
+      "train_runtime": 160093.3628,
+      "train_tokens_per_second": 6390.355
+    },
+    {
+      "epoch": 2.7276648473784277,
+      "grad_norm": 0.2514803409576416,
+      "learning_rate": 5e-06,
+      "loss": 0.9391,
+      "num_input_tokens_seen": 1023527608,
+      "step": 2253,
+      "train_runtime": 160163.4694,
+      "train_tokens_per_second": 6390.518
+    },
+    {
+      "epoch": 2.728875604196029,
+      "grad_norm": 0.24334073066711426,
+      "learning_rate": 5e-06,
+      "loss": 0.9595,
+      "num_input_tokens_seen": 1023989968,
+      "step": 2254,
+      "train_runtime": 160231.8243,
+      "train_tokens_per_second": 6390.678
+    },
+    {
+      "epoch": 2.7300863610136306,
+      "grad_norm": 0.2730535864830017,
+      "learning_rate": 5e-06,
+      "loss": 0.9543,
+      "num_input_tokens_seen": 1024436392,
+      "step": 2255,
+      "train_runtime": 160298.2361,
+      "train_tokens_per_second": 6390.815
+    },
+    {
+      "epoch": 2.731297117831232,
+      "grad_norm": 0.257646769285202,
+      "learning_rate": 5e-06,
+      "loss": 0.9654,
+      "num_input_tokens_seen": 1024877272,
+      "step": 2256,
+      "train_runtime": 160364.5888,
+      "train_tokens_per_second": 6390.92
+    },
+    {
+      "epoch": 2.7325078746488334,
+      "grad_norm": 0.2575959265232086,
+      "learning_rate": 5e-06,
+      "loss": 0.9102,
+      "num_input_tokens_seen": 1025345304,
+      "step": 2257,
+      "train_runtime": 160434.8659,
+      "train_tokens_per_second": 6391.038
+    },
+    {
+      "epoch": 2.7337186314664343,
+      "grad_norm": 0.24817879498004913,
+      "learning_rate": 5e-06,
+      "loss": 0.9336,
+      "num_input_tokens_seen": 1025789800,
+      "step": 2258,
+      "train_runtime": 160500.5173,
+      "train_tokens_per_second": 6391.193
+    },
+    {
+      "epoch": 2.734929388284036,
+      "grad_norm": 0.23942458629608154,
+      "learning_rate": 5e-06,
+      "loss": 0.9363,
+      "num_input_tokens_seen": 1026251136,
+      "step": 2259,
+      "train_runtime": 160569.0846,
+      "train_tokens_per_second": 6391.337
+    },
+    {
+      "epoch": 2.736140145101637,
+      "grad_norm": 0.24998879432678223,
+      "learning_rate": 5e-06,
+      "loss": 0.9369,
+      "num_input_tokens_seen": 1026706720,
+      "step": 2260,
+      "train_runtime": 160636.2779,
+      "train_tokens_per_second": 6391.5
+    },
+    {
+      "epoch": 2.7373509019192386,
+      "grad_norm": 0.2262594848871231,
+      "learning_rate": 5e-06,
+      "loss": 0.8807,
+      "num_input_tokens_seen": 1027191856,
+      "step": 2261,
+      "train_runtime": 160708.6042,
+      "train_tokens_per_second": 6391.642
+    },
+    {
+      "epoch": 2.73856165873684,
+      "grad_norm": 0.25167331099510193,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 1027631680,
+      "step": 2262,
+      "train_runtime": 160773.4123,
+      "train_tokens_per_second": 6391.801
+    },
+    {
+      "epoch": 2.7397724155544414,
+      "grad_norm": 0.25715553760528564,
+      "learning_rate": 5e-06,
+      "loss": 0.8853,
+      "num_input_tokens_seen": 1028082536,
+      "step": 2263,
+      "train_runtime": 160840.2689,
+      "train_tokens_per_second": 6391.947
+    },
+    {
+      "epoch": 2.740983172372043,
+      "grad_norm": 0.23995672166347504,
+      "learning_rate": 5e-06,
+      "loss": 0.9307,
+      "num_input_tokens_seen": 1028562968,
+      "step": 2264,
+      "train_runtime": 160911.4001,
+      "train_tokens_per_second": 6392.108
+    },
+    {
+      "epoch": 2.742193929189644,
+      "grad_norm": 0.24075527489185333,
+      "learning_rate": 5e-06,
+      "loss": 0.8959,
+      "num_input_tokens_seen": 1028999072,
+      "step": 2265,
+      "train_runtime": 160975.9822,
+      "train_tokens_per_second": 6392.252
+    },
+    {
+      "epoch": 2.7434046860072456,
+      "grad_norm": 0.24111104011535645,
+      "learning_rate": 5e-06,
+      "loss": 0.9342,
+      "num_input_tokens_seen": 1029436168,
+      "step": 2266,
+      "train_runtime": 161040.4703,
+      "train_tokens_per_second": 6392.407
+    },
+    {
+      "epoch": 2.744615442824847,
+      "grad_norm": 0.24185071885585785,
+      "learning_rate": 5e-06,
+      "loss": 0.9124,
+      "num_input_tokens_seen": 1029895528,
+      "step": 2267,
+      "train_runtime": 161108.4302,
+      "train_tokens_per_second": 6392.561
+    },
+    {
+      "epoch": 2.7458261996424485,
+      "grad_norm": 0.2595217525959015,
+      "learning_rate": 5e-06,
+      "loss": 0.9333,
+      "num_input_tokens_seen": 1030313776,
+      "step": 2268,
+      "train_runtime": 161170.4004,
+      "train_tokens_per_second": 6392.698
+    },
+    {
+      "epoch": 2.74703695646005,
+      "grad_norm": 0.2608698308467865,
+      "learning_rate": 5e-06,
+      "loss": 0.9352,
+      "num_input_tokens_seen": 1030773200,
+      "step": 2269,
+      "train_runtime": 161238.33,
+      "train_tokens_per_second": 6392.855
+    },
+    {
+      "epoch": 2.7482477132776513,
+      "grad_norm": 0.2337881624698639,
+      "learning_rate": 5e-06,
+      "loss": 0.903,
+      "num_input_tokens_seen": 1031251608,
+      "step": 2270,
+      "train_runtime": 161309.7518,
+      "train_tokens_per_second": 6392.99
+    },
+    {
+      "epoch": 2.7494584700952522,
+      "grad_norm": 0.23849591612815857,
+      "learning_rate": 5e-06,
+      "loss": 0.9358,
+      "num_input_tokens_seen": 1031721848,
+      "step": 2271,
+      "train_runtime": 161379.4792,
+      "train_tokens_per_second": 6393.142
+    },
+    {
+      "epoch": 2.750669226912854,
+      "grad_norm": 0.2555829882621765,
+      "learning_rate": 5e-06,
+      "loss": 0.9064,
+      "num_input_tokens_seen": 1032189752,
+      "step": 2272,
+      "train_runtime": 161448.9849,
+      "train_tokens_per_second": 6393.287
+    },
+    {
+      "epoch": 2.751879983730455,
+      "grad_norm": 0.2797653079032898,
+      "learning_rate": 5e-06,
+      "loss": 0.8848,
+      "num_input_tokens_seen": 1032639608,
+      "step": 2273,
+      "train_runtime": 161515.5469,
+      "train_tokens_per_second": 6393.438
+    },
+    {
+      "epoch": 2.753090740548057,
+      "grad_norm": 0.23317913711071014,
+      "learning_rate": 5e-06,
+      "loss": 0.9238,
+      "num_input_tokens_seen": 1033080176,
+      "step": 2274,
+      "train_runtime": 161580.6508,
+      "train_tokens_per_second": 6393.588
+    },
+    {
+      "epoch": 2.754301497365658,
+      "grad_norm": 0.24477601051330566,
+      "learning_rate": 5e-06,
+      "loss": 0.9416,
+      "num_input_tokens_seen": 1033520656,
+      "step": 2275,
+      "train_runtime": 161645.5728,
+      "train_tokens_per_second": 6393.746
+    },
+    {
+      "epoch": 2.7555122541832593,
+      "grad_norm": 0.2364787459373474,
+      "learning_rate": 5e-06,
+      "loss": 0.9096,
+      "num_input_tokens_seen": 1033971520,
+      "step": 2276,
+      "train_runtime": 161712.1981,
+      "train_tokens_per_second": 6393.899
+    },
+    {
+      "epoch": 2.7567230110008607,
+      "grad_norm": 0.2605726718902588,
+      "learning_rate": 5e-06,
+      "loss": 0.8921,
+      "num_input_tokens_seen": 1034395088,
+      "step": 2277,
+      "train_runtime": 161774.2815,
+      "train_tokens_per_second": 6394.064
+    },
+    {
+      "epoch": 2.757933767818462,
+      "grad_norm": 0.25480276346206665,
+      "learning_rate": 5e-06,
+      "loss": 0.9177,
+      "num_input_tokens_seen": 1034838552,
+      "step": 2278,
+      "train_runtime": 161839.7302,
+      "train_tokens_per_second": 6394.218
+    },
+    {
+      "epoch": 2.7591445246360635,
+      "grad_norm": 0.23550397157669067,
+      "learning_rate": 5e-06,
+      "loss": 0.8798,
+      "num_input_tokens_seen": 1035301976,
+      "step": 2279,
+      "train_runtime": 161908.0151,
+      "train_tokens_per_second": 6394.384
+    },
+    {
+      "epoch": 2.760355281453665,
+      "grad_norm": 0.23179112374782562,
+      "learning_rate": 5e-06,
+      "loss": 0.8953,
+      "num_input_tokens_seen": 1035774664,
+      "step": 2280,
+      "train_runtime": 161978.1853,
+      "train_tokens_per_second": 6394.532
+    },
+    {
+      "epoch": 2.7615660382712663,
+      "grad_norm": 0.28745490312576294,
+      "learning_rate": 5e-06,
+      "loss": 0.9014,
+      "num_input_tokens_seen": 1036207656,
+      "step": 2281,
+      "train_runtime": 162042.7376,
+      "train_tokens_per_second": 6394.657
+    },
+    {
+      "epoch": 2.7627767950888678,
+      "grad_norm": 0.2519856095314026,
+      "learning_rate": 5e-06,
+      "loss": 0.906,
+      "num_input_tokens_seen": 1036649640,
+      "step": 2282,
+      "train_runtime": 162107.9902,
+      "train_tokens_per_second": 6394.809
+    },
+    {
+      "epoch": 2.763987551906469,
+      "grad_norm": 0.2556043863296509,
+      "learning_rate": 5e-06,
+      "loss": 0.9393,
+      "num_input_tokens_seen": 1037124656,
+      "step": 2283,
+      "train_runtime": 162178.7126,
+      "train_tokens_per_second": 6394.949
+    },
+    {
+      "epoch": 2.7651983087240706,
+      "grad_norm": 0.22922824323177338,
+      "learning_rate": 5e-06,
+      "loss": 0.8837,
+      "num_input_tokens_seen": 1037595840,
+      "step": 2284,
+      "train_runtime": 162248.143,
+      "train_tokens_per_second": 6395.117
+    },
+    {
+      "epoch": 2.766409065541672,
+      "grad_norm": 0.24666735529899597,
+      "learning_rate": 5e-06,
+      "loss": 0.9671,
+      "num_input_tokens_seen": 1038036336,
+      "step": 2285,
+      "train_runtime": 162313.37,
+      "train_tokens_per_second": 6395.261
+    },
+    {
+      "epoch": 2.767619822359273,
+      "grad_norm": 0.27610307931900024,
+      "learning_rate": 5e-06,
+      "loss": 0.8669,
+      "num_input_tokens_seen": 1038496960,
+      "step": 2286,
+      "train_runtime": 162381.4019,
+      "train_tokens_per_second": 6395.418
+    },
+    {
+      "epoch": 2.768830579176875,
+      "grad_norm": 0.2348206490278244,
+      "learning_rate": 5e-06,
+      "loss": 0.9206,
+      "num_input_tokens_seen": 1038953384,
+      "step": 2287,
+      "train_runtime": 162448.8975,
+      "train_tokens_per_second": 6395.571
+    },
+    {
+      "epoch": 2.7700413359944758,
+      "grad_norm": 0.2505703270435333,
+      "learning_rate": 5e-06,
+      "loss": 0.88,
+      "num_input_tokens_seen": 1039421160,
+      "step": 2288,
+      "train_runtime": 162517.7659,
+      "train_tokens_per_second": 6395.739
+    },
+    {
+      "epoch": 2.771252092812077,
+      "grad_norm": 0.23638983070850372,
+      "learning_rate": 5e-06,
+      "loss": 0.8718,
+      "num_input_tokens_seen": 1039873192,
+      "step": 2289,
+      "train_runtime": 162584.5274,
+      "train_tokens_per_second": 6395.893
+    },
+    {
+      "epoch": 2.7724628496296786,
+      "grad_norm": 0.23076026141643524,
+      "learning_rate": 5e-06,
+      "loss": 0.8999,
+      "num_input_tokens_seen": 1040363160,
+      "step": 2290,
+      "train_runtime": 162657.0792,
+      "train_tokens_per_second": 6396.052
+    },
+    {
+      "epoch": 2.77367360644728,
+      "grad_norm": 0.25392135977745056,
+      "learning_rate": 5e-06,
+      "loss": 0.9451,
+      "num_input_tokens_seen": 1040790536,
+      "step": 2291,
+      "train_runtime": 162720.1261,
+      "train_tokens_per_second": 6396.2
+    },
+    {
+      "epoch": 2.7748843632648814,
+      "grad_norm": 0.24415422976016998,
+      "learning_rate": 5e-06,
+      "loss": 0.8886,
+      "num_input_tokens_seen": 1041230312,
+      "step": 2292,
+      "train_runtime": 162785.4545,
+      "train_tokens_per_second": 6396.335
+    },
+    {
+      "epoch": 2.776095120082483,
+      "grad_norm": 0.2522631585597992,
+      "learning_rate": 5e-06,
+      "loss": 0.9343,
+      "num_input_tokens_seen": 1041675088,
+      "step": 2293,
+      "train_runtime": 162851.2507,
+      "train_tokens_per_second": 6396.482
+    },
+    {
+      "epoch": 2.7773058769000842,
+      "grad_norm": 0.23644526302814484,
+      "learning_rate": 5e-06,
+      "loss": 0.9147,
+      "num_input_tokens_seen": 1042146576,
+      "step": 2294,
+      "train_runtime": 162920.8304,
+      "train_tokens_per_second": 6396.644
+    },
+    {
+      "epoch": 2.7785166337176856,
+      "grad_norm": 0.25499239563941956,
+      "learning_rate": 5e-06,
+      "loss": 0.9219,
+      "num_input_tokens_seen": 1042611024,
+      "step": 2295,
+      "train_runtime": 162989.4272,
+      "train_tokens_per_second": 6396.802
+    },
+    {
+      "epoch": 2.779727390535287,
+      "grad_norm": 0.2416430562734604,
+      "learning_rate": 5e-06,
+      "loss": 0.9671,
+      "num_input_tokens_seen": 1043078696,
+      "step": 2296,
+      "train_runtime": 163058.9679,
+      "train_tokens_per_second": 6396.942
+    },
+    {
+      "epoch": 2.7809381473528885,
+      "grad_norm": 0.2677612900733948,
+      "learning_rate": 5e-06,
+      "loss": 0.8946,
+      "num_input_tokens_seen": 1043533320,
+      "step": 2297,
+      "train_runtime": 163126.3482,
+      "train_tokens_per_second": 6397.086
+    },
+    {
+      "epoch": 2.78214890417049,
+      "grad_norm": 0.25840872526168823,
+      "learning_rate": 5e-06,
+      "loss": 0.9096,
+      "num_input_tokens_seen": 1043990936,
+      "step": 2298,
+      "train_runtime": 163194.0314,
+      "train_tokens_per_second": 6397.237
+    },
+    {
+      "epoch": 2.783359660988091,
+      "grad_norm": 0.2687901556491852,
+      "learning_rate": 5e-06,
+      "loss": 0.9439,
+      "num_input_tokens_seen": 1044449824,
+      "step": 2299,
+      "train_runtime": 163262.0571,
+      "train_tokens_per_second": 6397.382
+    },
+    {
+      "epoch": 2.7845704178056927,
+      "grad_norm": 0.27363818883895874,
+      "learning_rate": 5e-06,
+      "loss": 0.9365,
+      "num_input_tokens_seen": 1044906680,
+      "step": 2300,
+      "train_runtime": 163329.4795,
+      "train_tokens_per_second": 6397.539
+    },
+    {
+      "epoch": 2.7857811746232937,
+      "grad_norm": 0.2355838119983673,
+      "learning_rate": 5e-06,
+      "loss": 0.8774,
+      "num_input_tokens_seen": 1045377512,
+      "step": 2301,
+      "train_runtime": 163398.8973,
+      "train_tokens_per_second": 6397.702
+    },
+    {
+      "epoch": 2.786991931440895,
+      "grad_norm": 0.24392828345298767,
+      "learning_rate": 5e-06,
+      "loss": 0.9311,
+      "num_input_tokens_seen": 1045821864,
+      "step": 2302,
+      "train_runtime": 163465.0191,
+      "train_tokens_per_second": 6397.833
+    },
+    {
+      "epoch": 2.7882026882584965,
+      "grad_norm": 0.22444923222064972,
+      "learning_rate": 5e-06,
+      "loss": 0.9476,
+      "num_input_tokens_seen": 1046281000,
+      "step": 2303,
+      "train_runtime": 163532.6383,
+      "train_tokens_per_second": 6397.995
+    },
+    {
+      "epoch": 2.789413445076098,
+      "grad_norm": 0.23800964653491974,
+      "learning_rate": 5e-06,
+      "loss": 0.9248,
+      "num_input_tokens_seen": 1046761784,
+      "step": 2304,
+      "train_runtime": 163603.0082,
+      "train_tokens_per_second": 6398.182
+    },
+    {
+      "epoch": 2.7906242018936993,
+      "grad_norm": 0.2515329420566559,
+      "learning_rate": 5e-06,
+      "loss": 0.8946,
+      "num_input_tokens_seen": 1047209968,
+      "step": 2305,
+      "train_runtime": 163669.4581,
+      "train_tokens_per_second": 6398.322
+    },
+    {
+      "epoch": 2.7918349587113007,
+      "grad_norm": 0.27853265404701233,
+      "learning_rate": 5e-06,
+      "loss": 1.03,
+      "num_input_tokens_seen": 1047644576,
+      "step": 2306,
+      "train_runtime": 163733.387,
+      "train_tokens_per_second": 6398.479
+    },
+    {
+      "epoch": 2.793045715528902,
+      "grad_norm": 0.23654435575008392,
+      "learning_rate": 5e-06,
+      "loss": 0.8594,
+      "num_input_tokens_seen": 1048113472,
+      "step": 2307,
+      "train_runtime": 163802.8984,
+      "train_tokens_per_second": 6398.626
+    },
+    {
+      "epoch": 2.7942564723465035,
+      "grad_norm": 0.24784903228282928,
+      "learning_rate": 5e-06,
+      "loss": 0.9906,
+      "num_input_tokens_seen": 1048549400,
+      "step": 2308,
+      "train_runtime": 163867.387,
+      "train_tokens_per_second": 6398.768
+    },
+    {
+      "epoch": 2.795467229164105,
+      "grad_norm": 0.24880841374397278,
+      "learning_rate": 5e-06,
+      "loss": 0.9033,
+      "num_input_tokens_seen": 1048995416,
+      "step": 2309,
+      "train_runtime": 163934.0955,
+      "train_tokens_per_second": 6398.885
+    },
+    {
+      "epoch": 2.7966779859817064,
+      "grad_norm": 0.24870271980762482,
+      "learning_rate": 5e-06,
+      "loss": 0.8977,
+      "num_input_tokens_seen": 1049470880,
+      "step": 2310,
+      "train_runtime": 164006.5254,
+      "train_tokens_per_second": 6398.958
+    },
+    {
+      "epoch": 2.7978887427993078,
+      "grad_norm": 0.23734253644943237,
+      "learning_rate": 5e-06,
+      "loss": 0.9153,
+      "num_input_tokens_seen": 1049914560,
+      "step": 2311,
+      "train_runtime": 164071.9182,
+      "train_tokens_per_second": 6399.112
+    },
+    {
+      "epoch": 2.7990994996169087,
+      "grad_norm": 0.25134560465812683,
+      "learning_rate": 5e-06,
+      "loss": 0.9128,
+      "num_input_tokens_seen": 1050357984,
+      "step": 2312,
+      "train_runtime": 164137.1428,
+      "train_tokens_per_second": 6399.271
+    },
+    {
+      "epoch": 2.8003102564345106,
+      "grad_norm": 0.2300664782524109,
+      "learning_rate": 5e-06,
+      "loss": 0.9098,
+      "num_input_tokens_seen": 1050819792,
+      "step": 2313,
+      "train_runtime": 164205.6195,
+      "train_tokens_per_second": 6399.414
+    },
+    {
+      "epoch": 2.8015210132521116,
+      "grad_norm": 0.22979731857776642,
+      "learning_rate": 5e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 1051285056,
+      "step": 2314,
+      "train_runtime": 164274.736,
+      "train_tokens_per_second": 6399.554
+    },
+    {
+      "epoch": 2.802731770069713,
+      "grad_norm": 0.23814600706100464,
+      "learning_rate": 5e-06,
+      "loss": 0.9126,
+      "num_input_tokens_seen": 1051755944,
+      "step": 2315,
+      "train_runtime": 164344.435,
+      "train_tokens_per_second": 6399.705
+    },
+    {
+      "epoch": 2.8039425268873144,
+      "grad_norm": 0.21878504753112793,
+      "learning_rate": 5e-06,
+      "loss": 0.9152,
+      "num_input_tokens_seen": 1052229800,
+      "step": 2316,
+      "train_runtime": 164414.3881,
+      "train_tokens_per_second": 6399.864
+    },
+    {
+      "epoch": 2.805153283704916,
+      "grad_norm": 0.24749340116977692,
+      "learning_rate": 5e-06,
+      "loss": 0.9028,
+      "num_input_tokens_seen": 1052673152,
+      "step": 2317,
+      "train_runtime": 164480.1965,
+      "train_tokens_per_second": 6399.999
+    },
+    {
+      "epoch": 2.806364040522517,
+      "grad_norm": 0.23459599912166595,
+      "learning_rate": 5e-06,
+      "loss": 0.9071,
+      "num_input_tokens_seen": 1053111560,
+      "step": 2318,
+      "train_runtime": 164545.2472,
+      "train_tokens_per_second": 6400.134
+    },
+    {
+      "epoch": 2.8075747973401186,
+      "grad_norm": 0.24665674567222595,
+      "learning_rate": 5e-06,
+      "loss": 0.9421,
+      "num_input_tokens_seen": 1053560808,
+      "step": 2319,
+      "train_runtime": 164611.4841,
+      "train_tokens_per_second": 6400.287
+    },
+    {
+      "epoch": 2.80878555415772,
+      "grad_norm": 0.24288515746593475,
+      "learning_rate": 5e-06,
+      "loss": 0.9171,
+      "num_input_tokens_seen": 1054028536,
+      "step": 2320,
+      "train_runtime": 164680.3862,
+      "train_tokens_per_second": 6400.45
+    },
+    {
+      "epoch": 2.8099963109753214,
+      "grad_norm": 0.24747171998023987,
+      "learning_rate": 5e-06,
+      "loss": 0.9457,
+      "num_input_tokens_seen": 1054488288,
+      "step": 2321,
+      "train_runtime": 164748.1304,
+      "train_tokens_per_second": 6400.609
+    },
+    {
+      "epoch": 2.811207067792923,
+      "grad_norm": 0.23851259052753448,
+      "learning_rate": 5e-06,
+      "loss": 0.9325,
+      "num_input_tokens_seen": 1054961000,
+      "step": 2322,
+      "train_runtime": 164818.1256,
+      "train_tokens_per_second": 6400.758
+    },
+    {
+      "epoch": 2.8124178246105243,
+      "grad_norm": 0.24482108652591705,
+      "learning_rate": 5e-06,
+      "loss": 0.8696,
+      "num_input_tokens_seen": 1055393152,
+      "step": 2323,
+      "train_runtime": 164882.1388,
+      "train_tokens_per_second": 6400.894
+    },
+    {
+      "epoch": 2.8136285814281257,
+      "grad_norm": 0.24118374288082123,
+      "learning_rate": 5e-06,
+      "loss": 0.9024,
+      "num_input_tokens_seen": 1055852976,
+      "step": 2324,
+      "train_runtime": 164950.2745,
+      "train_tokens_per_second": 6401.038
+    },
+    {
+      "epoch": 2.8148393382457266,
+      "grad_norm": 0.2338990718126297,
+      "learning_rate": 5e-06,
+      "loss": 0.8967,
+      "num_input_tokens_seen": 1056302096,
+      "step": 2325,
+      "train_runtime": 165016.6859,
+      "train_tokens_per_second": 6401.184
+    },
+    {
+      "epoch": 2.8160500950633285,
+      "grad_norm": 0.249686598777771,
+      "learning_rate": 5e-06,
+      "loss": 0.9129,
+      "num_input_tokens_seen": 1056769208,
+      "step": 2326,
+      "train_runtime": 165086.0367,
+      "train_tokens_per_second": 6401.324
+    },
+    {
+      "epoch": 2.8172608518809295,
+      "grad_norm": 0.24016061425209045,
+      "learning_rate": 5e-06,
+      "loss": 0.8875,
+      "num_input_tokens_seen": 1057246168,
+      "step": 2327,
+      "train_runtime": 165156.8351,
+      "train_tokens_per_second": 6401.468
+    },
+    {
+      "epoch": 2.818471608698531,
+      "grad_norm": 0.2340596616268158,
+      "learning_rate": 5e-06,
+      "loss": 0.871,
+      "num_input_tokens_seen": 1057694632,
+      "step": 2328,
+      "train_runtime": 165223.3174,
+      "train_tokens_per_second": 6401.606
+    },
+    {
+      "epoch": 2.8196823655161323,
+      "grad_norm": 0.23390509188175201,
+      "learning_rate": 5e-06,
+      "loss": 0.9014,
+      "num_input_tokens_seen": 1058166320,
+      "step": 2329,
+      "train_runtime": 165292.9359,
+      "train_tokens_per_second": 6401.764
+    },
+    {
+      "epoch": 2.8208931223337337,
+      "grad_norm": 0.240423783659935,
+      "learning_rate": 5e-06,
+      "loss": 0.9042,
+      "num_input_tokens_seen": 1058610264,
+      "step": 2330,
+      "train_runtime": 165358.5343,
+      "train_tokens_per_second": 6401.909
+    },
+    {
+      "epoch": 2.822103879151335,
+      "grad_norm": 0.23276259005069733,
+      "learning_rate": 5e-06,
+      "loss": 0.956,
+      "num_input_tokens_seen": 1059081800,
+      "step": 2331,
+      "train_runtime": 165428.3498,
+      "train_tokens_per_second": 6402.057
+    },
+    {
+      "epoch": 2.8233146359689365,
+      "grad_norm": 0.23118719458580017,
+      "learning_rate": 5e-06,
+      "loss": 0.9006,
+      "num_input_tokens_seen": 1059516272,
+      "step": 2332,
+      "train_runtime": 165492.7144,
+      "train_tokens_per_second": 6402.193
+    },
+    {
+      "epoch": 2.824525392786538,
+      "grad_norm": 0.24484090507030487,
+      "learning_rate": 5e-06,
+      "loss": 0.899,
+      "num_input_tokens_seen": 1059975872,
+      "step": 2333,
+      "train_runtime": 165560.5144,
+      "train_tokens_per_second": 6402.347
+    },
+    {
+      "epoch": 2.8257361496041393,
+      "grad_norm": 0.26148274540901184,
+      "learning_rate": 5e-06,
+      "loss": 0.8908,
+      "num_input_tokens_seen": 1060424984,
+      "step": 2334,
+      "train_runtime": 165626.6035,
+      "train_tokens_per_second": 6402.504
+    },
+    {
+      "epoch": 2.8269469064217407,
+      "grad_norm": 0.23295333981513977,
+      "learning_rate": 5e-06,
+      "loss": 0.9084,
+      "num_input_tokens_seen": 1060878880,
+      "step": 2335,
+      "train_runtime": 165693.7989,
+      "train_tokens_per_second": 6402.647
+    },
+    {
+      "epoch": 2.828157663239342,
+      "grad_norm": 0.2560044229030609,
+      "learning_rate": 5e-06,
+      "loss": 0.9266,
+      "num_input_tokens_seen": 1061345072,
+      "step": 2336,
+      "train_runtime": 165762.4034,
+      "train_tokens_per_second": 6402.809
+    },
+    {
+      "epoch": 2.8293684200569436,
+      "grad_norm": 0.293335497379303,
+      "learning_rate": 5e-06,
+      "loss": 0.9615,
+      "num_input_tokens_seen": 1061791296,
+      "step": 2337,
+      "train_runtime": 165827.814,
+      "train_tokens_per_second": 6402.975
+    },
+    {
+      "epoch": 2.8305791768745445,
+      "grad_norm": 0.250169038772583,
+      "learning_rate": 5e-06,
+      "loss": 0.8951,
+      "num_input_tokens_seen": 1062258544,
+      "step": 2338,
+      "train_runtime": 165897.2325,
+      "train_tokens_per_second": 6403.112
+    },
+    {
+      "epoch": 2.8317899336921464,
+      "grad_norm": 0.24368995428085327,
+      "learning_rate": 5e-06,
+      "loss": 0.8965,
+      "num_input_tokens_seen": 1062713712,
+      "step": 2339,
+      "train_runtime": 165964.4766,
+      "train_tokens_per_second": 6403.26
+    },
+    {
+      "epoch": 2.8330006905097473,
+      "grad_norm": 0.26345351338386536,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 1063171088,
+      "step": 2340,
+      "train_runtime": 166032.2225,
+      "train_tokens_per_second": 6403.402
+    },
+    {
+      "epoch": 2.8342114473273488,
+      "grad_norm": 0.26429590582847595,
+      "learning_rate": 5e-06,
+      "loss": 0.9012,
+      "num_input_tokens_seen": 1063627344,
+      "step": 2341,
+      "train_runtime": 166099.2017,
+      "train_tokens_per_second": 6403.567
+    },
+    {
+      "epoch": 2.83542220414495,
+      "grad_norm": 0.2443588227033615,
+      "learning_rate": 5e-06,
+      "loss": 0.8997,
+      "num_input_tokens_seen": 1064085144,
+      "step": 2342,
+      "train_runtime": 166167.5411,
+      "train_tokens_per_second": 6403.688
+    },
+    {
+      "epoch": 2.8366329609625516,
+      "grad_norm": 0.2589036226272583,
+      "learning_rate": 5e-06,
+      "loss": 0.9135,
+      "num_input_tokens_seen": 1064548048,
+      "step": 2343,
+      "train_runtime": 166236.1917,
+      "train_tokens_per_second": 6403.828
+    },
+    {
+      "epoch": 2.837843717780153,
+      "grad_norm": 0.24053068459033966,
+      "learning_rate": 5e-06,
+      "loss": 0.9705,
+      "num_input_tokens_seen": 1065004800,
+      "step": 2344,
+      "train_runtime": 166304.0312,
+      "train_tokens_per_second": 6403.963
+    },
+    {
+      "epoch": 2.8390544745977544,
+      "grad_norm": 0.2785547971725464,
+      "learning_rate": 5e-06,
+      "loss": 0.9527,
+      "num_input_tokens_seen": 1065466952,
+      "step": 2345,
+      "train_runtime": 166372.1789,
+      "train_tokens_per_second": 6404.117
+    },
+    {
+      "epoch": 2.840265231415356,
+      "grad_norm": 0.2642555236816406,
+      "learning_rate": 5e-06,
+      "loss": 0.8824,
+      "num_input_tokens_seen": 1065920384,
+      "step": 2346,
+      "train_runtime": 166439.2664,
+      "train_tokens_per_second": 6404.26
+    },
+    {
+      "epoch": 2.841475988232957,
+      "grad_norm": 0.24180537462234497,
+      "learning_rate": 5e-06,
+      "loss": 0.9517,
+      "num_input_tokens_seen": 1066358144,
+      "step": 2347,
+      "train_runtime": 166504.0514,
+      "train_tokens_per_second": 6404.398
+    },
+    {
+      "epoch": 2.8426867450505586,
+      "grad_norm": 0.2499978095293045,
+      "learning_rate": 5e-06,
+      "loss": 0.9408,
+      "num_input_tokens_seen": 1066833672,
+      "step": 2348,
+      "train_runtime": 166574.2519,
+      "train_tokens_per_second": 6404.553
+    },
+    {
+      "epoch": 2.84389750186816,
+      "grad_norm": 0.24067756533622742,
+      "learning_rate": 5e-06,
+      "loss": 0.9379,
+      "num_input_tokens_seen": 1067297648,
+      "step": 2349,
+      "train_runtime": 166642.8687,
+      "train_tokens_per_second": 6404.7
+    },
+    {
+      "epoch": 2.8451082586857614,
+      "grad_norm": 0.242728590965271,
+      "learning_rate": 5e-06,
+      "loss": 0.9005,
+      "num_input_tokens_seen": 1067762344,
+      "step": 2350,
+      "train_runtime": 166711.6274,
+      "train_tokens_per_second": 6404.846
+    },
+    {
+      "epoch": 2.8463190155033624,
+      "grad_norm": 0.23392565548419952,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 1068211064,
+      "step": 2351,
+      "train_runtime": 166778.0705,
+      "train_tokens_per_second": 6404.985
+    },
+    {
+      "epoch": 2.8475297723209643,
+      "grad_norm": 0.24133005738258362,
+      "learning_rate": 5e-06,
+      "loss": 0.9389,
+      "num_input_tokens_seen": 1068666112,
+      "step": 2352,
+      "train_runtime": 166845.1732,
+      "train_tokens_per_second": 6405.137
+    },
+    {
+      "epoch": 2.8487405291385652,
+      "grad_norm": 0.25078195333480835,
+      "learning_rate": 5e-06,
+      "loss": 0.8236,
+      "num_input_tokens_seen": 1069135528,
+      "step": 2353,
+      "train_runtime": 166914.9802,
+      "train_tokens_per_second": 6405.27
+    },
+    {
+      "epoch": 2.849951285956167,
+      "grad_norm": 0.2609178125858307,
+      "learning_rate": 5e-06,
+      "loss": 0.9244,
+      "num_input_tokens_seen": 1069602576,
+      "step": 2354,
+      "train_runtime": 166984.0381,
+      "train_tokens_per_second": 6405.418
+    },
+    {
+      "epoch": 2.851162042773768,
+      "grad_norm": 0.25105518102645874,
+      "learning_rate": 5e-06,
+      "loss": 0.907,
+      "num_input_tokens_seen": 1070071800,
+      "step": 2355,
+      "train_runtime": 167053.8585,
+      "train_tokens_per_second": 6405.55
+    },
+    {
+      "epoch": 2.8523727995913695,
+      "grad_norm": 0.2414802759885788,
+      "learning_rate": 5e-06,
+      "loss": 0.9481,
+      "num_input_tokens_seen": 1070521528,
+      "step": 2356,
+      "train_runtime": 167120.4676,
+      "train_tokens_per_second": 6405.688
+    },
+    {
+      "epoch": 2.853583556408971,
+      "grad_norm": 0.25838810205459595,
+      "learning_rate": 5e-06,
+      "loss": 0.9217,
+      "num_input_tokens_seen": 1070945224,
+      "step": 2357,
+      "train_runtime": 167183.2228,
+      "train_tokens_per_second": 6405.818
+    },
+    {
+      "epoch": 2.8547943132265723,
+      "grad_norm": 0.24007445573806763,
+      "learning_rate": 5e-06,
+      "loss": 0.9555,
+      "num_input_tokens_seen": 1071419872,
+      "step": 2358,
+      "train_runtime": 167253.3886,
+      "train_tokens_per_second": 6405.968
+    },
+    {
+      "epoch": 2.8560050700441737,
+      "grad_norm": 0.23948095738887787,
+      "learning_rate": 5e-06,
+      "loss": 0.9238,
+      "num_input_tokens_seen": 1071871960,
+      "step": 2359,
+      "train_runtime": 167320.3656,
+      "train_tokens_per_second": 6406.106
+    },
+    {
+      "epoch": 2.857215826861775,
+      "grad_norm": 0.24351708590984344,
+      "learning_rate": 5e-06,
+      "loss": 0.9199,
+      "num_input_tokens_seen": 1072315552,
+      "step": 2360,
+      "train_runtime": 167386.0141,
+      "train_tokens_per_second": 6406.243
+    },
+    {
+      "epoch": 2.8584265836793765,
+      "grad_norm": 0.2502671778202057,
+      "learning_rate": 5e-06,
+      "loss": 0.9532,
+      "num_input_tokens_seen": 1072785312,
+      "step": 2361,
+      "train_runtime": 167455.5199,
+      "train_tokens_per_second": 6406.39
+    },
+    {
+      "epoch": 2.859637340496978,
+      "grad_norm": 0.2391587793827057,
+      "learning_rate": 5e-06,
+      "loss": 0.9096,
+      "num_input_tokens_seen": 1073222072,
+      "step": 2362,
+      "train_runtime": 167520.3372,
+      "train_tokens_per_second": 6406.518
+    },
+    {
+      "epoch": 2.8608480973145793,
+      "grad_norm": 0.2657223641872406,
+      "learning_rate": 5e-06,
+      "loss": 0.9262,
+      "num_input_tokens_seen": 1073678976,
+      "step": 2363,
+      "train_runtime": 167589.7726,
+      "train_tokens_per_second": 6406.59
+    },
+    {
+      "epoch": 2.8620588541321808,
+      "grad_norm": 0.22655223309993744,
+      "learning_rate": 5e-06,
+      "loss": 0.9214,
+      "num_input_tokens_seen": 1074141744,
+      "step": 2364,
+      "train_runtime": 167658.8468,
+      "train_tokens_per_second": 6406.711
+    },
+    {
+      "epoch": 2.863269610949782,
+      "grad_norm": 0.22646227478981018,
+      "learning_rate": 5e-06,
+      "loss": 0.918,
+      "num_input_tokens_seen": 1074598560,
+      "step": 2365,
+      "train_runtime": 167726.4287,
+      "train_tokens_per_second": 6406.853
+    },
+    {
+      "epoch": 2.864480367767383,
+      "grad_norm": 0.23975032567977905,
+      "learning_rate": 5e-06,
+      "loss": 0.9442,
+      "num_input_tokens_seen": 1075063080,
+      "step": 2366,
+      "train_runtime": 167794.848,
+      "train_tokens_per_second": 6407.009
+    },
+    {
+      "epoch": 2.865691124584985,
+      "grad_norm": 0.2874181568622589,
+      "learning_rate": 5e-06,
+      "loss": 0.9366,
+      "num_input_tokens_seen": 1075494480,
+      "step": 2367,
+      "train_runtime": 167858.4872,
+      "train_tokens_per_second": 6407.15
+    },
+    {
+      "epoch": 2.866901881402586,
+      "grad_norm": 0.23288311064243317,
+      "learning_rate": 5e-06,
+      "loss": 0.8927,
+      "num_input_tokens_seen": 1075946304,
+      "step": 2368,
+      "train_runtime": 167925.2658,
+      "train_tokens_per_second": 6407.293
+    },
+    {
+      "epoch": 2.8681126382201874,
+      "grad_norm": 0.22665363550186157,
+      "learning_rate": 5e-06,
+      "loss": 0.9149,
+      "num_input_tokens_seen": 1076407848,
+      "step": 2369,
+      "train_runtime": 167993.6545,
+      "train_tokens_per_second": 6407.432
+    },
+    {
+      "epoch": 2.8693233950377888,
+      "grad_norm": 0.2529769539833069,
+      "learning_rate": 5e-06,
+      "loss": 0.9091,
+      "num_input_tokens_seen": 1076849656,
+      "step": 2370,
+      "train_runtime": 168058.8499,
+      "train_tokens_per_second": 6407.575
+    },
+    {
+      "epoch": 2.87053415185539,
+      "grad_norm": 0.2684330344200134,
+      "learning_rate": 5e-06,
+      "loss": 0.9756,
+      "num_input_tokens_seen": 1077281544,
+      "step": 2371,
+      "train_runtime": 168122.0355,
+      "train_tokens_per_second": 6407.736
+    },
+    {
+      "epoch": 2.8717449086729916,
+      "grad_norm": 0.2409277856349945,
+      "learning_rate": 5e-06,
+      "loss": 0.8855,
+      "num_input_tokens_seen": 1077754688,
+      "step": 2372,
+      "train_runtime": 168192.2219,
+      "train_tokens_per_second": 6407.875
+    },
+    {
+      "epoch": 2.872955665490593,
+      "grad_norm": 0.28829601407051086,
+      "learning_rate": 5e-06,
+      "loss": 0.9238,
+      "num_input_tokens_seen": 1078223256,
+      "step": 2373,
+      "train_runtime": 168261.3837,
+      "train_tokens_per_second": 6408.026
+    },
+    {
+      "epoch": 2.8741664223081944,
+      "grad_norm": 0.2507815361022949,
+      "learning_rate": 5e-06,
+      "loss": 0.8819,
+      "num_input_tokens_seen": 1078704120,
+      "step": 2374,
+      "train_runtime": 168332.5096,
+      "train_tokens_per_second": 6408.175
+    },
+    {
+      "epoch": 2.875377179125796,
+      "grad_norm": 0.24085399508476257,
+      "learning_rate": 5e-06,
+      "loss": 0.9693,
+      "num_input_tokens_seen": 1079153752,
+      "step": 2375,
+      "train_runtime": 168398.802,
+      "train_tokens_per_second": 6408.322
+    },
+    {
+      "epoch": 2.8765879359433972,
+      "grad_norm": 0.23706606030464172,
+      "learning_rate": 5e-06,
+      "loss": 0.931,
+      "num_input_tokens_seen": 1079604888,
+      "step": 2376,
+      "train_runtime": 168465.9087,
+      "train_tokens_per_second": 6408.447
+    },
+    {
+      "epoch": 2.8777986927609986,
+      "grad_norm": 0.2508695721626282,
+      "learning_rate": 5e-06,
+      "loss": 0.9629,
+      "num_input_tokens_seen": 1080043568,
+      "step": 2377,
+      "train_runtime": 168530.2954,
+      "train_tokens_per_second": 6408.602
+    },
+    {
+      "epoch": 2.8790094495786,
+      "grad_norm": 0.25791847705841064,
+      "learning_rate": 5e-06,
+      "loss": 0.9672,
+      "num_input_tokens_seen": 1080495520,
+      "step": 2378,
+      "train_runtime": 168597.8644,
+      "train_tokens_per_second": 6408.714
+    },
+    {
+      "epoch": 2.880220206396201,
+      "grad_norm": 0.24105577170848846,
+      "learning_rate": 5e-06,
+      "loss": 0.9289,
+      "num_input_tokens_seen": 1080951824,
+      "step": 2379,
+      "train_runtime": 168665.4403,
+      "train_tokens_per_second": 6408.852
+    },
+    {
+      "epoch": 2.881430963213803,
+      "grad_norm": 0.2576942443847656,
+      "learning_rate": 5e-06,
+      "loss": 0.953,
+      "num_input_tokens_seen": 1081410648,
+      "step": 2380,
+      "train_runtime": 168733.6066,
+      "train_tokens_per_second": 6408.982
+    },
+    {
+      "epoch": 2.882641720031404,
+      "grad_norm": 0.2406541258096695,
+      "learning_rate": 5e-06,
+      "loss": 0.96,
+      "num_input_tokens_seen": 1081845248,
+      "step": 2381,
+      "train_runtime": 168797.6162,
+      "train_tokens_per_second": 6409.126
+    },
+    {
+      "epoch": 2.8838524768490053,
+      "grad_norm": 0.24252809584140778,
+      "learning_rate": 5e-06,
+      "loss": 0.9154,
+      "num_input_tokens_seen": 1082325608,
+      "step": 2382,
+      "train_runtime": 168868.6096,
+      "train_tokens_per_second": 6409.276
+    },
+    {
+      "epoch": 2.8850632336666067,
+      "grad_norm": 0.23159775137901306,
+      "learning_rate": 5e-06,
+      "loss": 0.9114,
+      "num_input_tokens_seen": 1082791040,
+      "step": 2383,
+      "train_runtime": 168937.7744,
+      "train_tokens_per_second": 6409.408
+    },
+    {
+      "epoch": 2.886273990484208,
+      "grad_norm": 0.22753025591373444,
+      "learning_rate": 5e-06,
+      "loss": 0.8676,
+      "num_input_tokens_seen": 1083225872,
+      "step": 2384,
+      "train_runtime": 169002.5358,
+      "train_tokens_per_second": 6409.524
+    },
+    {
+      "epoch": 2.8874847473018095,
+      "grad_norm": 0.2409481555223465,
+      "learning_rate": 5e-06,
+      "loss": 0.9381,
+      "num_input_tokens_seen": 1083672288,
+      "step": 2385,
+      "train_runtime": 169068.1993,
+      "train_tokens_per_second": 6409.675
+    },
+    {
+      "epoch": 2.888695504119411,
+      "grad_norm": 0.2493268996477127,
+      "learning_rate": 5e-06,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 1084097152,
+      "step": 2386,
+      "train_runtime": 169130.9436,
+      "train_tokens_per_second": 6409.81
+    },
+    {
+      "epoch": 2.8899062609370123,
+      "grad_norm": 0.23205333948135376,
+      "learning_rate": 5e-06,
+      "loss": 0.8994,
+      "num_input_tokens_seen": 1084576688,
+      "step": 2387,
+      "train_runtime": 169202.0957,
+      "train_tokens_per_second": 6409.948
+    },
+    {
+      "epoch": 2.8911170177546137,
+      "grad_norm": 0.2507234811782837,
+      "learning_rate": 5e-06,
+      "loss": 0.8826,
+      "num_input_tokens_seen": 1085033800,
+      "step": 2388,
+      "train_runtime": 169269.553,
+      "train_tokens_per_second": 6410.094
+    },
+    {
+      "epoch": 2.892327774572215,
+      "grad_norm": 0.23068372905254364,
+      "learning_rate": 5e-06,
+      "loss": 0.8812,
+      "num_input_tokens_seen": 1085492936,
+      "step": 2389,
+      "train_runtime": 169337.2832,
+      "train_tokens_per_second": 6410.242
+    },
+    {
+      "epoch": 2.8935385313898165,
+      "grad_norm": 0.2602866590023041,
+      "learning_rate": 5e-06,
+      "loss": 0.9405,
+      "num_input_tokens_seen": 1085947584,
+      "step": 2390,
+      "train_runtime": 169404.5365,
+      "train_tokens_per_second": 6410.381
+    },
+    {
+      "epoch": 2.894749288207418,
+      "grad_norm": 0.24214865267276764,
+      "learning_rate": 5e-06,
+      "loss": 0.9443,
+      "num_input_tokens_seen": 1086393744,
+      "step": 2391,
+      "train_runtime": 169470.7089,
+      "train_tokens_per_second": 6410.51
+    },
+    {
+      "epoch": 2.895960045025019,
+      "grad_norm": 0.24468237161636353,
+      "learning_rate": 5e-06,
+      "loss": 0.9122,
+      "num_input_tokens_seen": 1086862296,
+      "step": 2392,
+      "train_runtime": 169540.7414,
+      "train_tokens_per_second": 6410.626
+    },
+    {
+      "epoch": 2.8971708018426208,
+      "grad_norm": 0.23451176285743713,
+      "learning_rate": 5e-06,
+      "loss": 0.9174,
+      "num_input_tokens_seen": 1087323160,
+      "step": 2393,
+      "train_runtime": 169608.3951,
+      "train_tokens_per_second": 6410.786
+    },
+    {
+      "epoch": 2.8983815586602217,
+      "grad_norm": 0.2530493140220642,
+      "learning_rate": 5e-06,
+      "loss": 0.893,
+      "num_input_tokens_seen": 1087787360,
+      "step": 2394,
+      "train_runtime": 169677.6888,
+      "train_tokens_per_second": 6410.904
+    },
+    {
+      "epoch": 2.899592315477823,
+      "grad_norm": 0.24401098489761353,
+      "learning_rate": 5e-06,
+      "loss": 0.959,
+      "num_input_tokens_seen": 1088250688,
+      "step": 2395,
+      "train_runtime": 169746.5348,
+      "train_tokens_per_second": 6411.033
+    },
+    {
+      "epoch": 2.9008030722954246,
+      "grad_norm": 0.25914639234542847,
+      "learning_rate": 5e-06,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 1088720056,
+      "step": 2396,
+      "train_runtime": 169816.2236,
+      "train_tokens_per_second": 6411.166
+    },
+    {
+      "epoch": 2.902013829113026,
+      "grad_norm": 0.24759583175182343,
+      "learning_rate": 5e-06,
+      "loss": 0.9658,
+      "num_input_tokens_seen": 1089175536,
+      "step": 2397,
+      "train_runtime": 169884.2797,
+      "train_tokens_per_second": 6411.279
+    },
+    {
+      "epoch": 2.9032245859306274,
+      "grad_norm": 0.23406663537025452,
+      "learning_rate": 5e-06,
+      "loss": 0.9147,
+      "num_input_tokens_seen": 1089629544,
+      "step": 2398,
+      "train_runtime": 169951.7513,
+      "train_tokens_per_second": 6411.405
+    },
+    {
+      "epoch": 2.904435342748229,
+      "grad_norm": 0.23380409181118011,
+      "learning_rate": 5e-06,
+      "loss": 0.8736,
+      "num_input_tokens_seen": 1090090760,
+      "step": 2399,
+      "train_runtime": 170020.1649,
+      "train_tokens_per_second": 6411.538
+    },
+    {
+      "epoch": 2.90564609956583,
+      "grad_norm": 0.2372436821460724,
+      "learning_rate": 5e-06,
+      "loss": 0.9888,
+      "num_input_tokens_seen": 1090533784,
+      "step": 2400,
+      "train_runtime": 170085.5892,
+      "train_tokens_per_second": 6411.677
+    },
+    {
+      "epoch": 2.9068568563834316,
+      "grad_norm": 0.23042653501033783,
+      "learning_rate": 5e-06,
+      "loss": 0.8597,
+      "num_input_tokens_seen": 1090995800,
+      "step": 2401,
+      "train_runtime": 170153.6357,
+      "train_tokens_per_second": 6411.828
+    },
+    {
+      "epoch": 2.908067613201033,
+      "grad_norm": 0.23908060789108276,
+      "learning_rate": 5e-06,
+      "loss": 0.9105,
+      "num_input_tokens_seen": 1091454616,
+      "step": 2402,
+      "train_runtime": 170221.8303,
+      "train_tokens_per_second": 6411.954
+    },
+    {
+      "epoch": 2.9092783700186344,
+      "grad_norm": 0.2331104278564453,
+      "learning_rate": 5e-06,
+      "loss": 0.8998,
+      "num_input_tokens_seen": 1091927576,
+      "step": 2403,
+      "train_runtime": 170290.973,
+      "train_tokens_per_second": 6412.128
+    },
+    {
+      "epoch": 2.910489126836236,
+      "grad_norm": 0.24983853101730347,
+      "learning_rate": 5e-06,
+      "loss": 0.9253,
+      "num_input_tokens_seen": 1092399736,
+      "step": 2404,
+      "train_runtime": 170360.7078,
+      "train_tokens_per_second": 6412.275
+    },
+    {
+      "epoch": 2.911699883653837,
+      "grad_norm": 0.2480890452861786,
+      "learning_rate": 5e-06,
+      "loss": 0.8912,
+      "num_input_tokens_seen": 1092848752,
+      "step": 2405,
+      "train_runtime": 170427.5587,
+      "train_tokens_per_second": 6412.395
+    },
+    {
+      "epoch": 2.9129106404714387,
+      "grad_norm": 0.27480000257492065,
+      "learning_rate": 5e-06,
+      "loss": 0.9469,
+      "num_input_tokens_seen": 1093302472,
+      "step": 2406,
+      "train_runtime": 170494.7997,
+      "train_tokens_per_second": 6412.527
+    },
+    {
+      "epoch": 2.9141213972890396,
+      "grad_norm": 0.23799914121627808,
+      "learning_rate": 5e-06,
+      "loss": 0.8758,
+      "num_input_tokens_seen": 1093755192,
+      "step": 2407,
+      "train_runtime": 170561.4757,
+      "train_tokens_per_second": 6412.674
+    },
+    {
+      "epoch": 2.915332154106641,
+      "grad_norm": 0.24148832261562347,
+      "learning_rate": 5e-06,
+      "loss": 0.9984,
+      "num_input_tokens_seen": 1094210248,
+      "step": 2408,
+      "train_runtime": 170628.6094,
+      "train_tokens_per_second": 6412.818
+    },
+    {
+      "epoch": 2.9165429109242424,
+      "grad_norm": 0.2666292190551758,
+      "learning_rate": 5e-06,
+      "loss": 0.9139,
+      "num_input_tokens_seen": 1094648584,
+      "step": 2409,
+      "train_runtime": 170693.3721,
+      "train_tokens_per_second": 6412.953
+    },
+    {
+      "epoch": 2.917753667741844,
+      "grad_norm": 0.26424267888069153,
+      "learning_rate": 5e-06,
+      "loss": 0.9111,
+      "num_input_tokens_seen": 1095095048,
+      "step": 2410,
+      "train_runtime": 170759.9277,
+      "train_tokens_per_second": 6413.068
+    },
+    {
+      "epoch": 2.9189644245594453,
+      "grad_norm": 0.24830442667007446,
+      "learning_rate": 5e-06,
+      "loss": 0.9129,
+      "num_input_tokens_seen": 1095568936,
+      "step": 2411,
+      "train_runtime": 170830.0067,
+      "train_tokens_per_second": 6413.211
+    },
+    {
+      "epoch": 2.9201751813770467,
+      "grad_norm": 0.2383262813091278,
+      "learning_rate": 5e-06,
+      "loss": 0.9718,
+      "num_input_tokens_seen": 1096018672,
+      "step": 2412,
+      "train_runtime": 170896.6645,
+      "train_tokens_per_second": 6413.342
+    },
+    {
+      "epoch": 2.921385938194648,
+      "grad_norm": 0.24399027228355408,
+      "learning_rate": 5e-06,
+      "loss": 0.8699,
+      "num_input_tokens_seen": 1096467472,
+      "step": 2413,
+      "train_runtime": 170962.5005,
+      "train_tokens_per_second": 6413.497
+    },
+    {
+      "epoch": 2.9225966950122495,
+      "grad_norm": 0.25469908118247986,
+      "learning_rate": 5e-06,
+      "loss": 0.9116,
+      "num_input_tokens_seen": 1096916056,
+      "step": 2414,
+      "train_runtime": 171028.7924,
+      "train_tokens_per_second": 6413.634
+    },
+    {
+      "epoch": 2.923807451829851,
+      "grad_norm": 0.24257248640060425,
+      "learning_rate": 5e-06,
+      "loss": 0.9307,
+      "num_input_tokens_seen": 1097360792,
+      "step": 2415,
+      "train_runtime": 171094.5732,
+      "train_tokens_per_second": 6413.767
+    },
+    {
+      "epoch": 2.9250182086474523,
+      "grad_norm": 0.2582697570323944,
+      "learning_rate": 5e-06,
+      "loss": 0.9129,
+      "num_input_tokens_seen": 1097812096,
+      "step": 2416,
+      "train_runtime": 171162.4853,
+      "train_tokens_per_second": 6413.859
+    },
+    {
+      "epoch": 2.9262289654650537,
+      "grad_norm": 0.25255024433135986,
+      "learning_rate": 5e-06,
+      "loss": 0.9374,
+      "num_input_tokens_seen": 1098273232,
+      "step": 2417,
+      "train_runtime": 171231.7513,
+      "train_tokens_per_second": 6413.958
+    },
+    {
+      "epoch": 2.9274397222826547,
+      "grad_norm": 0.2257550060749054,
+      "learning_rate": 5e-06,
+      "loss": 0.8717,
+      "num_input_tokens_seen": 1098747232,
+      "step": 2418,
+      "train_runtime": 171301.7027,
+      "train_tokens_per_second": 6414.106
+    },
+    {
+      "epoch": 2.9286504791002566,
+      "grad_norm": 0.2679274380207062,
+      "learning_rate": 5e-06,
+      "loss": 0.9413,
+      "num_input_tokens_seen": 1099191672,
+      "step": 2419,
+      "train_runtime": 171368.2395,
+      "train_tokens_per_second": 6414.209
+    },
+    {
+      "epoch": 2.9298612359178575,
+      "grad_norm": 0.2332017421722412,
+      "learning_rate": 5e-06,
+      "loss": 0.8987,
+      "num_input_tokens_seen": 1099651328,
+      "step": 2420,
+      "train_runtime": 171440.7464,
+      "train_tokens_per_second": 6414.177
+    },
+    {
+      "epoch": 2.931071992735459,
+      "grad_norm": 0.24200941622257233,
+      "learning_rate": 5e-06,
+      "loss": 0.901,
+      "num_input_tokens_seen": 1100118920,
+      "step": 2421,
+      "train_runtime": 171514.9266,
+      "train_tokens_per_second": 6414.129
+    },
+    {
+      "epoch": 2.9322827495530603,
+      "grad_norm": 0.25546711683273315,
+      "learning_rate": 5e-06,
+      "loss": 0.9191,
+      "num_input_tokens_seen": 1100554296,
+      "step": 2422,
+      "train_runtime": 171583.4479,
+      "train_tokens_per_second": 6414.105
+    },
+    {
+      "epoch": 2.9334935063706618,
+      "grad_norm": 0.25552940368652344,
+      "learning_rate": 5e-06,
+      "loss": 0.8448,
+      "num_input_tokens_seen": 1101022976,
+      "step": 2423,
+      "train_runtime": 171657.7679,
+      "train_tokens_per_second": 6414.059
+    },
+    {
+      "epoch": 2.934704263188263,
+      "grad_norm": 0.23404908180236816,
+      "learning_rate": 5e-06,
+      "loss": 0.8804,
+      "num_input_tokens_seen": 1101486248,
+      "step": 2424,
+      "train_runtime": 171731.0221,
+      "train_tokens_per_second": 6414.02
+    },
+    {
+      "epoch": 2.9359150200058646,
+      "grad_norm": 0.23336048424243927,
+      "learning_rate": 5e-06,
+      "loss": 0.8998,
+      "num_input_tokens_seen": 1101941064,
+      "step": 2425,
+      "train_runtime": 171803.1314,
+      "train_tokens_per_second": 6413.975
+    },
+    {
+      "epoch": 2.937125776823466,
+      "grad_norm": 0.24817214906215668,
+      "learning_rate": 5e-06,
+      "loss": 0.9435,
+      "num_input_tokens_seen": 1102393528,
+      "step": 2426,
+      "train_runtime": 171874.1839,
+      "train_tokens_per_second": 6413.956
+    },
+    {
+      "epoch": 2.9383365336410674,
+      "grad_norm": 0.25328731536865234,
+      "learning_rate": 5e-06,
+      "loss": 0.9053,
+      "num_input_tokens_seen": 1102852280,
+      "step": 2427,
+      "train_runtime": 171946.8179,
+      "train_tokens_per_second": 6413.915
+    },
+    {
+      "epoch": 2.939547290458669,
+      "grad_norm": 0.26048070192337036,
+      "learning_rate": 5e-06,
+      "loss": 0.9076,
+      "num_input_tokens_seen": 1103317024,
+      "step": 2428,
+      "train_runtime": 172020.4148,
+      "train_tokens_per_second": 6413.873
+    },
+    {
+      "epoch": 2.94075804727627,
+      "grad_norm": 0.262016236782074,
+      "learning_rate": 5e-06,
+      "loss": 0.9485,
+      "num_input_tokens_seen": 1103764712,
+      "step": 2429,
+      "train_runtime": 172091.0589,
+      "train_tokens_per_second": 6413.841
+    },
+    {
+      "epoch": 2.9419688040938716,
+      "grad_norm": 0.26942306756973267,
+      "learning_rate": 5e-06,
+      "loss": 0.955,
+      "num_input_tokens_seen": 1104217608,
+      "step": 2430,
+      "train_runtime": 172162.6557,
+      "train_tokens_per_second": 6413.804
+    },
+    {
+      "epoch": 2.9431795609114726,
+      "grad_norm": 0.23582886159420013,
+      "learning_rate": 5e-06,
+      "loss": 0.9273,
+      "num_input_tokens_seen": 1104678152,
+      "step": 2431,
+      "train_runtime": 172234.9096,
+      "train_tokens_per_second": 6413.788
+    },
+    {
+      "epoch": 2.9443903177290744,
+      "grad_norm": 0.23661422729492188,
+      "learning_rate": 5e-06,
+      "loss": 0.8838,
+      "num_input_tokens_seen": 1105153976,
+      "step": 2432,
+      "train_runtime": 172310.273,
+      "train_tokens_per_second": 6413.744
+    },
+    {
+      "epoch": 2.9456010745466754,
+      "grad_norm": 0.2636778652667999,
+      "learning_rate": 5e-06,
+      "loss": 0.9245,
+      "num_input_tokens_seen": 1105621224,
+      "step": 2433,
+      "train_runtime": 172384.3139,
+      "train_tokens_per_second": 6413.7
+    },
+    {
+      "epoch": 2.9468118313642773,
+      "grad_norm": 0.26190289855003357,
+      "learning_rate": 5e-06,
+      "loss": 0.9535,
+      "num_input_tokens_seen": 1106056184,
+      "step": 2434,
+      "train_runtime": 172452.7145,
+      "train_tokens_per_second": 6413.678
+    },
+    {
+      "epoch": 2.9480225881818782,
+      "grad_norm": 0.23981881141662598,
+      "learning_rate": 5e-06,
+      "loss": 0.9348,
+      "num_input_tokens_seen": 1106502344,
+      "step": 2435,
+      "train_runtime": 172523.4959,
+      "train_tokens_per_second": 6413.633
+    },
+    {
+      "epoch": 2.9492333449994796,
+      "grad_norm": 0.23015964031219482,
+      "learning_rate": 5e-06,
+      "loss": 0.9253,
+      "num_input_tokens_seen": 1106974256,
+      "step": 2436,
+      "train_runtime": 172598.6333,
+      "train_tokens_per_second": 6413.575
+    },
+    {
+      "epoch": 2.950444101817081,
+      "grad_norm": 0.22270654141902924,
+      "learning_rate": 5e-06,
+      "loss": 0.88,
+      "num_input_tokens_seen": 1107434112,
+      "step": 2437,
+      "train_runtime": 172671.4841,
+      "train_tokens_per_second": 6413.532
+    },
+    {
+      "epoch": 2.9516548586346825,
+      "grad_norm": 0.23962879180908203,
+      "learning_rate": 5e-06,
+      "loss": 0.9206,
+      "num_input_tokens_seen": 1107898816,
+      "step": 2438,
+      "train_runtime": 172745.1854,
+      "train_tokens_per_second": 6413.486
+    },
+    {
+      "epoch": 2.952865615452284,
+      "grad_norm": 0.2439015656709671,
+      "learning_rate": 5e-06,
+      "loss": 0.9122,
+      "num_input_tokens_seen": 1108361840,
+      "step": 2439,
+      "train_runtime": 172818.5353,
+      "train_tokens_per_second": 6413.443
+    },
+    {
+      "epoch": 2.9540763722698853,
+      "grad_norm": 0.22247134149074554,
+      "learning_rate": 5e-06,
+      "loss": 0.8976,
+      "num_input_tokens_seen": 1108842328,
+      "step": 2440,
+      "train_runtime": 172894.6773,
+      "train_tokens_per_second": 6413.398
+    },
+    {
+      "epoch": 2.9552871290874867,
+      "grad_norm": 0.22744810581207275,
+      "learning_rate": 5e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 1109297992,
+      "step": 2441,
+      "train_runtime": 172966.821,
+      "train_tokens_per_second": 6413.357
+    },
+    {
+      "epoch": 2.956497885905088,
+      "grad_norm": 0.2583228051662445,
+      "learning_rate": 5e-06,
+      "loss": 0.9173,
+      "num_input_tokens_seen": 1109745168,
+      "step": 2442,
+      "train_runtime": 173037.3433,
+      "train_tokens_per_second": 6413.328
+    },
+    {
+      "epoch": 2.9577086427226895,
+      "grad_norm": 0.2402677983045578,
+      "learning_rate": 5e-06,
+      "loss": 0.878,
+      "num_input_tokens_seen": 1110207960,
+      "step": 2443,
+      "train_runtime": 173110.5564,
+      "train_tokens_per_second": 6413.289
+    },
+    {
+      "epoch": 2.958919399540291,
+      "grad_norm": 0.23672647774219513,
+      "learning_rate": 5e-06,
+      "loss": 0.8765,
+      "num_input_tokens_seen": 1110649312,
+      "step": 2444,
+      "train_runtime": 173180.6289,
+      "train_tokens_per_second": 6413.242
+    },
+    {
+      "epoch": 2.9601301563578923,
+      "grad_norm": 0.2683030068874359,
+      "learning_rate": 5e-06,
+      "loss": 0.9375,
+      "num_input_tokens_seen": 1111089320,
+      "step": 2445,
+      "train_runtime": 173250.1673,
+      "train_tokens_per_second": 6413.208
+    },
+    {
+      "epoch": 2.9613409131754933,
+      "grad_norm": 0.25095537304878235,
+      "learning_rate": 5e-06,
+      "loss": 0.9354,
+      "num_input_tokens_seen": 1111530136,
+      "step": 2446,
+      "train_runtime": 173320.2042,
+      "train_tokens_per_second": 6413.16
+    },
+    {
+      "epoch": 2.962551669993095,
+      "grad_norm": 0.25182783603668213,
+      "learning_rate": 5e-06,
+      "loss": 0.9433,
+      "num_input_tokens_seen": 1111995088,
+      "step": 2447,
+      "train_runtime": 173393.9827,
+      "train_tokens_per_second": 6413.112
+    },
+    {
+      "epoch": 2.963762426810696,
+      "grad_norm": 0.270939439535141,
+      "learning_rate": 5e-06,
+      "loss": 0.8994,
+      "num_input_tokens_seen": 1112439680,
+      "step": 2448,
+      "train_runtime": 173464.0985,
+      "train_tokens_per_second": 6413.083
+    },
+    {
+      "epoch": 2.9649731836282975,
+      "grad_norm": 0.25373977422714233,
+      "learning_rate": 5e-06,
+      "loss": 0.9124,
+      "num_input_tokens_seen": 1112881368,
+      "step": 2449,
+      "train_runtime": 173533.7189,
+      "train_tokens_per_second": 6413.055
+    },
+    {
+      "epoch": 2.966183940445899,
+      "grad_norm": 0.24695639312267303,
+      "learning_rate": 5e-06,
+      "loss": 0.8949,
+      "num_input_tokens_seen": 1113344440,
+      "step": 2450,
+      "train_runtime": 173606.9361,
+      "train_tokens_per_second": 6413.018
+    },
+    {
+      "epoch": 2.9673946972635004,
+      "grad_norm": 0.24027635157108307,
+      "learning_rate": 5e-06,
+      "loss": 0.9779,
+      "num_input_tokens_seen": 1113813744,
+      "step": 2451,
+      "train_runtime": 173681.1928,
+      "train_tokens_per_second": 6412.978
+    },
+    {
+      "epoch": 2.9686054540811018,
+      "grad_norm": 0.2398044615983963,
+      "learning_rate": 5e-06,
+      "loss": 0.8824,
+      "num_input_tokens_seen": 1114270416,
+      "step": 2452,
+      "train_runtime": 173753.6,
+      "train_tokens_per_second": 6412.934
+    },
+    {
+      "epoch": 2.969816210898703,
+      "grad_norm": 0.27489855885505676,
+      "learning_rate": 5e-06,
+      "loss": 0.8882,
+      "num_input_tokens_seen": 1114724384,
+      "step": 2453,
+      "train_runtime": 173825.6733,
+      "train_tokens_per_second": 6412.887
+    },
+    {
+      "epoch": 2.9710269677163046,
+      "grad_norm": 0.26074662804603577,
+      "learning_rate": 5e-06,
+      "loss": 0.9524,
+      "num_input_tokens_seen": 1115177168,
+      "step": 2454,
+      "train_runtime": 173897.6763,
+      "train_tokens_per_second": 6412.835
+    },
+    {
+      "epoch": 2.972237724533906,
+      "grad_norm": 0.24579590559005737,
+      "learning_rate": 5e-06,
+      "loss": 0.9598,
+      "num_input_tokens_seen": 1115634232,
+      "step": 2455,
+      "train_runtime": 173970.4648,
+      "train_tokens_per_second": 6412.78
+    },
+    {
+      "epoch": 2.9734484813515074,
+      "grad_norm": 0.22661468386650085,
+      "learning_rate": 5e-06,
+      "loss": 0.8578,
+      "num_input_tokens_seen": 1116124864,
+      "step": 2456,
+      "train_runtime": 174048.669,
+      "train_tokens_per_second": 6412.717
+    },
+    {
+      "epoch": 2.974659238169109,
+      "grad_norm": 0.26638656854629517,
+      "learning_rate": 5e-06,
+      "loss": 0.9083,
+      "num_input_tokens_seen": 1116575904,
+      "step": 2457,
+      "train_runtime": 174120.1916,
+      "train_tokens_per_second": 6412.673
+    },
+    {
+      "epoch": 2.9758699949867102,
+      "grad_norm": 0.2577857971191406,
+      "learning_rate": 5e-06,
+      "loss": 0.8847,
+      "num_input_tokens_seen": 1117030408,
+      "step": 2458,
+      "train_runtime": 174191.0573,
+      "train_tokens_per_second": 6412.674
+    },
+    {
+      "epoch": 2.977080751804311,
+      "grad_norm": 0.23168501257896423,
+      "learning_rate": 5e-06,
+      "loss": 0.9056,
+      "num_input_tokens_seen": 1117520192,
+      "step": 2459,
+      "train_runtime": 174267.8102,
+      "train_tokens_per_second": 6412.66
+    },
+    {
+      "epoch": 2.978291508621913,
+      "grad_norm": 0.25029903650283813,
+      "learning_rate": 5e-06,
+      "loss": 0.9101,
+      "num_input_tokens_seen": 1117976192,
+      "step": 2460,
+      "train_runtime": 174339.6479,
+      "train_tokens_per_second": 6412.633
+    },
+    {
+      "epoch": 2.979502265439514,
+      "grad_norm": 0.23616862297058105,
+      "learning_rate": 5e-06,
+      "loss": 0.9479,
+      "num_input_tokens_seen": 1118420800,
+      "step": 2461,
+      "train_runtime": 174409.7079,
+      "train_tokens_per_second": 6412.606
+    },
+    {
+      "epoch": 2.9807130222571154,
+      "grad_norm": 0.24392381310462952,
+      "learning_rate": 5e-06,
+      "loss": 0.9767,
+      "num_input_tokens_seen": 1118884408,
+      "step": 2462,
+      "train_runtime": 174483.4587,
+      "train_tokens_per_second": 6412.553
+    },
+    {
+      "epoch": 2.981923779074717,
+      "grad_norm": 0.23490194976329803,
+      "learning_rate": 5e-06,
+      "loss": 0.8814,
+      "num_input_tokens_seen": 1119381392,
+      "step": 2463,
+      "train_runtime": 174562.9683,
+      "train_tokens_per_second": 6412.479
+    },
+    {
+      "epoch": 2.9831345358923183,
+      "grad_norm": 0.2503698170185089,
+      "learning_rate": 5e-06,
+      "loss": 0.9589,
+      "num_input_tokens_seen": 1119802384,
+      "step": 2464,
+      "train_runtime": 174629.2291,
+      "train_tokens_per_second": 6412.457
+    },
+    {
+      "epoch": 2.9843452927099197,
+      "grad_norm": 0.2408633977174759,
+      "learning_rate": 5e-06,
+      "loss": 0.967,
+      "num_input_tokens_seen": 1120232368,
+      "step": 2465,
+      "train_runtime": 174696.7418,
+      "train_tokens_per_second": 6412.44
+    },
+    {
+      "epoch": 2.985556049527521,
+      "grad_norm": 0.23038393259048462,
+      "learning_rate": 5e-06,
+      "loss": 0.8323,
+      "num_input_tokens_seen": 1120694192,
+      "step": 2466,
+      "train_runtime": 174769.9103,
+      "train_tokens_per_second": 6412.398
+    },
+    {
+      "epoch": 2.9867668063451225,
+      "grad_norm": 0.23888365924358368,
+      "learning_rate": 5e-06,
+      "loss": 0.9043,
+      "num_input_tokens_seen": 1121142168,
+      "step": 2467,
+      "train_runtime": 174840.0255,
+      "train_tokens_per_second": 6412.388
+    },
+    {
+      "epoch": 2.987977563162724,
+      "grad_norm": 0.2362690418958664,
+      "learning_rate": 5e-06,
+      "loss": 0.9153,
+      "num_input_tokens_seen": 1121609584,
+      "step": 2468,
+      "train_runtime": 174913.8632,
+      "train_tokens_per_second": 6412.354
+    },
+    {
+      "epoch": 2.9891883199803253,
+      "grad_norm": 0.2894575595855713,
+      "learning_rate": 5e-06,
+      "loss": 0.939,
+      "num_input_tokens_seen": 1122044904,
+      "step": 2469,
+      "train_runtime": 174982.5392,
+      "train_tokens_per_second": 6412.325
+    },
+    {
+      "epoch": 2.9903990767979267,
+      "grad_norm": 0.24327421188354492,
+      "learning_rate": 5e-06,
+      "loss": 0.8949,
+      "num_input_tokens_seen": 1122496600,
+      "step": 2470,
+      "train_runtime": 175053.549,
+      "train_tokens_per_second": 6412.304
+    },
+    {
+      "epoch": 2.991609833615528,
+      "grad_norm": 0.2470681220293045,
+      "learning_rate": 5e-06,
+      "loss": 0.8861,
+      "num_input_tokens_seen": 1122965344,
+      "step": 2471,
+      "train_runtime": 175127.8031,
+      "train_tokens_per_second": 6412.262
+    },
+    {
+      "epoch": 2.992820590433129,
+      "grad_norm": 0.2589993476867676,
+      "learning_rate": 5e-06,
+      "loss": 0.8901,
+      "num_input_tokens_seen": 1123437960,
+      "step": 2472,
+      "train_runtime": 175202.8631,
+      "train_tokens_per_second": 6412.212
+    },
+    {
+      "epoch": 2.994031347250731,
+      "grad_norm": 0.2532251179218292,
+      "learning_rate": 5e-06,
+      "loss": 0.902,
+      "num_input_tokens_seen": 1123894464,
+      "step": 2473,
+      "train_runtime": 175275.4878,
+      "train_tokens_per_second": 6412.16
+    },
+    {
+      "epoch": 2.995242104068332,
+      "grad_norm": 0.23978720605373383,
+      "learning_rate": 5e-06,
+      "loss": 0.892,
+      "num_input_tokens_seen": 1124361120,
+      "step": 2474,
+      "train_runtime": 175348.7702,
+      "train_tokens_per_second": 6412.141
+    },
+    {
+      "epoch": 2.9964528608859333,
+      "grad_norm": 0.24950125813484192,
+      "learning_rate": 5e-06,
+      "loss": 0.918,
+      "num_input_tokens_seen": 1124811584,
+      "step": 2475,
+      "train_runtime": 175417.2461,
+      "train_tokens_per_second": 6412.206
+    },
+    {
+      "epoch": 2.9976636177035347,
+      "grad_norm": 0.2536337971687317,
+      "learning_rate": 5e-06,
+      "loss": 0.9361,
+      "num_input_tokens_seen": 1125259760,
+      "step": 2476,
+      "train_runtime": 175487.7712,
+      "train_tokens_per_second": 6412.183
+    },
+    {
+      "epoch": 2.998874374521136,
+      "grad_norm": 0.23223650455474854,
+      "learning_rate": 5e-06,
+      "loss": 0.8352,
+      "num_input_tokens_seen": 1125711656,
+      "step": 2477,
+      "train_runtime": 175556.6609,
+      "train_tokens_per_second": 6412.241
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.25418493151664734,
+      "learning_rate": 5e-06,
+      "loss": 0.9392,
+      "num_input_tokens_seen": 1126151688,
+      "step": 2478,
+      "train_runtime": 175624.5645,
+      "train_tokens_per_second": 6412.268
+    },
+    {
+      "epoch": 3.0,
+      "num_input_tokens_seen": 1126151688,
+      "step": 2478,
+      "total_flos": 2.4182853777648783e+18,
+      "train_loss": 0.9592450147342836,
+      "train_runtime": 175626.0126,
+      "train_samples_per_second": 3.612,
+      "train_steps_per_second": 0.014
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2478,
+  "num_input_tokens_seen": 1126151688,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.4182853777648783e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}