{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 300,
  "global_step": 21160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004725897920604915,
      "grad_norm": 2.6531940365245514,
      "learning_rate": 0.0001999889787603642,
      "loss": 4.0021,
      "step": 100
    },
    {
      "epoch": 0.00945179584120983,
      "grad_norm": 1.8468496440092184,
      "learning_rate": 0.00019995591747081122,
      "loss": 2.3469,
      "step": 200
    },
    {
      "epoch": 0.014177693761814745,
      "grad_norm": 2.020813349289251,
      "learning_rate": 0.00019990082341886893,
      "loss": 2.0452,
      "step": 300
    },
    {
      "epoch": 0.014177693761814745,
      "eval_loss": 1.8925005197525024,
      "eval_runtime": 5.481,
      "eval_samples_per_second": 75.717,
      "eval_steps_per_second": 3.831,
      "step": 300
    },
    {
      "epoch": 0.01890359168241966,
      "grad_norm": 1.2563921162910447,
      "learning_rate": 0.00019982370874863236,
      "loss": 1.8059,
      "step": 400
    },
    {
      "epoch": 0.023629489603024575,
      "grad_norm": 0.8312915105679309,
      "learning_rate": 0.00019972459045808672,
      "loss": 1.6709,
      "step": 500
    },
    {
      "epoch": 0.02835538752362949,
      "grad_norm": 0.8129560611164286,
      "learning_rate": 0.00019960349039536062,
      "loss": 1.5706,
      "step": 600
    },
    {
      "epoch": 0.02835538752362949,
      "eval_loss": 1.5036791563034058,
      "eval_runtime": 5.202,
      "eval_samples_per_second": 79.777,
      "eval_steps_per_second": 4.037,
      "step": 600
    },
    {
      "epoch": 0.0330812854442344,
      "grad_norm": 0.8612422660201489,
      "learning_rate": 0.00019946043525391027,
      "loss": 1.4998,
      "step": 700
    },
    {
      "epoch": 0.03780718336483932,
      "grad_norm": 0.695233402859304,
      "learning_rate": 0.00019929545656663562,
      "loss": 1.4536,
      "step": 800
    },
    {
      "epoch": 0.04253308128544423,
      "grad_norm": 0.5635887483204054,
      "learning_rate": 0.0001991085906989296,
      "loss": 1.4189,
      "step": 900
    },
    {
      "epoch": 0.04253308128544423,
      "eval_loss": 1.3953526020050049,
      "eval_runtime": 5.1848,
      "eval_samples_per_second": 80.042,
      "eval_steps_per_second": 4.05,
      "step": 900
    },
    {
      "epoch": 0.04725897920604915,
      "grad_norm": 0.6884010711536315,
      "learning_rate": 0.00019889987884066237,
      "loss": 1.409,
      "step": 1000
    },
    {
      "epoch": 0.05198487712665406,
      "grad_norm": 0.5763429947147058,
      "learning_rate": 0.00019866936699710198,
      "loss": 1.382,
      "step": 1100
    },
    {
      "epoch": 0.05671077504725898,
      "grad_norm": 0.6029165262178462,
      "learning_rate": 0.00019841710597877382,
      "loss": 1.3618,
      "step": 1200
    },
    {
      "epoch": 0.05671077504725898,
      "eval_loss": 1.2691556215286255,
      "eval_runtime": 5.1873,
      "eval_samples_per_second": 80.002,
      "eval_steps_per_second": 4.048,
      "step": 1200
    },
    {
      "epoch": 0.06143667296786389,
      "grad_norm": 0.6708186101812629,
      "learning_rate": 0.00019814315139026053,
      "loss": 1.3234,
      "step": 1300
    },
    {
      "epoch": 0.0661625708884688,
      "grad_norm": 0.5192883759035518,
      "learning_rate": 0.00019784756361794555,
      "loss": 1.3112,
      "step": 1400
    },
    {
      "epoch": 0.07088846880907372,
      "grad_norm": 0.4576161281424316,
      "learning_rate": 0.00019753040781670224,
      "loss": 1.2915,
      "step": 1500
    },
    {
      "epoch": 0.07088846880907372,
      "eval_loss": 1.1815497875213623,
      "eval_runtime": 5.1859,
      "eval_samples_per_second": 80.025,
      "eval_steps_per_second": 4.049,
      "step": 1500
    },
    {
      "epoch": 0.07561436672967864,
      "grad_norm": 0.5510812189896114,
      "learning_rate": 0.00019719175389553242,
      "loss": 1.2739,
      "step": 1600
    },
    {
      "epoch": 0.08034026465028356,
      "grad_norm": 0.5899918319123949,
      "learning_rate": 0.00019683167650215642,
      "loss": 1.2617,
      "step": 1700
    },
    {
      "epoch": 0.08506616257088846,
      "grad_norm": 0.42939528650931935,
      "learning_rate": 0.00019645025500655906,
      "loss": 1.2607,
      "step": 1800
    },
    {
      "epoch": 0.08506616257088846,
      "eval_loss": 1.10903000831604,
      "eval_runtime": 5.2115,
      "eval_samples_per_second": 79.631,
      "eval_steps_per_second": 4.03,
      "step": 1800
    },
    {
      "epoch": 0.08979206049149338,
      "grad_norm": 0.508789955425928,
      "learning_rate": 0.00019604757348349447,
      "loss": 1.2276,
      "step": 1900
    },
    {
      "epoch": 0.0945179584120983,
      "grad_norm": 0.4257274370286851,
      "learning_rate": 0.00019562372069395384,
      "loss": 1.2189,
      "step": 2000
    },
    {
      "epoch": 0.09924385633270322,
      "grad_norm": 0.6417008198357919,
      "learning_rate": 0.0001951787900656005,
      "loss": 1.2192,
      "step": 2100
    },
    {
      "epoch": 0.09924385633270322,
      "eval_loss": 1.0954564809799194,
      "eval_runtime": 5.2097,
      "eval_samples_per_second": 79.66,
      "eval_steps_per_second": 4.031,
      "step": 2100
    },
    {
      "epoch": 0.10396975425330812,
      "grad_norm": 0.3759012332224868,
      "learning_rate": 0.00019471287967217594,
      "loss": 1.2272,
      "step": 2200
    },
    {
      "epoch": 0.10869565217391304,
      "grad_norm": 0.5260238110195213,
      "learning_rate": 0.00019422609221188207,
      "loss": 1.2101,
      "step": 2300
    },
    {
      "epoch": 0.11342155009451796,
      "grad_norm": 0.4348649359952213,
      "learning_rate": 0.0001937185349847439,
      "loss": 1.1893,
      "step": 2400
    },
    {
      "epoch": 0.11342155009451796,
      "eval_loss": 1.0621371269226074,
      "eval_runtime": 5.2508,
      "eval_samples_per_second": 79.036,
      "eval_steps_per_second": 3.999,
      "step": 2400
    },
    {
      "epoch": 0.11814744801512288,
      "grad_norm": 0.38742811944800437,
      "learning_rate": 0.00019319031986895807,
      "loss": 1.1921,
      "step": 2500
    },
    {
      "epoch": 0.12287334593572778,
      "grad_norm": 0.5195602808144861,
      "learning_rate": 0.00019264156329623197,
      "loss": 1.1806,
      "step": 2600
    },
    {
      "epoch": 0.1275992438563327,
      "grad_norm": 0.45641434721553403,
      "learning_rate": 0.00019207238622611936,
      "loss": 1.1902,
      "step": 2700
    },
    {
      "epoch": 0.1275992438563327,
      "eval_loss": 1.0587011575698853,
      "eval_runtime": 7.8145,
      "eval_samples_per_second": 53.107,
      "eval_steps_per_second": 2.687,
      "step": 2700
    },
    {
      "epoch": 0.1323251417769376,
      "grad_norm": 0.4428344921300073,
      "learning_rate": 0.00019148291411935796,
      "loss": 1.1764,
      "step": 2800
    },
    {
      "epoch": 0.13705103969754254,
      "grad_norm": 0.7533101325947344,
      "learning_rate": 0.00019087327691021472,
      "loss": 1.169,
      "step": 2900
    },
    {
      "epoch": 0.14177693761814744,
      "grad_norm": 0.39224873221985657,
      "learning_rate": 0.00019024360897784508,
      "loss": 1.1692,
      "step": 3000
    },
    {
      "epoch": 0.14177693761814744,
      "eval_loss": 1.027273416519165,
      "eval_runtime": 5.2079,
      "eval_samples_per_second": 79.686,
      "eval_steps_per_second": 4.032,
      "step": 3000
    },
    {
      "epoch": 0.14650283553875237,
      "grad_norm": 0.4338112970906164,
      "learning_rate": 0.00018959404911667252,
      "loss": 1.1689,
      "step": 3100
    },
    {
      "epoch": 0.15122873345935728,
      "grad_norm": 0.39383682502704437,
      "learning_rate": 0.0001889247405057948,
      "loss": 1.1631,
      "step": 3200
    },
    {
      "epoch": 0.15595463137996218,
      "grad_norm": 0.38979347330040026,
      "learning_rate": 0.0001882358306774237,
      "loss": 1.1625,
      "step": 3300
    },
    {
      "epoch": 0.15595463137996218,
      "eval_loss": 1.0129389762878418,
      "eval_runtime": 5.2231,
      "eval_samples_per_second": 79.454,
      "eval_steps_per_second": 4.021,
      "step": 3300
    },
    {
      "epoch": 0.16068052930056712,
      "grad_norm": 0.35777900887774455,
      "learning_rate": 0.00018752747148436543,
      "loss": 1.1589,
      "step": 3400
    },
    {
      "epoch": 0.16540642722117202,
      "grad_norm": 0.45954014358662065,
      "learning_rate": 0.00018679981906654823,
      "loss": 1.1411,
      "step": 3500
    },
    {
      "epoch": 0.17013232514177692,
      "grad_norm": 0.34494886514352496,
      "learning_rate": 0.00018605303381660543,
      "loss": 1.1401,
      "step": 3600
    },
    {
      "epoch": 0.17013232514177692,
      "eval_loss": 1.0022536516189575,
      "eval_runtime": 5.251,
      "eval_samples_per_second": 79.032,
      "eval_steps_per_second": 3.999,
      "step": 3600
    },
    {
      "epoch": 0.17485822306238186,
      "grad_norm": 0.36070737242493944,
      "learning_rate": 0.00018528728034452102,
      "loss": 1.1328,
      "step": 3700
    },
    {
      "epoch": 0.17958412098298676,
      "grad_norm": 0.38075438227938496,
      "learning_rate": 0.00018450272744134532,
      "loss": 1.1322,
      "step": 3800
    },
    {
      "epoch": 0.1843100189035917,
      "grad_norm": 0.3045755124209396,
      "learning_rate": 0.0001836995480419894,
      "loss": 1.1225,
      "step": 3900
    },
    {
      "epoch": 0.1843100189035917,
      "eval_loss": 0.9917121529579163,
      "eval_runtime": 5.2189,
      "eval_samples_per_second": 79.519,
      "eval_steps_per_second": 4.024,
      "step": 3900
    },
    {
      "epoch": 0.1890359168241966,
      "grad_norm": 0.3355857365601763,
      "learning_rate": 0.00018287791918710587,
      "loss": 1.1436,
      "step": 4000
    },
    {
      "epoch": 0.1937618147448015,
      "grad_norm": 0.3291517054836814,
      "learning_rate": 0.00018203802198406478,
      "loss": 1.1356,
      "step": 4100
    },
    {
      "epoch": 0.19848771266540643,
      "grad_norm": 0.34097720017987254,
      "learning_rate": 0.00018118004156703296,
      "loss": 1.1178,
      "step": 4200
    },
    {
      "epoch": 0.19848771266540643,
      "eval_loss": 0.975567102432251,
      "eval_runtime": 5.26,
      "eval_samples_per_second": 78.897,
      "eval_steps_per_second": 3.992,
      "step": 4200
    },
    {
      "epoch": 0.20321361058601134,
      "grad_norm": 0.3931138858913563,
      "learning_rate": 0.00018030416705616602,
      "loss": 1.1106,
      "step": 4300
    },
    {
      "epoch": 0.20793950850661624,
      "grad_norm": 0.31930492232829666,
      "learning_rate": 0.00017941059151592147,
      "loss": 1.1148,
      "step": 4400
    },
    {
      "epoch": 0.21266540642722118,
      "grad_norm": 0.35451850597759177,
      "learning_rate": 0.00017849951191250255,
      "loss": 1.1119,
      "step": 4500
    },
    {
      "epoch": 0.21266540642722118,
      "eval_loss": 1.0053483247756958,
      "eval_runtime": 5.2606,
      "eval_samples_per_second": 78.888,
      "eval_steps_per_second": 3.992,
      "step": 4500
    },
    {
      "epoch": 0.21739130434782608,
      "grad_norm": 1.729695480261338,
      "learning_rate": 0.000177571129070442,
      "loss": 2.8502,
      "step": 4600
    },
    {
      "epoch": 0.222117202268431,
      "grad_norm": 0.3889359878955159,
      "learning_rate": 0.0001766256476283353,
      "loss": 1.432,
      "step": 4700
    },
    {
      "epoch": 0.22684310018903592,
      "grad_norm": 0.33225367698457886,
      "learning_rate": 0.00017566327599373338,
      "loss": 1.1015,
      "step": 4800
    },
    {
      "epoch": 0.22684310018903592,
      "eval_loss": 0.9650746583938599,
      "eval_runtime": 5.2328,
      "eval_samples_per_second": 79.307,
      "eval_steps_per_second": 4.013,
      "step": 4800
    },
    {
      "epoch": 0.23156899810964082,
      "grad_norm": 0.30130743666113563,
      "learning_rate": 0.0001746842262972043,
      "loss": 1.0999,
      "step": 4900
    },
    {
      "epoch": 0.23629489603024575,
      "grad_norm": 0.30899211203535526,
      "learning_rate": 0.00017368871434557447,
      "loss": 1.103,
      "step": 5000
    },
    {
      "epoch": 0.24102079395085066,
      "grad_norm": 0.29216937102712714,
      "learning_rate": 0.00017267695957435945,
      "loss": 1.1142,
      "step": 5100
    },
    {
      "epoch": 0.24102079395085066,
      "eval_loss": 0.9577646851539612,
      "eval_runtime": 5.2388,
      "eval_samples_per_second": 79.216,
      "eval_steps_per_second": 4.009,
      "step": 5100
    },
    {
      "epoch": 0.24574669187145556,
      "grad_norm": 0.3238385499792752,
      "learning_rate": 0.00017164918499939504,
      "loss": 1.0945,
      "step": 5200
    },
    {
      "epoch": 0.2504725897920605,
      "grad_norm": 0.3001667683763501,
      "learning_rate": 0.00017060561716767883,
      "loss": 1.0998,
      "step": 5300
    },
    {
      "epoch": 0.2551984877126654,
      "grad_norm": 0.3172907389612034,
      "learning_rate": 0.00016954648610743384,
      "loss": 1.0985,
      "step": 5400
    },
    {
      "epoch": 0.2551984877126654,
      "eval_loss": 0.9488331079483032,
      "eval_runtime": 5.2053,
      "eval_samples_per_second": 79.726,
      "eval_steps_per_second": 4.034,
      "step": 5400
    },
    {
      "epoch": 0.2599243856332703,
      "grad_norm": 0.3126246763797197,
      "learning_rate": 0.00016847202527740443,
      "loss": 1.0862,
      "step": 5500
    },
    {
      "epoch": 0.2646502835538752,
      "grad_norm": 0.3656784929029524,
      "learning_rate": 0.00016738247151539643,
      "loss": 1.1074,
      "step": 5600
    },
    {
      "epoch": 0.26937618147448017,
      "grad_norm": 0.28837893106504947,
      "learning_rate": 0.0001662780649860719,
      "loss": 1.0832,
      "step": 5700
    },
    {
      "epoch": 0.26937618147448017,
      "eval_loss": 0.9372844099998474,
      "eval_runtime": 5.2075,
      "eval_samples_per_second": 79.693,
      "eval_steps_per_second": 4.033,
      "step": 5700
    },
    {
      "epoch": 0.2741020793950851,
      "grad_norm": 0.30748002033313665,
      "learning_rate": 0.00016515904912801118,
      "loss": 1.0999,
      "step": 5800
    },
    {
      "epoch": 0.27882797731569,
      "grad_norm": 0.2874899164304016,
      "learning_rate": 0.00016402567060005283,
      "loss": 1.0828,
      "step": 5900
    },
    {
      "epoch": 0.2835538752362949,
      "grad_norm": 0.33110349066422323,
      "learning_rate": 0.00016287817922692395,
      "loss": 1.0779,
      "step": 6000
    },
    {
      "epoch": 0.2835538752362949,
      "eval_loss": 0.932012140750885,
      "eval_runtime": 5.2381,
      "eval_samples_per_second": 79.227,
      "eval_steps_per_second": 4.009,
      "step": 6000
    },
    {
      "epoch": 0.2882797731568998,
      "grad_norm": 0.294275463342433,
      "learning_rate": 0.00016171682794417257,
      "loss": 1.0903,
      "step": 6100
    },
    {
      "epoch": 0.29300567107750475,
      "grad_norm": 0.36996690057802206,
      "learning_rate": 0.0001605418727424145,
      "loss": 1.0842,
      "step": 6200
    },
    {
      "epoch": 0.29773156899810965,
      "grad_norm": 0.2724699437979514,
      "learning_rate": 0.00015935357261090652,
      "loss": 1.079,
      "step": 6300
    },
    {
      "epoch": 0.29773156899810965,
      "eval_loss": 0.9178703427314758,
      "eval_runtime": 5.2652,
      "eval_samples_per_second": 78.819,
      "eval_steps_per_second": 3.988,
      "step": 6300
    },
    {
      "epoch": 0.30245746691871456,
      "grad_norm": 0.2891830821110885,
      "learning_rate": 0.00015815218948045878,
      "loss": 1.0734,
      "step": 6400
    },
    {
      "epoch": 0.30718336483931946,
      "grad_norm": 0.24982988659992944,
      "learning_rate": 0.00015693798816569885,
      "loss": 1.0649,
      "step": 6500
    },
    {
      "epoch": 0.31190926275992437,
      "grad_norm": 0.2568972740115008,
      "learning_rate": 0.0001557112363066998,
      "loss": 1.0573,
      "step": 6600
    },
    {
      "epoch": 0.31190926275992437,
      "eval_loss": 0.9198368191719055,
      "eval_runtime": 5.2276,
      "eval_samples_per_second": 79.386,
      "eval_steps_per_second": 4.017,
      "step": 6600
    },
    {
      "epoch": 0.3166351606805293,
      "grad_norm": 0.29091825253619064,
      "learning_rate": 0.00015447220430998582,
      "loss": 1.085,
      "step": 6700
    },
    {
      "epoch": 0.32136105860113423,
      "grad_norm": 0.29225096960229624,
      "learning_rate": 0.00015322116528892807,
      "loss": 1.0609,
      "step": 6800
    },
    {
      "epoch": 0.32608695652173914,
      "grad_norm": 0.311594279061454,
      "learning_rate": 0.00015195839500354335,
      "loss": 1.0594,
      "step": 6900
    },
    {
      "epoch": 0.32608695652173914,
      "eval_loss": 0.9203236699104309,
      "eval_runtime": 5.2426,
      "eval_samples_per_second": 79.16,
      "eval_steps_per_second": 4.006,
      "step": 6900
    },
    {
      "epoch": 0.33081285444234404,
      "grad_norm": 0.5176311453672888,
      "learning_rate": 0.00015068417179971014,
      "loss": 1.0729,
      "step": 7000
    },
    {
      "epoch": 0.33553875236294894,
      "grad_norm": 0.28252873243710874,
      "learning_rate": 0.00014939877654781395,
      "loss": 1.081,
      "step": 7100
    },
    {
      "epoch": 0.34026465028355385,
      "grad_norm": 0.31787595640980193,
      "learning_rate": 0.00014810249258083677,
      "loss": 1.0717,
      "step": 7200
    },
    {
      "epoch": 0.34026465028355385,
      "eval_loss": 0.9039013981819153,
      "eval_runtime": 5.2593,
      "eval_samples_per_second": 78.908,
      "eval_steps_per_second": 3.993,
      "step": 7200
    },
    {
      "epoch": 0.3449905482041588,
      "grad_norm": 0.2748908881405949,
      "learning_rate": 0.00014679560563190332,
      "loss": 1.0609,
      "step": 7300
    },
    {
      "epoch": 0.3497164461247637,
      "grad_norm": 0.3125203929787377,
      "learning_rate": 0.00014547840377129842,
      "loss": 1.0552,
      "step": 7400
    },
    {
      "epoch": 0.3544423440453686,
      "grad_norm": 0.4133883061855867,
      "learning_rate": 0.00014415117734296916,
      "loss": 1.061,
      "step": 7500
    },
    {
      "epoch": 0.3544423440453686,
      "eval_loss": 0.8995205163955688,
      "eval_runtime": 5.2251,
      "eval_samples_per_second": 79.424,
      "eval_steps_per_second": 4.019,
      "step": 7500
    },
    {
      "epoch": 0.3591682419659735,
      "grad_norm": 0.2645834917560888,
      "learning_rate": 0.0001428142189005259,
      "loss": 1.0523,
      "step": 7600
    },
    {
      "epoch": 0.3638941398865784,
      "grad_norm": 0.43674521926929427,
      "learning_rate": 0.0001414678231427562,
      "loss": 1.051,
      "step": 7700
    },
    {
      "epoch": 0.3686200378071834,
      "grad_norm": 0.2975803374511188,
      "learning_rate": 0.00014011228684866582,
      "loss": 1.0516,
      "step": 7800
    },
    {
      "epoch": 0.3686200378071834,
      "eval_loss": 0.8893873691558838,
      "eval_runtime": 5.2209,
      "eval_samples_per_second": 79.488,
      "eval_steps_per_second": 4.022,
      "step": 7800
    },
    {
      "epoch": 0.3733459357277883,
      "grad_norm": 0.25801366812079984,
      "learning_rate": 0.00013874790881206146,
      "loss": 1.0332,
      "step": 7900
    },
    {
      "epoch": 0.3780718336483932,
      "grad_norm": 0.27388985128284893,
      "learning_rate": 0.000137374989775689,
      "loss": 1.0409,
      "step": 8000
    },
    {
      "epoch": 0.3827977315689981,
      "grad_norm": 0.2977365916589529,
      "learning_rate": 0.00013599383236494248,
      "loss": 1.0455,
      "step": 8100
    },
    {
      "epoch": 0.3827977315689981,
      "eval_loss": 0.884984016418457,
      "eval_runtime": 5.1923,
      "eval_samples_per_second": 79.926,
      "eval_steps_per_second": 4.044,
      "step": 8100
    },
    {
      "epoch": 0.387523629489603,
      "grad_norm": 0.30299461347087553,
      "learning_rate": 0.00013460474102115785,
      "loss": 1.0338,
      "step": 8200
    },
    {
      "epoch": 0.39224952741020797,
      "grad_norm": 0.3249509218094752,
      "learning_rate": 0.00013320802193450662,
      "loss": 1.0535,
      "step": 8300
    },
    {
      "epoch": 0.39697542533081287,
      "grad_norm": 0.43141764888355383,
      "learning_rate": 0.00013180398297650393,
      "loss": 1.0481,
      "step": 8400
    },
    {
      "epoch": 0.39697542533081287,
      "eval_loss": 0.8851591944694519,
      "eval_runtime": 5.1825,
      "eval_samples_per_second": 80.077,
      "eval_steps_per_second": 4.052,
      "step": 8400
    },
    {
      "epoch": 0.4017013232514178,
      "grad_norm": 0.3383716797214537,
      "learning_rate": 0.0001303929336321461,
      "loss": 1.0456,
      "step": 8500
    },
    {
      "epoch": 0.4064272211720227,
      "grad_norm": 0.3313965305574248,
      "learning_rate": 0.0001289751849316924,
      "loss": 1.0454,
      "step": 8600
    },
    {
      "epoch": 0.4111531190926276,
      "grad_norm": 0.2873865099421956,
      "learning_rate": 0.0001275510493821062,
      "loss": 1.0325,
      "step": 8700
    },
    {
      "epoch": 0.4111531190926276,
      "eval_loss": 0.8757073283195496,
      "eval_runtime": 5.2011,
      "eval_samples_per_second": 79.791,
      "eval_steps_per_second": 4.038,
      "step": 8700
    },
    {
      "epoch": 0.4158790170132325,
      "grad_norm": 0.25123513069157694,
      "learning_rate": 0.0001261208408981708,
      "loss": 1.0381,
      "step": 8800
    },
    {
      "epoch": 0.42060491493383745,
      "grad_norm": 0.3890343278493704,
      "learning_rate": 0.00012468487473329485,
      "loss": 1.0406,
      "step": 8900
    },
    {
      "epoch": 0.42533081285444235,
      "grad_norm": 0.2722692609230761,
      "learning_rate": 0.0001232434674100226,
      "loss": 1.0353,
      "step": 9000
    },
    {
      "epoch": 0.42533081285444235,
      "eval_loss": 0.8738681077957153,
      "eval_runtime": 5.2524,
      "eval_samples_per_second": 79.011,
      "eval_steps_per_second": 3.998,
      "step": 9000
    },
    {
      "epoch": 0.43005671077504726,
      "grad_norm": 0.32764958069862743,
      "learning_rate": 0.00012179693665026448,
      "loss": 1.0282,
      "step": 9100
    },
    {
      "epoch": 0.43478260869565216,
      "grad_norm": 0.3152329877955543,
      "learning_rate": 0.0001203456013052634,
      "loss": 1.0297,
      "step": 9200
    },
    {
      "epoch": 0.43950850661625707,
      "grad_norm": 0.2822447390885084,
      "learning_rate": 0.0001188897812853119,
      "loss": 1.0241,
      "step": 9300
    },
    {
      "epoch": 0.43950850661625707,
      "eval_loss": 0.8668489456176758,
      "eval_runtime": 5.2178,
      "eval_samples_per_second": 79.536,
      "eval_steps_per_second": 4.025,
      "step": 9300
    },
    {
      "epoch": 0.444234404536862,
      "grad_norm": 0.2342101057101333,
      "learning_rate": 0.00011742979748923611,
      "loss": 1.0214,
      "step": 9400
    },
    {
      "epoch": 0.44896030245746693,
      "grad_norm": 0.2793266628696714,
      "learning_rate": 0.00011596597173366168,
      "loss": 1.0301,
      "step": 9500
    },
    {
      "epoch": 0.45368620037807184,
      "grad_norm": 0.24486092989303898,
      "learning_rate": 0.00011449862668207734,
      "loss": 1.0222,
      "step": 9600
    },
    {
      "epoch": 0.45368620037807184,
      "eval_loss": 0.8624320030212402,
      "eval_runtime": 5.2399,
      "eval_samples_per_second": 79.199,
      "eval_steps_per_second": 4.008,
      "step": 9600
    },
    {
      "epoch": 0.45841209829867674,
      "grad_norm": 0.36863921402437216,
      "learning_rate": 0.00011302808577371196,
      "loss": 1.0166,
      "step": 9700
    },
    {
      "epoch": 0.46313799621928164,
      "grad_norm": 0.2718322585187314,
      "learning_rate": 0.00011155467315224038,
      "loss": 1.02,
      "step": 9800
    },
    {
      "epoch": 0.4678638941398866,
      "grad_norm": 0.32504794923171715,
      "learning_rate": 0.00011007871359433431,
      "loss": 1.0168,
      "step": 9900
    },
    {
      "epoch": 0.4678638941398866,
      "eval_loss": 0.8551745414733887,
      "eval_runtime": 5.2268,
      "eval_samples_per_second": 79.399,
      "eval_steps_per_second": 4.018,
      "step": 9900
    },
    {
      "epoch": 0.4725897920604915,
      "grad_norm": 0.23334743308841835,
      "learning_rate": 0.00010860053243807338,
      "loss": 1.0165,
      "step": 10000
    },
    {
      "epoch": 0.4773156899810964,
      "grad_norm": 0.3063392284541564,
      "learning_rate": 0.00010712045551123254,
      "loss": 1.0201,
      "step": 10100
    },
    {
      "epoch": 0.4820415879017013,
      "grad_norm": 0.23591008170417674,
      "learning_rate": 0.00010563880905946159,
      "loss": 1.0089,
      "step": 10200
    },
    {
      "epoch": 0.4820415879017013,
      "eval_loss": 0.8523257970809937,
      "eval_runtime": 5.236,
      "eval_samples_per_second": 79.258,
      "eval_steps_per_second": 4.011,
      "step": 10200
    },
    {
      "epoch": 0.4867674858223062,
      "grad_norm": 0.2458952740027801,
      "learning_rate": 0.00010415591967437253,
      "loss": 1.0238,
      "step": 10300
    },
    {
      "epoch": 0.4914933837429111,
      "grad_norm": 0.24927222616875758,
      "learning_rate": 0.00010267211422155072,
      "loss": 1.0082,
      "step": 10400
    },
    {
      "epoch": 0.4962192816635161,
      "grad_norm": 0.2984843122066568,
      "learning_rate": 0.00010118771976850548,
      "loss": 1.0095,
      "step": 10500
    },
    {
      "epoch": 0.4962192816635161,
      "eval_loss": 0.8471891283988953,
      "eval_runtime": 5.2504,
      "eval_samples_per_second": 79.041,
      "eval_steps_per_second": 4.0,
      "step": 10500
    },
    {
      "epoch": 0.500945179584121,
      "grad_norm": 0.3068228178596565,
      "learning_rate": 9.970306351257647e-05,
      "loss": 1.0082,
      "step": 10600
    },
    {
      "epoch": 0.505671077504726,
      "grad_norm": 0.26307198455267633,
      "learning_rate": 9.821847270881115e-05,
      "loss": 1.0144,
      "step": 10700
    },
    {
      "epoch": 0.5103969754253308,
      "grad_norm": 4.7606417583467415,
      "learning_rate": 9.673427459782974e-05,
      "loss": 1.0153,
      "step": 10800
    },
    {
      "epoch": 0.5103969754253308,
      "eval_loss": 0.8897992372512817,
      "eval_runtime": 5.2165,
      "eval_samples_per_second": 79.556,
      "eval_steps_per_second": 4.026,
      "step": 10800
    },
    {
      "epoch": 0.5151228733459358,
      "grad_norm": 0.30927024833433553,
      "learning_rate": 9.525079633369313e-05,
      "loss": 1.0046,
      "step": 10900
    },
    {
      "epoch": 0.5198487712665406,
      "grad_norm": 0.26903362222547117,
      "learning_rate": 9.376836491179028e-05,
      "loss": 1.0069,
      "step": 11000
    },
    {
      "epoch": 0.5245746691871456,
      "grad_norm": 0.3420715319504347,
      "learning_rate": 9.228730709676e-05,
      "loss": 1.0033,
      "step": 11100
    },
    {
      "epoch": 0.5245746691871456,
      "eval_loss": 0.8409531116485596,
      "eval_runtime": 5.2724,
      "eval_samples_per_second": 78.711,
      "eval_steps_per_second": 3.983,
      "step": 11100
    },
    {
      "epoch": 0.5293005671077504,
      "grad_norm": 0.3191753149107475,
      "learning_rate": 9.080794935046421e-05,
      "loss": 1.001,
      "step": 11200
    },
    {
      "epoch": 0.5340264650283554,
      "grad_norm": 0.2622416950887366,
      "learning_rate": 8.933061776002749e-05,
      "loss": 1.0056,
      "step": 11300
    },
    {
      "epoch": 0.5387523629489603,
      "grad_norm": 0.3084365561058697,
      "learning_rate": 8.785563796595938e-05,
      "loss": 0.9929,
      "step": 11400
    },
    {
      "epoch": 0.5387523629489603,
      "eval_loss": 0.8378592729568481,
      "eval_runtime": 5.2613,
      "eval_samples_per_second": 78.878,
      "eval_steps_per_second": 3.991,
      "step": 11400
    },
    {
      "epoch": 0.5434782608695652,
      "grad_norm": 0.27673606677077633,
      "learning_rate": 8.638333509037536e-05,
      "loss": 1.0103,
      "step": 11500
    },
    {
      "epoch": 0.5482041587901701,
      "grad_norm": 0.2572779074674892,
      "learning_rate": 8.49140336653315e-05,
      "loss": 1.0045,
      "step": 11600
    },
    {
      "epoch": 0.552930056710775,
      "grad_norm": 0.29450261640985925,
      "learning_rate": 8.34480575612899e-05,
      "loss": 0.9926,
      "step": 11700
    },
    {
      "epoch": 0.552930056710775,
      "eval_loss": 0.8326123356819153,
      "eval_runtime": 5.2465,
      "eval_samples_per_second": 79.1,
      "eval_steps_per_second": 4.003,
      "step": 11700
    },
    {
      "epoch": 0.55765595463138,
      "grad_norm": 0.2963246115701643,
      "learning_rate": 8.198572991572939e-05,
      "loss": 0.9941,
      "step": 11800
    },
    {
      "epoch": 0.5623818525519849,
      "grad_norm": 0.2873036150856026,
      "learning_rate": 8.052737306191812e-05,
      "loss": 0.997,
      "step": 11900
    },
    {
      "epoch": 0.5671077504725898,
      "grad_norm": 0.29300952943209607,
      "learning_rate": 7.907330845786337e-05,
      "loss": 0.9907,
      "step": 12000
    },
    {
      "epoch": 0.5671077504725898,
      "eval_loss": 0.826417863368988,
      "eval_runtime": 5.2391,
      "eval_samples_per_second": 79.212,
      "eval_steps_per_second": 4.008,
      "step": 12000
    },
    {
      "epoch": 0.5718336483931947,
      "grad_norm": 0.2839260705447411,
      "learning_rate": 7.762385661545401e-05,
      "loss": 0.999,
      "step": 12100
    },
    {
      "epoch": 0.5765595463137996,
      "grad_norm": 0.28962628105155874,
      "learning_rate": 7.617933702981198e-05,
      "loss": 0.9898,
      "step": 12200
    },
    {
      "epoch": 0.5812854442344045,
      "grad_norm": 0.34326419629513394,
      "learning_rate": 7.474006810886752e-05,
      "loss": 0.993,
      "step": 12300
    },
    {
      "epoch": 0.5812854442344045,
      "eval_loss": 0.8264899253845215,
      "eval_runtime": 5.2541,
      "eval_samples_per_second": 78.986,
      "eval_steps_per_second": 3.997,
      "step": 12300
    },
    {
      "epoch": 0.5860113421550095,
      "grad_norm": 0.326407125727706,
      "learning_rate": 7.330636710317417e-05,
      "loss": 0.9859,
      "step": 12400
    },
    {
      "epoch": 0.5907372400756143,
      "grad_norm": 0.2643534737693366,
      "learning_rate": 7.1878550035979e-05,
      "loss": 0.9834,
      "step": 12500
    },
    {
      "epoch": 0.5954631379962193,
      "grad_norm": 0.31549347548377993,
      "learning_rate": 7.0456931633563e-05,
      "loss": 0.992,
      "step": 12600
    },
    {
      "epoch": 0.5954631379962193,
      "eval_loss": 0.8210363984107971,
      "eval_runtime": 5.2489,
      "eval_samples_per_second": 79.063,
      "eval_steps_per_second": 4.001,
      "step": 12600
    },
    {
      "epoch": 0.6001890359168242,
      "grad_norm": 0.35140381090659567,
      "learning_rate": 6.90418252558679e-05,
      "loss": 0.9905,
      "step": 12700
    },
    {
      "epoch": 0.6049149338374291,
      "grad_norm": 0.27929423819613103,
      "learning_rate": 6.763354282742363e-05,
      "loss": 0.9762,
      "step": 12800
    },
    {
      "epoch": 0.6096408317580341,
      "grad_norm": 0.38668336812116355,
      "learning_rate": 6.623239476859256e-05,
      "loss": 0.9992,
      "step": 12900
    },
    {
      "epoch": 0.6096408317580341,
      "eval_loss": 0.8181740641593933,
      "eval_runtime": 5.2401,
      "eval_samples_per_second": 79.197,
      "eval_steps_per_second": 4.008,
      "step": 12900
    },
    {
      "epoch": 0.6143667296786389,
      "grad_norm": 0.30268233702072767,
      "learning_rate": 6.48386899271452e-05,
      "loss": 0.9896,
      "step": 13000
    },
    {
      "epoch": 0.6190926275992439,
      "grad_norm": 0.28617992631244854,
      "learning_rate": 6.345273551018227e-05,
      "loss": 0.9817,
      "step": 13100
    },
    {
      "epoch": 0.6238185255198487,
      "grad_norm": 0.2768338973235925,
      "learning_rate": 6.207483701641888e-05,
      "loss": 0.9762,
      "step": 13200
    },
    {
      "epoch": 0.6238185255198487,
      "eval_loss": 0.8148543834686279,
      "eval_runtime": 5.2467,
      "eval_samples_per_second": 79.098,
      "eval_steps_per_second": 4.003,
      "step": 13200
    },
    {
      "epoch": 0.6285444234404537,
      "grad_norm": 0.2781071212339617,
      "learning_rate": 6.070529816884483e-05,
      "loss": 0.9793,
      "step": 13300
    },
    {
      "epoch": 0.6332703213610587,
      "grad_norm": 0.3070510003852717,
      "learning_rate": 5.934442084777676e-05,
      "loss": 0.9702,
      "step": 13400
    },
    {
      "epoch": 0.6379962192816635,
      "grad_norm": 0.3276450250586141,
      "learning_rate": 5.7992505024316125e-05,
      "loss": 0.9822,
      "step": 13500
    },
    {
      "epoch": 0.6379962192816635,
      "eval_loss": 0.8103421330451965,
      "eval_runtime": 5.2589,
      "eval_samples_per_second": 78.914,
      "eval_steps_per_second": 3.993,
      "step": 13500
    },
    {
      "epoch": 0.6427221172022685,
      "grad_norm": 0.2577870720634291,
      "learning_rate": 5.6649848694228026e-05,
      "loss": 0.9882,
      "step": 13600
    },
    {
      "epoch": 0.6474480151228733,
      "grad_norm": 0.24382392994716376,
      "learning_rate": 5.531674781225573e-05,
      "loss": 0.9799,
      "step": 13700
    },
    {
      "epoch": 0.6521739130434783,
      "grad_norm": 0.3123278759569431,
      "learning_rate": 5.399349622688479e-05,
      "loss": 0.9793,
      "step": 13800
    },
    {
      "epoch": 0.6521739130434783,
      "eval_loss": 0.808434009552002,
      "eval_runtime": 5.2459,
      "eval_samples_per_second": 79.11,
      "eval_steps_per_second": 4.003,
      "step": 13800
    },
    {
      "epoch": 0.6568998109640832,
      "grad_norm": 0.3128533610620476,
      "learning_rate": 5.268038561557166e-05,
      "loss": 0.9737,
      "step": 13900
    },
    {
      "epoch": 0.6616257088846881,
      "grad_norm": 0.36584898333751154,
      "learning_rate": 5.137770542045063e-05,
      "loss": 0.976,
      "step": 14000
    },
    {
      "epoch": 0.666351606805293,
      "grad_norm": 0.2481106679231261,
      "learning_rate": 5.008574278453368e-05,
      "loss": 0.9657,
      "step": 14100
    },
    {
      "epoch": 0.666351606805293,
      "eval_loss": 0.8048512935638428,
      "eval_runtime": 5.262,
      "eval_samples_per_second": 78.867,
      "eval_steps_per_second": 3.991,
      "step": 14100
    },
    {
      "epoch": 0.6710775047258979,
      "grad_norm": 0.28339151903023796,
      "learning_rate": 4.8804782488417054e-05,
      "loss": 0.9685,
      "step": 14200
    },
    {
      "epoch": 0.6758034026465028,
      "grad_norm": 0.2932163196742264,
      "learning_rate": 4.7535106887508486e-05,
      "loss": 0.9696,
      "step": 14300
    },
    {
      "epoch": 0.6805293005671077,
      "grad_norm": 0.28023874700097434,
      "learning_rate": 4.6276995849789115e-05,
      "loss": 0.9683,
      "step": 14400
    },
    {
      "epoch": 0.6805293005671077,
      "eval_loss": 0.7999623417854309,
      "eval_runtime": 5.2541,
      "eval_samples_per_second": 78.987,
      "eval_steps_per_second": 3.997,
      "step": 14400
    },
    {
      "epoch": 0.6852551984877127,
      "grad_norm": 0.27912970915295715,
      "learning_rate": 4.503072669412367e-05,
      "loss": 0.9702,
      "step": 14500
    },
    {
      "epoch": 0.6899810964083176,
      "grad_norm": 0.31856080149184574,
      "learning_rate": 4.379657412913243e-05,
      "loss": 0.9777,
      "step": 14600
    },
    {
      "epoch": 0.6947069943289225,
      "grad_norm": 0.31680804579667116,
      "learning_rate": 4.257481019263872e-05,
      "loss": 0.9721,
      "step": 14700
    },
    {
      "epoch": 0.6947069943289225,
      "eval_loss": 0.7991150617599487,
      "eval_runtime": 5.2513,
      "eval_samples_per_second": 79.028,
      "eval_steps_per_second": 3.999,
      "step": 14700
    },
    {
      "epoch": 0.6994328922495274,
      "grad_norm": 0.2865103676621986,
      "learning_rate": 4.136570419170501e-05,
      "loss": 0.9603,
      "step": 14800
    },
    {
      "epoch": 0.7041587901701323,
      "grad_norm": 0.2739501065198027,
      "learning_rate": 4.016952264327091e-05,
      "loss": 0.9698,
      "step": 14900
    },
    {
      "epoch": 0.7088846880907372,
      "grad_norm": 0.27242959783154574,
      "learning_rate": 3.8986529215406275e-05,
      "loss": 0.9692,
      "step": 15000
    },
    {
      "epoch": 0.7088846880907372,
      "eval_loss": 0.7943203449249268,
      "eval_runtime": 5.2535,
      "eval_samples_per_second": 78.996,
      "eval_steps_per_second": 3.997,
      "step": 15000
    },
    {
      "epoch": 0.7136105860113422,
      "grad_norm": 0.2803746380131459,
      "learning_rate": 3.7816984669192244e-05,
      "loss": 0.9682,
      "step": 15100
    },
    {
      "epoch": 0.718336483931947,
      "grad_norm": 0.32480320465371537,
      "learning_rate": 3.666114680124298e-05,
      "loss": 0.9605,
      "step": 15200
    },
    {
      "epoch": 0.723062381852552,
      "grad_norm": 0.2733118881436892,
      "learning_rate": 3.551927038688095e-05,
      "loss": 0.9565,
      "step": 15300
    },
    {
      "epoch": 0.723062381852552,
      "eval_loss": 0.7929270267486572,
      "eval_runtime": 5.2621,
      "eval_samples_per_second": 78.866,
      "eval_steps_per_second": 3.991,
      "step": 15300
    },
    {
      "epoch": 0.7277882797731569,
      "grad_norm": 0.2906152755954255,
      "learning_rate": 3.4391607123978095e-05,
      "loss": 0.9595,
      "step": 15400
    },
    {
      "epoch": 0.7325141776937618,
      "grad_norm": 0.29851876373805336,
      "learning_rate": 3.327840557747539e-05,
      "loss": 0.9631,
      "step": 15500
    },
    {
      "epoch": 0.7372400756143668,
      "grad_norm": 0.2878910172272555,
      "learning_rate": 3.2179911124592966e-05,
      "loss": 0.966,
      "step": 15600
    },
    {
      "epoch": 0.7372400756143668,
      "eval_loss": 0.7899049520492554,
      "eval_runtime": 5.2608,
      "eval_samples_per_second": 78.885,
      "eval_steps_per_second": 3.992,
      "step": 15600
    },
    {
      "epoch": 0.7419659735349716,
      "grad_norm": 0.28857592875042104,
      "learning_rate": 3.109636590074292e-05,
      "loss": 0.9654,
      "step": 15700
    },
    {
      "epoch": 0.7466918714555766,
      "grad_norm": 0.30328231354583435,
      "learning_rate": 3.0028008746156588e-05,
      "loss": 0.9625,
      "step": 15800
    },
    {
      "epoch": 0.7514177693761814,
      "grad_norm": 0.2600916390740946,
      "learning_rate": 2.897507515323835e-05,
      "loss": 0.9565,
      "step": 15900
    },
    {
      "epoch": 0.7514177693761814,
      "eval_loss": 0.7877747416496277,
      "eval_runtime": 5.2562,
      "eval_samples_per_second": 78.954,
      "eval_steps_per_second": 3.995,
      "step": 15900
    },
    {
      "epoch": 0.7561436672967864,
      "grad_norm": 0.29782376770057994,
      "learning_rate": 2.7937797214657147e-05,
      "loss": 0.9614,
      "step": 16000
    },
    {
      "epoch": 0.7608695652173914,
      "grad_norm": 0.265940470272052,
      "learning_rate": 2.691640357218759e-05,
      "loss": 0.9529,
      "step": 16100
    },
    {
      "epoch": 0.7655954631379962,
      "grad_norm": 0.31542391746331455,
      "learning_rate": 2.5911119366311597e-05,
      "loss": 0.9596,
      "step": 16200
    },
    {
      "epoch": 0.7655954631379962,
      "eval_loss": 0.7863346934318542,
      "eval_runtime": 5.2772,
      "eval_samples_per_second": 78.641,
      "eval_steps_per_second": 3.979,
      "step": 16200
    },
    {
      "epoch": 0.7703213610586012,
      "grad_norm": 0.2551803401373606,
      "learning_rate": 2.492216618659188e-05,
      "loss": 0.9581,
      "step": 16300
    },
    {
      "epoch": 0.775047258979206,
      "grad_norm": 0.30687065848754075,
      "learning_rate": 2.3949762022828092e-05,
      "loss": 0.9483,
      "step": 16400
    },
    {
      "epoch": 0.779773156899811,
      "grad_norm": 0.24549272522905088,
      "learning_rate": 2.2994121217006404e-05,
      "loss": 0.954,
      "step": 16500
    },
    {
      "epoch": 0.779773156899811,
      "eval_loss": 0.7838764786720276,
      "eval_runtime": 5.259,
      "eval_samples_per_second": 78.913,
      "eval_steps_per_second": 3.993,
      "step": 16500
    },
    {
      "epoch": 0.7844990548204159,
      "grad_norm": 0.3111216806210738,
      "learning_rate": 2.2055454416053422e-05,
      "loss": 0.9616,
      "step": 16600
    },
    {
      "epoch": 0.7892249527410208,
      "grad_norm": 0.3111244620482844,
      "learning_rate": 2.1133968525404146e-05,
      "loss": 0.9631,
      "step": 16700
    },
    {
      "epoch": 0.7939508506616257,
      "grad_norm": 0.28892056294761154,
      "learning_rate": 2.0229866663395026e-05,
      "loss": 0.9625,
      "step": 16800
    },
    {
      "epoch": 0.7939508506616257,
      "eval_loss": 0.7827126383781433,
      "eval_runtime": 5.258,
      "eval_samples_per_second": 78.927,
      "eval_steps_per_second": 3.994,
      "step": 16800
    },
    {
      "epoch": 0.7986767485822306,
      "grad_norm": 0.32345991572241156,
      "learning_rate": 1.934334811649161e-05,
      "loss": 0.9556,
      "step": 16900
    },
    {
      "epoch": 0.8034026465028355,
      "grad_norm": 0.3526105964303374,
      "learning_rate": 1.847460829536075e-05,
      "loss": 0.9546,
      "step": 17000
    },
    {
      "epoch": 0.8081285444234405,
      "grad_norm": 0.30985153753926015,
      "learning_rate": 1.7623838691797544e-05,
      "loss": 0.9612,
      "step": 17100
    },
    {
      "epoch": 0.8081285444234405,
      "eval_loss": 0.7805792093276978,
      "eval_runtime": 5.2626,
      "eval_samples_per_second": 78.858,
      "eval_steps_per_second": 3.99,
      "step": 17100
    },
    {
      "epoch": 0.8128544423440454,
      "grad_norm": 0.2840692418516341,
      "learning_rate": 1.679122683651546e-05,
      "loss": 0.9557,
      "step": 17200
    },
    {
      "epoch": 0.8175803402646503,
      "grad_norm": 0.3393141443988905,
      "learning_rate": 1.5976956257810127e-05,
      "loss": 0.9471,
      "step": 17300
    },
    {
      "epoch": 0.8223062381852552,
      "grad_norm": 0.2537148482900762,
      "learning_rate": 1.5181206441105078e-05,
      "loss": 0.9405,
      "step": 17400
    },
    {
      "epoch": 0.8223062381852552,
      "eval_loss": 0.7792423367500305,
      "eval_runtime": 5.2508,
      "eval_samples_per_second": 79.035,
      "eval_steps_per_second": 3.999,
      "step": 17400
    },
    {
      "epoch": 0.8270321361058601,
      "grad_norm": 0.290376596540058,
      "learning_rate": 1.4404152789388647e-05,
      "loss": 0.9548,
      "step": 17500
    },
    {
      "epoch": 0.831758034026465,
      "grad_norm": 0.30405340852350765,
      "learning_rate": 1.364596658455105e-05,
      "loss": 0.9429,
      "step": 17600
    },
    {
      "epoch": 0.8364839319470699,
      "grad_norm": 0.3035861524046109,
      "learning_rate": 1.2906814949629232e-05,
      "loss": 0.9576,
      "step": 17700
    },
    {
      "epoch": 0.8364839319470699,
      "eval_loss": 0.7785135507583618,
      "eval_runtime": 5.269,
      "eval_samples_per_second": 78.762,
      "eval_steps_per_second": 3.986,
      "step": 17700
    },
    {
      "epoch": 0.8412098298676749,
      "grad_norm": 0.3852006759427171,
      "learning_rate": 1.218686081196917e-05,
      "loss": 0.9462,
      "step": 17800
    },
    {
      "epoch": 0.8459357277882797,
      "grad_norm": 0.34392822048362665,
      "learning_rate": 1.1486262867312413e-05,
      "loss": 0.9478,
      "step": 17900
    },
    {
      "epoch": 0.8506616257088847,
      "grad_norm": 0.26878458999553395,
      "learning_rate": 1.0805175544815648e-05,
      "loss": 0.943,
      "step": 18000
    },
    {
      "epoch": 0.8506616257088847,
      "eval_loss": 0.7768391370773315,
      "eval_runtime": 5.2545,
      "eval_samples_per_second": 78.979,
      "eval_steps_per_second": 3.997,
      "step": 18000
    },
    {
      "epoch": 0.8553875236294896,
      "grad_norm": 0.2737274242530303,
      "learning_rate": 1.0143748973010825e-05,
      "loss": 0.9543,
      "step": 18100
    },
    {
      "epoch": 0.8601134215500945,
      "grad_norm": 0.35051258094572235,
      "learning_rate": 9.502128946712862e-06,
      "loss": 0.9519,
      "step": 18200
    },
    {
      "epoch": 0.8648393194706995,
      "grad_norm": 0.2597588197411309,
      "learning_rate": 8.880456894883104e-06,
      "loss": 0.949,
      "step": 18300
    },
    {
      "epoch": 0.8648393194706995,
      "eval_loss": 0.7756012082099915,
      "eval_runtime": 5.2553,
      "eval_samples_per_second": 78.968,
      "eval_steps_per_second": 3.996,
      "step": 18300
    },
    {
      "epoch": 0.8695652173913043,
      "grad_norm": 0.28694454712067513,
      "learning_rate": 8.278869849454718e-06,
      "loss": 0.9499,
      "step": 18400
    },
    {
      "epoch": 0.8742911153119093,
      "grad_norm": 0.28699237456135096,
      "learning_rate": 7.697500415127434e-06,
      "loss": 0.9457,
      "step": 18500
    },
    {
      "epoch": 0.8790170132325141,
      "grad_norm": 0.24934899142631728,
      "learning_rate": 7.136476740138387e-06,
      "loss": 0.9409,
      "step": 18600
    },
    {
      "epoch": 0.8790170132325141,
      "eval_loss": 0.77437824010849,
      "eval_runtime": 5.2548,
      "eval_samples_per_second": 78.975,
      "eval_steps_per_second": 3.996,
      "step": 18600
    },
    {
      "epoch": 0.8837429111531191,
      "grad_norm": 0.3691485047317885,
      "learning_rate": 6.5959224880147715e-06,
      "loss": 0.9393,
      "step": 18700
    },
    {
      "epoch": 0.888468809073724,
      "grad_norm": 0.26090043398323587,
      "learning_rate": 6.0759568103156195e-06,
      "loss": 0.9493,
      "step": 18800
    },
    {
      "epoch": 0.8931947069943289,
      "grad_norm": 0.27012221812253706,
      "learning_rate": 5.576694320367648e-06,
      "loss": 0.9413,
      "step": 18900
    },
    {
      "epoch": 0.8931947069943289,
      "eval_loss": 0.773705005645752,
      "eval_runtime": 5.2531,
      "eval_samples_per_second": 79.001,
      "eval_steps_per_second": 3.998,
      "step": 18900
    },
    {
      "epoch": 0.8979206049149339,
      "grad_norm": 0.22647954450095426,
      "learning_rate": 5.098245068001661e-06,
      "loss": 0.9418,
      "step": 19000
    },
    {
      "epoch": 0.9026465028355387,
      "grad_norm": 0.26426406932660085,
      "learning_rate": 4.64071451529502e-06,
      "loss": 0.9539,
      "step": 19100
    },
    {
      "epoch": 0.9073724007561437,
      "grad_norm": 0.33611022842390764,
      "learning_rate": 4.2042035133248895e-06,
      "loss": 0.9451,
      "step": 19200
    },
    {
      "epoch": 0.9073724007561437,
      "eval_loss": 0.773216724395752,
      "eval_runtime": 5.2599,
      "eval_samples_per_second": 78.899,
      "eval_steps_per_second": 3.992,
      "step": 19200
    },
    {
      "epoch": 0.9120982986767486,
      "grad_norm": 0.28197774639046563,
      "learning_rate": 3.7888082799384495e-06,
      "loss": 0.9515,
      "step": 19300
    },
    {
      "epoch": 0.9168241965973535,
      "grad_norm": 0.30675458683133056,
      "learning_rate": 3.3946203785439113e-06,
      "loss": 0.9523,
      "step": 19400
    },
    {
      "epoch": 0.9215500945179584,
      "grad_norm": 0.30602215415286255,
      "learning_rate": 3.021726697927696e-06,
      "loss": 0.9448,
      "step": 19500
    },
    {
      "epoch": 0.9215500945179584,
      "eval_loss": 0.7725175023078918,
      "eval_runtime": 5.2584,
      "eval_samples_per_second": 78.921,
      "eval_steps_per_second": 3.994,
      "step": 19500
    },
    {
      "epoch": 0.9262759924385633,
      "grad_norm": 0.2630236723779736,
      "learning_rate": 2.6702094331020887e-06,
      "loss": 0.9397,
      "step": 19600
    },
    {
      "epoch": 0.9310018903591682,
      "grad_norm": 0.29540927584526117,
      "learning_rate": 2.34014606718731e-06,
      "loss": 0.9483,
      "step": 19700
    },
    {
      "epoch": 0.9357277882797732,
      "grad_norm": 0.27625323870327295,
      "learning_rate": 2.0316093543323757e-06,
      "loss": 0.9511,
      "step": 19800
    },
    {
      "epoch": 0.9357277882797732,
      "eval_loss": 0.7723566889762878,
      "eval_runtime": 5.269,
      "eval_samples_per_second": 78.763,
      "eval_steps_per_second": 3.986,
      "step": 19800
    },
    {
      "epoch": 0.9404536862003781,
      "grad_norm": 0.5607467253913079,
      "learning_rate": 1.7446673036782935e-06,
      "loss": 0.9498,
      "step": 19900
    },
    {
      "epoch": 0.945179584120983,
      "grad_norm": 0.29002936924030825,
      "learning_rate": 1.479383164367043e-06,
      "loss": 0.9451,
      "step": 20000
    },
    {
      "epoch": 0.9499054820415879,
      "grad_norm": 0.2881707243707424,
      "learning_rate": 1.2358154116000942e-06,
      "loss": 0.948,
      "step": 20100
    },
    {
      "epoch": 0.9499054820415879,
      "eval_loss": 0.7720000147819519,
      "eval_runtime": 5.2571,
      "eval_samples_per_second": 78.941,
      "eval_steps_per_second": 3.995,
      "step": 20100
    },
    {
      "epoch": 0.9546313799621928,
      "grad_norm": 0.2632217737595484,
      "learning_rate": 1.0140177337488288e-06,
      "loss": 0.9523,
      "step": 20200
    },
    {
      "epoch": 0.9593572778827977,
      "grad_norm": 0.2690755865675043,
      "learning_rate": 8.140390205204407e-07,
      "loss": 0.9437,
      "step": 20300
    },
    {
      "epoch": 0.9640831758034026,
      "grad_norm": 0.22581336971248372,
      "learning_rate": 6.359233521813224e-07,
      "loss": 0.9462,
      "step": 20400
    },
    {
      "epoch": 0.9640831758034026,
      "eval_loss": 0.7718393206596375,
      "eval_runtime": 5.2675,
      "eval_samples_per_second": 78.785,
      "eval_steps_per_second": 3.987,
      "step": 20400
    },
    {
      "epoch": 0.9688090737240076,
      "grad_norm": 0.262694103108468,
      "learning_rate": 4.797099898407375e-07,
      "loss": 0.9487,
      "step": 20500
    },
    {
      "epoch": 0.9735349716446124,
      "grad_norm": 0.25669910143562646,
      "learning_rate": 3.4543336679673245e-07,
      "loss": 0.9475,
      "step": 20600
    },
    {
      "epoch": 0.9782608695652174,
      "grad_norm": 0.2423276211409861,
      "learning_rate": 2.3312308094607382e-07,
      "loss": 0.9435,
      "step": 20700
    },
    {
      "epoch": 0.9782608695652174,
      "eval_loss": 0.7716944217681885,
      "eval_runtime": 5.2605,
      "eval_samples_per_second": 78.89,
      "eval_steps_per_second": 3.992,
      "step": 20700
    },
    {
      "epoch": 0.9829867674858223,
      "grad_norm": 0.24829427961914935,
      "learning_rate": 1.4280388826026782e-07,
      "loss": 0.9409,
      "step": 20800
    },
    {
      "epoch": 0.9877126654064272,
      "grad_norm": 0.2521311024320304,
      "learning_rate": 7.449569732862482e-08,
      "loss": 0.9471,
      "step": 20900
    },
    {
      "epoch": 0.9924385633270322,
      "grad_norm": 0.28557979970838715,
      "learning_rate": 2.8213564969969963e-08,
      "loss": 0.945,
      "step": 21000
    },
    {
      "epoch": 0.9924385633270322,
      "eval_loss": 0.7717165946960449,
      "eval_runtime": 5.2747,
      "eval_samples_per_second": 78.678,
      "eval_steps_per_second": 3.981,
      "step": 21000
    },
    {
      "epoch": 0.997164461247637,
      "grad_norm": 0.28331781617919166,
      "learning_rate": 3.967692913753318e-09,
      "loss": 0.9499,
      "step": 21100
    }
  ],
  "logging_steps": 100,
  "max_steps": 21160,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 4000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 914125500973056.0,
  "train_batch_size": 5,
  "trial_name": null,
  "trial_params": null
}