{
  "best_metric": 3.1603705883026123,
  "best_model_checkpoint": "./models/full-finetuning/LLaMmlein_120M/checkpoint-58000",
  "epoch": 1.0,
  "eval_steps": 1000,
  "global_step": 59835,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008356313194618534,
      "grad_norm": 40.14425277709961,
      "learning_rate": 4.96e-05,
      "loss": 4.8477,
      "step": 500
    },
    {
      "epoch": 0.016712626389237067,
      "grad_norm": 22.107275009155273,
      "learning_rate": 4.958203421252212e-05,
      "loss": 4.4466,
      "step": 1000
    },
    {
      "epoch": 0.016712626389237067,
      "eval_loss": 4.3118462562561035,
      "eval_runtime": 22.0404,
      "eval_samples_per_second": 202.446,
      "eval_steps_per_second": 25.317,
      "step": 1000
    },
    {
      "epoch": 0.025068939583855605,
      "grad_norm": 19.609399795532227,
      "learning_rate": 4.916069773320974e-05,
      "loss": 4.2986,
      "step": 1500
    },
    {
      "epoch": 0.033425252778474135,
      "grad_norm": 18.64438247680664,
      "learning_rate": 4.873936125389736e-05,
      "loss": 4.2295,
      "step": 2000
    },
    {
      "epoch": 0.033425252778474135,
      "eval_loss": 4.121812343597412,
      "eval_runtime": 22.1428,
      "eval_samples_per_second": 201.51,
      "eval_steps_per_second": 25.2,
      "step": 2000
    },
    {
      "epoch": 0.04178156597309267,
      "grad_norm": 19.098369598388672,
      "learning_rate": 4.8318024774584986e-05,
      "loss": 4.1165,
      "step": 2500
    },
    {
      "epoch": 0.05013787916771121,
      "grad_norm": 17.83785629272461,
      "learning_rate": 4.789668829527261e-05,
      "loss": 4.029,
      "step": 3000
    },
    {
      "epoch": 0.05013787916771121,
      "eval_loss": 4.040452480316162,
      "eval_runtime": 22.088,
      "eval_samples_per_second": 202.01,
      "eval_steps_per_second": 25.263,
      "step": 3000
    },
    {
      "epoch": 0.05849419236232974,
      "grad_norm": 14.394288063049316,
      "learning_rate": 4.747535181596023e-05,
      "loss": 4.0701,
      "step": 3500
    },
    {
      "epoch": 0.06685050555694827,
      "grad_norm": 17.005945205688477,
      "learning_rate": 4.705401533664785e-05,
      "loss": 4.0239,
      "step": 4000
    },
    {
      "epoch": 0.06685050555694827,
      "eval_loss": 3.948943853378296,
      "eval_runtime": 22.0828,
      "eval_samples_per_second": 202.058,
      "eval_steps_per_second": 25.269,
      "step": 4000
    },
    {
      "epoch": 0.0752068187515668,
      "grad_norm": 20.297489166259766,
      "learning_rate": 4.663267885733547e-05,
      "loss": 3.9704,
      "step": 4500
    },
    {
      "epoch": 0.08356313194618534,
      "grad_norm": 17.280521392822266,
      "learning_rate": 4.621134237802309e-05,
      "loss": 3.9118,
      "step": 5000
    },
    {
      "epoch": 0.08356313194618534,
      "eval_loss": 3.891711950302124,
      "eval_runtime": 22.1454,
      "eval_samples_per_second": 201.487,
      "eval_steps_per_second": 25.197,
      "step": 5000
    },
    {
      "epoch": 0.09191944514080387,
      "grad_norm": 18.847597122192383,
      "learning_rate": 4.579000589871071e-05,
      "loss": 3.9024,
      "step": 5500
    },
    {
      "epoch": 0.10027575833542242,
      "grad_norm": 14.654472351074219,
      "learning_rate": 4.5368669419398335e-05,
      "loss": 3.8479,
      "step": 6000
    },
    {
      "epoch": 0.10027575833542242,
      "eval_loss": 3.8378305435180664,
      "eval_runtime": 22.1051,
      "eval_samples_per_second": 201.854,
      "eval_steps_per_second": 25.243,
      "step": 6000
    },
    {
      "epoch": 0.10863207153004095,
      "grad_norm": 18.267274856567383,
      "learning_rate": 4.494817561304458e-05,
      "loss": 3.8116,
      "step": 6500
    },
    {
      "epoch": 0.11698838472465949,
      "grad_norm": 13.313653945922852,
      "learning_rate": 4.45268391337322e-05,
      "loss": 3.8592,
      "step": 7000
    },
    {
      "epoch": 0.11698838472465949,
      "eval_loss": 3.8072171211242676,
      "eval_runtime": 22.2351,
      "eval_samples_per_second": 200.674,
      "eval_steps_per_second": 25.095,
      "step": 7000
    },
    {
      "epoch": 0.12534469791927802,
      "grad_norm": 16.960010528564453,
      "learning_rate": 4.410550265441982e-05,
      "loss": 3.8291,
      "step": 7500
    },
    {
      "epoch": 0.13370101111389654,
      "grad_norm": 15.129623413085938,
      "learning_rate": 4.3684166175107444e-05,
      "loss": 3.7697,
      "step": 8000
    },
    {
      "epoch": 0.13370101111389654,
      "eval_loss": 3.777130126953125,
      "eval_runtime": 22.2765,
      "eval_samples_per_second": 200.3,
      "eval_steps_per_second": 25.049,
      "step": 8000
    },
    {
      "epoch": 0.1420573243085151,
      "grad_norm": 18.825756072998047,
      "learning_rate": 4.326535771467094e-05,
      "loss": 3.7714,
      "step": 8500
    },
    {
      "epoch": 0.1504136375031336,
      "grad_norm": 13.93099308013916,
      "learning_rate": 4.284402123535856e-05,
      "loss": 3.7719,
      "step": 9000
    },
    {
      "epoch": 0.1504136375031336,
      "eval_loss": 3.747012138366699,
      "eval_runtime": 22.2951,
      "eval_samples_per_second": 200.134,
      "eval_steps_per_second": 25.028,
      "step": 9000
    },
    {
      "epoch": 0.15876995069775215,
      "grad_norm": 12.885889053344727,
      "learning_rate": 4.2422684756046185e-05,
      "loss": 3.7127,
      "step": 9500
    },
    {
      "epoch": 0.16712626389237067,
      "grad_norm": 15.362942695617676,
      "learning_rate": 4.200134827673381e-05,
      "loss": 3.7135,
      "step": 10000
    },
    {
      "epoch": 0.16712626389237067,
      "eval_loss": 3.7190206050872803,
      "eval_runtime": 22.2344,
      "eval_samples_per_second": 200.68,
      "eval_steps_per_second": 25.096,
      "step": 10000
    },
    {
      "epoch": 0.17548257708698922,
      "grad_norm": 12.432964324951172,
      "learning_rate": 4.158001179742142e-05,
      "loss": 3.6715,
      "step": 10500
    },
    {
      "epoch": 0.18383889028160774,
      "grad_norm": 25.97146987915039,
      "learning_rate": 4.115867531810904e-05,
      "loss": 3.6599,
      "step": 11000
    },
    {
      "epoch": 0.18383889028160774,
      "eval_loss": 3.6818652153015137,
      "eval_runtime": 22.2972,
      "eval_samples_per_second": 200.115,
      "eval_steps_per_second": 25.026,
      "step": 11000
    },
    {
      "epoch": 0.1921952034762263,
      "grad_norm": 21.378082275390625,
      "learning_rate": 4.073733883879666e-05,
      "loss": 3.6754,
      "step": 11500
    },
    {
      "epoch": 0.20055151667084484,
      "grad_norm": 11.59192943572998,
      "learning_rate": 4.031600235948428e-05,
      "loss": 3.669,
      "step": 12000
    },
    {
      "epoch": 0.20055151667084484,
      "eval_loss": 3.661188840866089,
      "eval_runtime": 22.2553,
      "eval_samples_per_second": 200.492,
      "eval_steps_per_second": 25.073,
      "step": 12000
    },
    {
      "epoch": 0.20890782986546336,
      "grad_norm": 17.75707244873047,
      "learning_rate": 3.9894665880171905e-05,
      "loss": 3.6794,
      "step": 12500
    },
    {
      "epoch": 0.2172641430600819,
      "grad_norm": 10.825678825378418,
      "learning_rate": 3.947332940085953e-05,
      "loss": 3.6113,
      "step": 13000
    },
    {
      "epoch": 0.2172641430600819,
      "eval_loss": 3.6508119106292725,
      "eval_runtime": 22.2982,
      "eval_samples_per_second": 200.106,
      "eval_steps_per_second": 25.024,
      "step": 13000
    },
    {
      "epoch": 0.22562045625470042,
      "grad_norm": 10.04261302947998,
      "learning_rate": 3.905199292154715e-05,
      "loss": 3.5963,
      "step": 13500
    },
    {
      "epoch": 0.23397676944931897,
      "grad_norm": 13.926618576049805,
      "learning_rate": 3.863065644223477e-05,
      "loss": 3.5997,
      "step": 14000
    },
    {
      "epoch": 0.23397676944931897,
      "eval_loss": 3.6223905086517334,
      "eval_runtime": 22.2717,
      "eval_samples_per_second": 200.344,
      "eval_steps_per_second": 25.054,
      "step": 14000
    },
    {
      "epoch": 0.2423330826439375,
      "grad_norm": 11.00304889678955,
      "learning_rate": 3.820931996292239e-05,
      "loss": 3.5991,
      "step": 14500
    },
    {
      "epoch": 0.25068939583855604,
      "grad_norm": 16.099769592285156,
      "learning_rate": 3.778798348361001e-05,
      "loss": 3.6042,
      "step": 15000
    },
    {
      "epoch": 0.25068939583855604,
      "eval_loss": 3.5953731536865234,
      "eval_runtime": 22.2814,
      "eval_samples_per_second": 200.257,
      "eval_steps_per_second": 25.043,
      "step": 15000
    },
    {
      "epoch": 0.2590457090331746,
      "grad_norm": 12.459487915039062,
      "learning_rate": 3.736664700429763e-05,
      "loss": 3.5871,
      "step": 15500
    },
    {
      "epoch": 0.2674020222277931,
      "grad_norm": 16.979909896850586,
      "learning_rate": 3.6946153197943875e-05,
      "loss": 3.5238,
      "step": 16000
    },
    {
      "epoch": 0.2674020222277931,
      "eval_loss": 3.590113401412964,
      "eval_runtime": 22.2293,
      "eval_samples_per_second": 200.726,
      "eval_steps_per_second": 25.102,
      "step": 16000
    },
    {
      "epoch": 0.2757583354224116,
      "grad_norm": 23.20758056640625,
      "learning_rate": 3.65248167186315e-05,
      "loss": 3.5646,
      "step": 16500
    },
    {
      "epoch": 0.2841146486170302,
      "grad_norm": 18.35931396484375,
      "learning_rate": 3.610348023931912e-05,
      "loss": 3.5445,
      "step": 17000
    },
    {
      "epoch": 0.2841146486170302,
      "eval_loss": 3.563676595687866,
      "eval_runtime": 22.2571,
      "eval_samples_per_second": 200.475,
      "eval_steps_per_second": 25.071,
      "step": 17000
    },
    {
      "epoch": 0.2924709618116487,
      "grad_norm": 17.187950134277344,
      "learning_rate": 3.568214376000674e-05,
      "loss": 3.494,
      "step": 17500
    },
    {
      "epoch": 0.3008272750062672,
      "grad_norm": 15.331987380981445,
      "learning_rate": 3.5261649953652984e-05,
      "loss": 3.4913,
      "step": 18000
    },
    {
      "epoch": 0.3008272750062672,
      "eval_loss": 3.541306495666504,
      "eval_runtime": 22.2598,
      "eval_samples_per_second": 200.451,
      "eval_steps_per_second": 25.068,
      "step": 18000
    },
    {
      "epoch": 0.30918358820088576,
      "grad_norm": 16.340852737426758,
      "learning_rate": 3.484031347434061e-05,
      "loss": 3.4969,
      "step": 18500
    },
    {
      "epoch": 0.3175399013955043,
      "grad_norm": 12.265207290649414,
      "learning_rate": 3.441897699502823e-05,
      "loss": 3.4934,
      "step": 19000
    },
    {
      "epoch": 0.3175399013955043,
      "eval_loss": 3.520357847213745,
      "eval_runtime": 22.2447,
      "eval_samples_per_second": 200.587,
      "eval_steps_per_second": 25.085,
      "step": 19000
    },
    {
      "epoch": 0.32589621459012286,
      "grad_norm": 15.456232070922852,
      "learning_rate": 3.399764051571585e-05,
      "loss": 3.5013,
      "step": 19500
    },
    {
      "epoch": 0.33425252778474135,
      "grad_norm": 15.721699714660645,
      "learning_rate": 3.3576304036403474e-05,
      "loss": 3.4627,
      "step": 20000
    },
    {
      "epoch": 0.33425252778474135,
      "eval_loss": 3.5179378986358643,
      "eval_runtime": 22.2594,
      "eval_samples_per_second": 200.455,
      "eval_steps_per_second": 25.068,
      "step": 20000
    },
    {
      "epoch": 0.3426088409793599,
      "grad_norm": 12.118553161621094,
      "learning_rate": 3.3154967557091096e-05,
      "loss": 3.5006,
      "step": 20500
    },
    {
      "epoch": 0.35096515417397844,
      "grad_norm": 8.990864753723145,
      "learning_rate": 3.273447375073734e-05,
      "loss": 3.4367,
      "step": 21000
    },
    {
      "epoch": 0.35096515417397844,
      "eval_loss": 3.5118658542633057,
      "eval_runtime": 22.2415,
      "eval_samples_per_second": 200.616,
      "eval_steps_per_second": 25.088,
      "step": 21000
    },
    {
      "epoch": 0.359321467368597,
      "grad_norm": 9.9972562789917,
      "learning_rate": 3.231313727142496e-05,
      "loss": 3.4498,
      "step": 21500
    },
    {
      "epoch": 0.3676777805632155,
      "grad_norm": 10.996673583984375,
      "learning_rate": 3.189180079211258e-05,
      "loss": 3.4643,
      "step": 22000
    },
    {
      "epoch": 0.3676777805632155,
      "eval_loss": 3.483738899230957,
      "eval_runtime": 22.2582,
      "eval_samples_per_second": 200.465,
      "eval_steps_per_second": 25.069,
      "step": 22000
    },
    {
      "epoch": 0.37603409375783403,
      "grad_norm": 14.55636978149414,
      "learning_rate": 3.14704643128002e-05,
      "loss": 3.5215,
      "step": 22500
    },
    {
      "epoch": 0.3843904069524526,
      "grad_norm": 13.585105895996094,
      "learning_rate": 3.104912783348782e-05,
      "loss": 3.419,
      "step": 23000
    },
    {
      "epoch": 0.3843904069524526,
      "eval_loss": 3.47660231590271,
      "eval_runtime": 22.226,
      "eval_samples_per_second": 200.756,
      "eval_steps_per_second": 25.106,
      "step": 23000
    },
    {
      "epoch": 0.3927467201470711,
      "grad_norm": 11.853238105773926,
      "learning_rate": 3.062779135417544e-05,
      "loss": 3.4438,
      "step": 23500
    },
    {
      "epoch": 0.4011030333416897,
      "grad_norm": 13.06174373626709,
      "learning_rate": 3.020729754782169e-05,
      "loss": 3.4029,
      "step": 24000
    },
    {
      "epoch": 0.4011030333416897,
      "eval_loss": 3.4587268829345703,
      "eval_runtime": 22.2726,
      "eval_samples_per_second": 200.336,
      "eval_steps_per_second": 25.053,
      "step": 24000
    },
    {
      "epoch": 0.40945934653630817,
      "grad_norm": 16.874757766723633,
      "learning_rate": 2.9786803741467938e-05,
      "loss": 3.3971,
      "step": 24500
    },
    {
      "epoch": 0.4178156597309267,
      "grad_norm": 11.108474731445312,
      "learning_rate": 2.936546726215556e-05,
      "loss": 3.3574,
      "step": 25000
    },
    {
      "epoch": 0.4178156597309267,
      "eval_loss": 3.446179151535034,
      "eval_runtime": 22.3522,
      "eval_samples_per_second": 199.622,
      "eval_steps_per_second": 24.964,
      "step": 25000
    },
    {
      "epoch": 0.42617197292554526,
      "grad_norm": 12.936110496520996,
      "learning_rate": 2.8944130782843183e-05,
      "loss": 3.3829,
      "step": 25500
    },
    {
      "epoch": 0.4345282861201638,
      "grad_norm": 12.90854549407959,
      "learning_rate": 2.8522794303530802e-05,
      "loss": 3.4156,
      "step": 26000
    },
    {
      "epoch": 0.4345282861201638,
      "eval_loss": 3.44026517868042,
      "eval_runtime": 22.2661,
      "eval_samples_per_second": 200.394,
      "eval_steps_per_second": 25.061,
      "step": 26000
    },
    {
      "epoch": 0.4428845993147823,
      "grad_norm": 10.326555252075195,
      "learning_rate": 2.8101457824218424e-05,
      "loss": 3.3607,
      "step": 26500
    },
    {
      "epoch": 0.45124091250940085,
      "grad_norm": 12.372066497802734,
      "learning_rate": 2.7681806690823293e-05,
      "loss": 3.3836,
      "step": 27000
    },
    {
      "epoch": 0.45124091250940085,
      "eval_loss": 3.4253649711608887,
      "eval_runtime": 22.2507,
      "eval_samples_per_second": 200.533,
      "eval_steps_per_second": 25.078,
      "step": 27000
    },
    {
      "epoch": 0.4595972257040194,
      "grad_norm": 9.778299331665039,
      "learning_rate": 2.7260470211510912e-05,
      "loss": 3.3671,
      "step": 27500
    },
    {
      "epoch": 0.46795353889863794,
      "grad_norm": 20.047178268432617,
      "learning_rate": 2.6839133732198535e-05,
      "loss": 3.3395,
      "step": 28000
    },
    {
      "epoch": 0.46795353889863794,
      "eval_loss": 3.41679048538208,
      "eval_runtime": 22.2707,
      "eval_samples_per_second": 200.353,
      "eval_steps_per_second": 25.055,
      "step": 28000
    },
    {
      "epoch": 0.47630985209325644,
      "grad_norm": 9.312335968017578,
      "learning_rate": 2.6417797252886157e-05,
      "loss": 3.3616,
      "step": 28500
    },
    {
      "epoch": 0.484666165287875,
      "grad_norm": 10.994682312011719,
      "learning_rate": 2.5996460773573776e-05,
      "loss": 3.3719,
      "step": 29000
    },
    {
      "epoch": 0.484666165287875,
      "eval_loss": 3.4018924236297607,
      "eval_runtime": 22.2565,
      "eval_samples_per_second": 200.481,
      "eval_steps_per_second": 25.071,
      "step": 29000
    },
    {
      "epoch": 0.49302247848249353,
      "grad_norm": 13.464505195617676,
      "learning_rate": 2.5575124294261398e-05,
      "loss": 3.3312,
      "step": 29500
    },
    {
      "epoch": 0.5013787916771121,
      "grad_norm": 12.18619441986084,
      "learning_rate": 2.515378781494902e-05,
      "loss": 3.386,
      "step": 30000
    },
    {
      "epoch": 0.5013787916771121,
      "eval_loss": 3.3899354934692383,
      "eval_runtime": 22.2658,
      "eval_samples_per_second": 200.397,
      "eval_steps_per_second": 25.061,
      "step": 30000
    },
    {
      "epoch": 0.5097351048717306,
      "grad_norm": 14.552848815917969,
      "learning_rate": 2.4732451335636643e-05,
      "loss": 3.3377,
      "step": 30500
    },
    {
      "epoch": 0.5180914180663492,
      "grad_norm": 15.032088279724121,
      "learning_rate": 2.4311114856324262e-05,
      "loss": 3.3131,
      "step": 31000
    },
    {
      "epoch": 0.5180914180663492,
      "eval_loss": 3.378127336502075,
      "eval_runtime": 22.2423,
      "eval_samples_per_second": 200.609,
      "eval_steps_per_second": 25.087,
      "step": 31000
    },
    {
      "epoch": 0.5264477312609677,
      "grad_norm": 14.666757583618164,
      "learning_rate": 2.388977837701188e-05,
      "loss": 3.3457,
      "step": 31500
    },
    {
      "epoch": 0.5348040444555862,
      "grad_norm": 11.800482749938965,
      "learning_rate": 2.3468441897699503e-05,
      "loss": 3.3192,
      "step": 32000
    },
    {
      "epoch": 0.5348040444555862,
      "eval_loss": 3.3670458793640137,
      "eval_runtime": 22.256,
      "eval_samples_per_second": 200.485,
      "eval_steps_per_second": 25.072,
      "step": 32000
    },
    {
      "epoch": 0.5431603576502048,
      "grad_norm": 10.835103034973145,
      "learning_rate": 2.3047105418387125e-05,
      "loss": 3.3235,
      "step": 32500
    },
    {
      "epoch": 0.5515166708448233,
      "grad_norm": 12.06092357635498,
      "learning_rate": 2.2625768939074744e-05,
      "loss": 3.2969,
      "step": 33000
    },
    {
      "epoch": 0.5515166708448233,
      "eval_loss": 3.356658935546875,
      "eval_runtime": 22.2404,
      "eval_samples_per_second": 200.626,
      "eval_steps_per_second": 25.089,
      "step": 33000
    },
    {
      "epoch": 0.5598729840394417,
      "grad_norm": 15.398877143859863,
      "learning_rate": 2.2204432459762367e-05,
      "loss": 3.3181,
      "step": 33500
    },
    {
      "epoch": 0.5682292972340603,
      "grad_norm": 10.425477027893066,
      "learning_rate": 2.178309598044999e-05,
      "loss": 3.3202,
      "step": 34000
    },
    {
      "epoch": 0.5682292972340603,
      "eval_loss": 3.34324312210083,
      "eval_runtime": 22.2237,
      "eval_samples_per_second": 200.777,
      "eval_steps_per_second": 25.108,
      "step": 34000
    },
    {
      "epoch": 0.5765856104286788,
      "grad_norm": 13.118115425109863,
      "learning_rate": 2.136175950113761e-05,
      "loss": 3.3028,
      "step": 34500
    },
    {
      "epoch": 0.5849419236232974,
      "grad_norm": 8.235157012939453,
      "learning_rate": 2.0941265694783854e-05,
      "loss": 3.2403,
      "step": 35000
    },
    {
      "epoch": 0.5849419236232974,
      "eval_loss": 3.3430681228637695,
      "eval_runtime": 22.2974,
      "eval_samples_per_second": 200.113,
      "eval_steps_per_second": 25.025,
      "step": 35000
    },
    {
      "epoch": 0.5932982368179159,
      "grad_norm": 15.389208793640137,
      "learning_rate": 2.0519929215471476e-05,
      "loss": 3.3105,
      "step": 35500
    },
    {
      "epoch": 0.6016545500125344,
      "grad_norm": 12.708732604980469,
      "learning_rate": 2.0098592736159098e-05,
      "loss": 3.2775,
      "step": 36000
    },
    {
      "epoch": 0.6016545500125344,
      "eval_loss": 3.3276991844177246,
      "eval_runtime": 22.2643,
      "eval_samples_per_second": 200.411,
      "eval_steps_per_second": 25.063,
      "step": 36000
    },
    {
      "epoch": 0.610010863207153,
      "grad_norm": 13.642451286315918,
      "learning_rate": 1.9677256256846717e-05,
      "loss": 3.2902,
      "step": 36500
    },
    {
      "epoch": 0.6183671764017715,
      "grad_norm": 12.606600761413574,
      "learning_rate": 1.9256762450492966e-05,
      "loss": 3.271,
      "step": 37000
    },
    {
      "epoch": 0.6183671764017715,
      "eval_loss": 3.3122496604919434,
      "eval_runtime": 22.2804,
      "eval_samples_per_second": 200.266,
      "eval_steps_per_second": 25.044,
      "step": 37000
    },
    {
      "epoch": 0.6267234895963901,
      "grad_norm": 11.484159469604492,
      "learning_rate": 1.8835425971180585e-05,
      "loss": 3.2833,
      "step": 37500
    },
    {
      "epoch": 0.6350798027910086,
      "grad_norm": 12.317131996154785,
      "learning_rate": 1.8414089491868204e-05,
      "loss": 3.2848,
      "step": 38000
    },
    {
      "epoch": 0.6350798027910086,
      "eval_loss": 3.3035213947296143,
      "eval_runtime": 22.2937,
      "eval_samples_per_second": 200.147,
      "eval_steps_per_second": 25.03,
      "step": 38000
    },
    {
      "epoch": 0.6434361159856271,
      "grad_norm": 11.45077896118164,
      "learning_rate": 1.7992753012555827e-05,
      "loss": 3.202,
      "step": 38500
    },
    {
      "epoch": 0.6517924291802457,
      "grad_norm": 12.859657287597656,
      "learning_rate": 1.7572259206202076e-05,
      "loss": 3.2376,
      "step": 39000
    },
    {
      "epoch": 0.6517924291802457,
      "eval_loss": 3.2956559658050537,
      "eval_runtime": 22.3804,
      "eval_samples_per_second": 199.371,
      "eval_steps_per_second": 24.933,
      "step": 39000
    },
    {
      "epoch": 0.6601487423748642,
      "grad_norm": 14.472012519836426,
      "learning_rate": 1.7150922726889695e-05,
      "loss": 3.1924,
      "step": 39500
    },
    {
      "epoch": 0.6685050555694827,
      "grad_norm": 13.051079750061035,
      "learning_rate": 1.673042892053594e-05,
      "loss": 3.2598,
      "step": 40000
    },
    {
      "epoch": 0.6685050555694827,
      "eval_loss": 3.2878499031066895,
      "eval_runtime": 22.2464,
      "eval_samples_per_second": 200.572,
      "eval_steps_per_second": 25.083,
      "step": 40000
    },
    {
      "epoch": 0.6768613687641013,
      "grad_norm": 15.44560718536377,
      "learning_rate": 1.6309092441223563e-05,
      "loss": 3.1978,
      "step": 40500
    },
    {
      "epoch": 0.6852176819587198,
      "grad_norm": 16.988996505737305,
      "learning_rate": 1.588775596191118e-05,
      "loss": 3.2247,
      "step": 41000
    },
    {
      "epoch": 0.6852176819587198,
      "eval_loss": 3.279550313949585,
      "eval_runtime": 22.2386,
      "eval_samples_per_second": 200.642,
      "eval_steps_per_second": 25.091,
      "step": 41000
    },
    {
      "epoch": 0.6935739951533384,
      "grad_norm": 8.293917655944824,
      "learning_rate": 1.5466419482598804e-05,
      "loss": 3.1682,
      "step": 41500
    },
    {
      "epoch": 0.7019303083479569,
      "grad_norm": 10.755880355834961,
      "learning_rate": 1.5045925676245051e-05,
      "loss": 3.1849,
      "step": 42000
    },
    {
      "epoch": 0.7019303083479569,
      "eval_loss": 3.2791192531585693,
      "eval_runtime": 22.2554,
      "eval_samples_per_second": 200.491,
      "eval_steps_per_second": 25.073,
      "step": 42000
    },
    {
      "epoch": 0.7102866215425754,
      "grad_norm": 17.822643280029297,
      "learning_rate": 1.462458919693267e-05,
      "loss": 3.1714,
      "step": 42500
    },
    {
      "epoch": 0.718642934737194,
      "grad_norm": 18.230485916137695,
      "learning_rate": 1.4203252717620291e-05,
      "loss": 3.2112,
      "step": 43000
    },
    {
      "epoch": 0.718642934737194,
      "eval_loss": 3.260193109512329,
      "eval_runtime": 22.2518,
      "eval_samples_per_second": 200.523,
      "eval_steps_per_second": 25.077,
      "step": 43000
    },
    {
      "epoch": 0.7269992479318125,
      "grad_norm": 13.363430976867676,
      "learning_rate": 1.3781916238307913e-05,
      "loss": 3.1655,
      "step": 43500
    },
    {
      "epoch": 0.735355561126431,
      "grad_norm": 11.570181846618652,
      "learning_rate": 1.3360579758995534e-05,
      "loss": 3.174,
      "step": 44000
    },
    {
      "epoch": 0.735355561126431,
      "eval_loss": 3.2490386962890625,
      "eval_runtime": 22.2683,
      "eval_samples_per_second": 200.374,
      "eval_steps_per_second": 25.058,
      "step": 44000
    },
    {
      "epoch": 0.7437118743210496,
      "grad_norm": 19.80602264404297,
      "learning_rate": 1.2939243279683155e-05,
      "loss": 3.1987,
      "step": 44500
    },
    {
      "epoch": 0.7520681875156681,
      "grad_norm": 10.821731567382812,
      "learning_rate": 1.2518749473329402e-05,
      "loss": 3.1799,
      "step": 45000
    },
    {
      "epoch": 0.7520681875156681,
      "eval_loss": 3.240847587585449,
      "eval_runtime": 22.2794,
      "eval_samples_per_second": 200.275,
      "eval_steps_per_second": 25.046,
      "step": 45000
    },
    {
      "epoch": 0.7604245007102867,
      "grad_norm": 16.301612854003906,
      "learning_rate": 1.2097412994017023e-05,
      "loss": 3.2029,
      "step": 45500
    },
    {
      "epoch": 0.7687808139049052,
      "grad_norm": 14.699359893798828,
      "learning_rate": 1.1676076514704643e-05,
      "loss": 3.1752,
      "step": 46000
    },
    {
      "epoch": 0.7687808139049052,
      "eval_loss": 3.233914852142334,
      "eval_runtime": 22.269,
      "eval_samples_per_second": 200.369,
      "eval_steps_per_second": 25.057,
      "step": 46000
    },
    {
      "epoch": 0.7771371270995237,
      "grad_norm": 15.696563720703125,
      "learning_rate": 1.1254740035392266e-05,
      "loss": 3.132,
      "step": 46500
    },
    {
      "epoch": 0.7854934402941423,
      "grad_norm": 13.062487602233887,
      "learning_rate": 1.0833403556079886e-05,
      "loss": 3.131,
      "step": 47000
    },
    {
      "epoch": 0.7854934402941423,
      "eval_loss": 3.2280752658843994,
      "eval_runtime": 22.2955,
      "eval_samples_per_second": 200.13,
      "eval_steps_per_second": 25.027,
      "step": 47000
    },
    {
      "epoch": 0.7938497534887607,
      "grad_norm": 18.67305564880371,
      "learning_rate": 1.0412909749726132e-05,
      "loss": 3.1571,
      "step": 47500
    },
    {
      "epoch": 0.8022060666833793,
      "grad_norm": 10.377827644348145,
      "learning_rate": 9.992415943372378e-06,
      "loss": 3.181,
      "step": 48000
    },
    {
      "epoch": 0.8022060666833793,
      "eval_loss": 3.2206084728240967,
      "eval_runtime": 22.2943,
      "eval_samples_per_second": 200.141,
      "eval_steps_per_second": 25.029,
      "step": 48000
    },
    {
      "epoch": 0.8105623798779978,
      "grad_norm": 12.836233139038086,
      "learning_rate": 9.571922137018624e-06,
      "loss": 3.139,
      "step": 48500
    },
    {
      "epoch": 0.8189186930726163,
      "grad_norm": 11.736408233642578,
      "learning_rate": 9.150585657706244e-06,
      "loss": 3.0932,
      "step": 49000
    },
    {
      "epoch": 0.8189186930726163,
      "eval_loss": 3.2135069370269775,
      "eval_runtime": 22.2506,
      "eval_samples_per_second": 200.534,
      "eval_steps_per_second": 25.078,
      "step": 49000
    },
    {
      "epoch": 0.8272750062672349,
      "grad_norm": 16.016298294067383,
      "learning_rate": 8.729249178393865e-06,
      "loss": 3.1634,
      "step": 49500
    },
    {
      "epoch": 0.8356313194618534,
      "grad_norm": 10.488819122314453,
      "learning_rate": 8.307912699081487e-06,
      "loss": 3.1376,
      "step": 50000
    },
    {
      "epoch": 0.8356313194618534,
      "eval_loss": 3.2051162719726562,
      "eval_runtime": 22.294,
      "eval_samples_per_second": 200.144,
      "eval_steps_per_second": 25.029,
      "step": 50000
    },
    {
      "epoch": 0.8439876326564719,
      "grad_norm": 16.168071746826172,
      "learning_rate": 7.886576219769108e-06,
      "loss": 3.1121,
      "step": 50500
    },
    {
      "epoch": 0.8523439458510905,
      "grad_norm": 19.903099060058594,
      "learning_rate": 7.465239740456729e-06,
      "loss": 3.1084,
      "step": 51000
    },
    {
      "epoch": 0.8523439458510905,
      "eval_loss": 3.198310375213623,
      "eval_runtime": 22.3049,
      "eval_samples_per_second": 200.046,
      "eval_steps_per_second": 25.017,
      "step": 51000
    },
    {
      "epoch": 0.860700259045709,
      "grad_norm": 12.082676887512207,
      "learning_rate": 7.043903261144351e-06,
      "loss": 3.0957,
      "step": 51500
    },
    {
      "epoch": 0.8690565722403276,
      "grad_norm": 11.764552116394043,
      "learning_rate": 6.622566781831971e-06,
      "loss": 3.099,
      "step": 52000
    },
    {
      "epoch": 0.8690565722403276,
      "eval_loss": 3.193253993988037,
      "eval_runtime": 22.2469,
      "eval_samples_per_second": 200.567,
      "eval_steps_per_second": 25.082,
      "step": 52000
    },
    {
      "epoch": 0.8774128854349461,
      "grad_norm": 12.482972145080566,
      "learning_rate": 6.201230302519592e-06,
      "loss": 3.0779,
      "step": 52500
    },
    {
      "epoch": 0.8857691986295646,
      "grad_norm": 14.11436939239502,
      "learning_rate": 5.7798938232072135e-06,
      "loss": 3.1278,
      "step": 53000
    },
    {
      "epoch": 0.8857691986295646,
      "eval_loss": 3.1867904663085938,
      "eval_runtime": 22.2664,
      "eval_samples_per_second": 200.392,
      "eval_steps_per_second": 25.06,
      "step": 53000
    },
    {
      "epoch": 0.8941255118241832,
      "grad_norm": 19.69700813293457,
      "learning_rate": 5.358557343894835e-06,
      "loss": 3.0968,
      "step": 53500
    },
    {
      "epoch": 0.9024818250188017,
      "grad_norm": 14.537339210510254,
      "learning_rate": 4.937220864582456e-06,
      "loss": 3.1436,
      "step": 54000
    },
    {
      "epoch": 0.9024818250188017,
      "eval_loss": 3.180774688720703,
      "eval_runtime": 22.293,
      "eval_samples_per_second": 200.152,
      "eval_steps_per_second": 25.03,
      "step": 54000
    },
    {
      "epoch": 0.9108381382134202,
      "grad_norm": 16.117996215820312,
      "learning_rate": 4.515884385270077e-06,
      "loss": 3.1288,
      "step": 54500
    },
    {
      "epoch": 0.9191944514080388,
      "grad_norm": 12.458276748657227,
      "learning_rate": 4.094547905957698e-06,
      "loss": 3.0763,
      "step": 55000
    },
    {
      "epoch": 0.9191944514080388,
      "eval_loss": 3.175370216369629,
      "eval_runtime": 22.253,
      "eval_samples_per_second": 200.513,
      "eval_steps_per_second": 25.075,
      "step": 55000
    },
    {
      "epoch": 0.9275507646026573,
      "grad_norm": 14.115385055541992,
      "learning_rate": 3.6732114266453192e-06,
      "loss": 3.0642,
      "step": 55500
    },
    {
      "epoch": 0.9359070777972759,
      "grad_norm": 19.65464210510254,
      "learning_rate": 3.2518749473329403e-06,
      "loss": 3.1248,
      "step": 56000
    },
    {
      "epoch": 0.9359070777972759,
      "eval_loss": 3.1690962314605713,
      "eval_runtime": 22.3258,
      "eval_samples_per_second": 199.858,
      "eval_steps_per_second": 24.993,
      "step": 56000
    },
    {
      "epoch": 0.9442633909918944,
      "grad_norm": 11.953753471374512,
      "learning_rate": 2.831381140979186e-06,
      "loss": 3.1361,
      "step": 56500
    },
    {
      "epoch": 0.9526197041865129,
      "grad_norm": 10.821110725402832,
      "learning_rate": 2.4108873346254323e-06,
      "loss": 3.0418,
      "step": 57000
    },
    {
      "epoch": 0.9526197041865129,
      "eval_loss": 3.164776563644409,
      "eval_runtime": 22.2464,
      "eval_samples_per_second": 200.572,
      "eval_steps_per_second": 25.083,
      "step": 57000
    },
    {
      "epoch": 0.9609760173811315,
      "grad_norm": 11.476717948913574,
      "learning_rate": 1.9895508553130533e-06,
      "loss": 3.0504,
      "step": 57500
    },
    {
      "epoch": 0.96933233057575,
      "grad_norm": 10.973363876342773,
      "learning_rate": 1.5682143760006742e-06,
      "loss": 3.0755,
      "step": 58000
    },
    {
      "epoch": 0.96933233057575,
      "eval_loss": 3.1603705883026123,
      "eval_runtime": 22.272,
      "eval_samples_per_second": 200.341,
      "eval_steps_per_second": 25.054,
      "step": 58000
    },
    {
      "epoch": 0.9776886437703685,
      "grad_norm": 10.836787223815918,
      "learning_rate": 1.1468778966882954e-06,
      "loss": 3.1001,
      "step": 58500
    },
    {
      "epoch": 0.9860449569649871,
      "grad_norm": 13.901703834533691,
      "learning_rate": 7.255414173759165e-07,
      "loss": 3.0633,
      "step": 59000
    },
    {
      "epoch": 0.9860449569649871,
      "eval_loss": 3.1587648391723633,
      "eval_runtime": 22.3994,
      "eval_samples_per_second": 199.202,
      "eval_steps_per_second": 24.911,
      "step": 59000
    },
    {
      "epoch": 0.9944012701596056,
      "grad_norm": 19.022567749023438,
      "learning_rate": 3.0420493806353753e-07,
      "loss": 3.0751,
      "step": 59500
    }
  ],
  "logging_steps": 500,
  "max_steps": 59835,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.943723113325527e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}