{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.3281682346430548,
  "eval_steps": 500,
  "global_step": 600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002213613724405091,
      "grad_norm": 0.18700768053531647,
      "learning_rate": 2.02e-06,
      "loss": 0.6865,
      "step": 1
    },
    {
      "epoch": 0.004427227448810182,
      "grad_norm": 0.17365869879722595,
      "learning_rate": 4.04e-06,
      "loss": 0.6578,
      "step": 2
    },
    {
      "epoch": 0.006640841173215274,
      "grad_norm": 0.17883311212062836,
      "learning_rate": 6.06e-06,
      "loss": 0.6698,
      "step": 3
    },
    {
      "epoch": 0.008854454897620365,
      "grad_norm": 0.18256227672100067,
      "learning_rate": 8.08e-06,
      "loss": 0.6731,
      "step": 4
    },
    {
      "epoch": 0.011068068622025456,
      "grad_norm": 0.1822108030319214,
      "learning_rate": 1.0100000000000002e-05,
      "loss": 0.6804,
      "step": 5
    },
    {
      "epoch": 0.013281682346430549,
      "grad_norm": 0.1872265636920929,
      "learning_rate": 1.212e-05,
      "loss": 0.69,
      "step": 6
    },
    {
      "epoch": 0.01549529607083564,
      "grad_norm": 0.19074641168117523,
      "learning_rate": 1.4140000000000002e-05,
      "loss": 0.6794,
      "step": 7
    },
    {
      "epoch": 0.01770890979524073,
      "grad_norm": 0.18864290416240692,
      "learning_rate": 1.616e-05,
      "loss": 0.6721,
      "step": 8
    },
    {
      "epoch": 0.01992252351964582,
      "grad_norm": 0.19377554953098297,
      "learning_rate": 1.818e-05,
      "loss": 0.6648,
      "step": 9
    },
    {
      "epoch": 0.02213613724405091,
      "grad_norm": 0.19882291555404663,
      "learning_rate": 2.0200000000000003e-05,
      "loss": 0.664,
      "step": 10
    },
    {
      "epoch": 0.024349750968456003,
      "grad_norm": 0.1990983784198761,
      "learning_rate": 2.222e-05,
      "loss": 0.6743,
      "step": 11
    },
    {
      "epoch": 0.026563364692861097,
      "grad_norm": 0.21186424791812897,
      "learning_rate": 2.424e-05,
      "loss": 0.6619,
      "step": 12
    },
    {
      "epoch": 0.02877697841726619,
      "grad_norm": 0.20323245227336884,
      "learning_rate": 2.6260000000000003e-05,
      "loss": 0.6238,
      "step": 13
    },
    {
      "epoch": 0.03099059214167128,
      "grad_norm": 0.20420745015144348,
      "learning_rate": 2.8280000000000004e-05,
      "loss": 0.6362,
      "step": 14
    },
    {
      "epoch": 0.03320420586607637,
      "grad_norm": 0.20887213945388794,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 0.606,
      "step": 15
    },
    {
      "epoch": 0.03541781959048146,
      "grad_norm": 0.206735298037529,
      "learning_rate": 3.232e-05,
      "loss": 0.5962,
      "step": 16
    },
    {
      "epoch": 0.03763143331488655,
      "grad_norm": 0.20067299902439117,
      "learning_rate": 3.434e-05,
      "loss": 0.5591,
      "step": 17
    },
    {
      "epoch": 0.03984504703929164,
      "grad_norm": 0.20024433732032776,
      "learning_rate": 3.636e-05,
      "loss": 0.5319,
      "step": 18
    },
    {
      "epoch": 0.042058660763696736,
      "grad_norm": 0.22188903391361237,
      "learning_rate": 3.838e-05,
      "loss": 0.5198,
      "step": 19
    },
    {
      "epoch": 0.04427227448810182,
      "grad_norm": 0.24855516850948334,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.4885,
      "step": 20
    },
    {
      "epoch": 0.04648588821250692,
      "grad_norm": 0.28083479404449463,
      "learning_rate": 4.242e-05,
      "loss": 0.4925,
      "step": 21
    },
    {
      "epoch": 0.048699501936912006,
      "grad_norm": 0.2987017035484314,
      "learning_rate": 4.444e-05,
      "loss": 0.4401,
      "step": 22
    },
    {
      "epoch": 0.0509131156613171,
      "grad_norm": 0.35785526037216187,
      "learning_rate": 4.6460000000000006e-05,
      "loss": 0.3978,
      "step": 23
    },
    {
      "epoch": 0.053126729385722195,
      "grad_norm": 0.32857856154441833,
      "learning_rate": 4.848e-05,
      "loss": 0.3607,
      "step": 24
    },
    {
      "epoch": 0.05534034311012728,
      "grad_norm": 0.29708483815193176,
      "learning_rate": 5.05e-05,
      "loss": 0.3333,
      "step": 25
    },
    {
      "epoch": 0.05755395683453238,
      "grad_norm": 0.29024407267570496,
      "learning_rate": 5.2520000000000005e-05,
      "loss": 0.2964,
      "step": 26
    },
    {
      "epoch": 0.059767570558937465,
      "grad_norm": 0.25737300515174866,
      "learning_rate": 5.454e-05,
      "loss": 0.2477,
      "step": 27
    },
    {
      "epoch": 0.06198118428334256,
      "grad_norm": 0.21517537534236908,
      "learning_rate": 5.656000000000001e-05,
      "loss": 0.2359,
      "step": 28
    },
    {
      "epoch": 0.06419479800774765,
      "grad_norm": 0.1611553579568863,
      "learning_rate": 5.858e-05,
      "loss": 0.218,
      "step": 29
    },
    {
      "epoch": 0.06640841173215274,
      "grad_norm": 0.14061059057712555,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 0.1999,
      "step": 30
    },
    {
      "epoch": 0.06862202545655784,
      "grad_norm": 0.13610747456550598,
      "learning_rate": 6.262000000000001e-05,
      "loss": 0.1843,
      "step": 31
    },
    {
      "epoch": 0.07083563918096292,
      "grad_norm": 0.11832637339830399,
      "learning_rate": 6.464e-05,
      "loss": 0.1953,
      "step": 32
    },
    {
      "epoch": 0.07304925290536801,
      "grad_norm": 0.11458611488342285,
      "learning_rate": 6.666e-05,
      "loss": 0.182,
      "step": 33
    },
    {
      "epoch": 0.0752628666297731,
      "grad_norm": 0.1038408949971199,
      "learning_rate": 6.868e-05,
      "loss": 0.183,
      "step": 34
    },
    {
      "epoch": 0.0774764803541782,
      "grad_norm": 0.09620176255702972,
      "learning_rate": 7.07e-05,
      "loss": 0.1666,
      "step": 35
    },
    {
      "epoch": 0.07969009407858328,
      "grad_norm": 0.08542080223560333,
      "learning_rate": 7.272e-05,
      "loss": 0.1734,
      "step": 36
    },
    {
      "epoch": 0.08190370780298838,
      "grad_norm": 0.08122840523719788,
      "learning_rate": 7.474e-05,
      "loss": 0.1709,
      "step": 37
    },
    {
      "epoch": 0.08411732152739347,
      "grad_norm": 0.07992250472307205,
      "learning_rate": 7.676e-05,
      "loss": 0.166,
      "step": 38
    },
    {
      "epoch": 0.08633093525179857,
      "grad_norm": 0.07285529375076294,
      "learning_rate": 7.878e-05,
      "loss": 0.1637,
      "step": 39
    },
    {
      "epoch": 0.08854454897620365,
      "grad_norm": 0.07585461437702179,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.1703,
      "step": 40
    },
    {
      "epoch": 0.09075816270060874,
      "grad_norm": 0.07323379069566727,
      "learning_rate": 8.282e-05,
      "loss": 0.1627,
      "step": 41
    },
    {
      "epoch": 0.09297177642501384,
      "grad_norm": 0.05850767716765404,
      "learning_rate": 8.484e-05,
      "loss": 0.1547,
      "step": 42
    },
    {
      "epoch": 0.09518539014941893,
      "grad_norm": 0.06076705455780029,
      "learning_rate": 8.686e-05,
      "loss": 0.1506,
      "step": 43
    },
    {
      "epoch": 0.09739900387382401,
      "grad_norm": 0.058945171535015106,
      "learning_rate": 8.888e-05,
      "loss": 0.1492,
      "step": 44
    },
    {
      "epoch": 0.0996126175982291,
      "grad_norm": 0.05601092800498009,
      "learning_rate": 9.09e-05,
      "loss": 0.1441,
      "step": 45
    },
    {
      "epoch": 0.1018262313226342,
      "grad_norm": 0.05833274498581886,
      "learning_rate": 9.292000000000001e-05,
      "loss": 0.1514,
      "step": 46
    },
    {
      "epoch": 0.1040398450470393,
      "grad_norm": 0.05601855367422104,
      "learning_rate": 9.494e-05,
      "loss": 0.1395,
      "step": 47
    },
    {
      "epoch": 0.10625345877144439,
      "grad_norm": 0.052617453038692474,
      "learning_rate": 9.696e-05,
      "loss": 0.1573,
      "step": 48
    },
    {
      "epoch": 0.10846707249584947,
      "grad_norm": 0.05046665295958519,
      "learning_rate": 9.898e-05,
      "loss": 0.1439,
      "step": 49
    },
    {
      "epoch": 0.11068068622025456,
      "grad_norm": 0.05676016956567764,
      "learning_rate": 0.000101,
      "loss": 0.1475,
      "step": 50
    },
    {
      "epoch": 0.11289429994465966,
      "grad_norm": 0.053901076316833496,
      "learning_rate": 0.00010302,
      "loss": 0.1477,
      "step": 51
    },
    {
      "epoch": 0.11510791366906475,
      "grad_norm": 0.05030268803238869,
      "learning_rate": 0.00010504000000000001,
      "loss": 0.1343,
      "step": 52
    },
    {
      "epoch": 0.11732152739346983,
      "grad_norm": 0.050973717123270035,
      "learning_rate": 0.00010706000000000001,
      "loss": 0.1308,
      "step": 53
    },
    {
      "epoch": 0.11953514111787493,
      "grad_norm": 0.055162567645311356,
      "learning_rate": 0.00010908,
      "loss": 0.1496,
      "step": 54
    },
    {
      "epoch": 0.12174875484228002,
      "grad_norm": 0.05348692089319229,
      "learning_rate": 0.00011110000000000002,
      "loss": 0.1467,
      "step": 55
    },
    {
      "epoch": 0.12396236856668512,
      "grad_norm": 0.05057045817375183,
      "learning_rate": 0.00011312000000000001,
      "loss": 0.135,
      "step": 56
    },
    {
      "epoch": 0.1261759822910902,
      "grad_norm": 0.04711088538169861,
      "learning_rate": 0.00011514,
      "loss": 0.1313,
      "step": 57
    },
    {
      "epoch": 0.1283895960154953,
      "grad_norm": 0.05497043579816818,
      "learning_rate": 0.00011716,
      "loss": 0.1388,
      "step": 58
    },
    {
      "epoch": 0.1306032097399004,
      "grad_norm": 0.05563517287373543,
      "learning_rate": 0.00011918,
      "loss": 0.1338,
      "step": 59
    },
    {
      "epoch": 0.13281682346430548,
      "grad_norm": 0.05458877235651016,
      "learning_rate": 0.00012119999999999999,
      "loss": 0.1428,
      "step": 60
    },
    {
      "epoch": 0.13503043718871058,
      "grad_norm": 0.047008488327264786,
      "learning_rate": 0.00012322,
      "loss": 0.1374,
      "step": 61
    },
    {
      "epoch": 0.13724405091311567,
      "grad_norm": 0.059210166335105896,
      "learning_rate": 0.00012524000000000001,
      "loss": 0.1356,
      "step": 62
    },
    {
      "epoch": 0.13945766463752074,
      "grad_norm": 0.05025854706764221,
      "learning_rate": 0.00012726,
      "loss": 0.1344,
      "step": 63
    },
    {
      "epoch": 0.14167127836192583,
      "grad_norm": 0.04769739881157875,
      "learning_rate": 0.00012928,
      "loss": 0.1322,
      "step": 64
    },
    {
      "epoch": 0.14388489208633093,
      "grad_norm": 0.06844411790370941,
      "learning_rate": 0.00013130000000000002,
      "loss": 0.1456,
      "step": 65
    },
    {
      "epoch": 0.14609850581073602,
      "grad_norm": 0.04708211123943329,
      "learning_rate": 0.00013332,
      "loss": 0.1273,
      "step": 66
    },
    {
      "epoch": 0.14831211953514112,
      "grad_norm": 0.04939746484160423,
      "learning_rate": 0.00013534000000000002,
      "loss": 0.1339,
      "step": 67
    },
    {
      "epoch": 0.1505257332595462,
      "grad_norm": 0.05495833232998848,
      "learning_rate": 0.00013736,
      "loss": 0.1334,
      "step": 68
    },
    {
      "epoch": 0.1527393469839513,
      "grad_norm": 0.050117604434490204,
      "learning_rate": 0.00013937999999999998,
      "loss": 0.1241,
      "step": 69
    },
    {
      "epoch": 0.1549529607083564,
      "grad_norm": 0.057771578431129456,
      "learning_rate": 0.0001414,
      "loss": 0.1399,
      "step": 70
    },
    {
      "epoch": 0.1571665744327615,
      "grad_norm": 0.056411534547805786,
      "learning_rate": 0.00014342,
      "loss": 0.1295,
      "step": 71
    },
    {
      "epoch": 0.15938018815716656,
      "grad_norm": 0.05043024942278862,
      "learning_rate": 0.00014544,
      "loss": 0.1305,
      "step": 72
    },
    {
      "epoch": 0.16159380188157166,
      "grad_norm": 0.05411233380436897,
      "learning_rate": 0.00014746,
      "loss": 0.1254,
      "step": 73
    },
    {
      "epoch": 0.16380741560597675,
      "grad_norm": 0.05456813424825668,
      "learning_rate": 0.00014948,
      "loss": 0.1238,
      "step": 74
    },
    {
      "epoch": 0.16602102933038185,
      "grad_norm": 0.051864396780729294,
      "learning_rate": 0.0001515,
      "loss": 0.1202,
      "step": 75
    },
    {
      "epoch": 0.16823464305478694,
      "grad_norm": 0.05158910155296326,
      "learning_rate": 0.00015352,
      "loss": 0.1253,
      "step": 76
    },
    {
      "epoch": 0.17044825677919204,
      "grad_norm": 0.05214162915945053,
      "learning_rate": 0.00015554000000000002,
      "loss": 0.1228,
      "step": 77
    },
    {
      "epoch": 0.17266187050359713,
      "grad_norm": 0.04955484718084335,
      "learning_rate": 0.00015756,
      "loss": 0.123,
      "step": 78
    },
    {
      "epoch": 0.17487548422800223,
      "grad_norm": 0.048863403499126434,
      "learning_rate": 0.00015958000000000001,
      "loss": 0.1254,
      "step": 79
    },
    {
      "epoch": 0.1770890979524073,
      "grad_norm": 0.05825053155422211,
      "learning_rate": 0.00016160000000000002,
      "loss": 0.1201,
      "step": 80
    },
    {
      "epoch": 0.1793027116768124,
      "grad_norm": 0.05916124954819679,
      "learning_rate": 0.00016362,
      "loss": 0.127,
      "step": 81
    },
    {
      "epoch": 0.18151632540121748,
      "grad_norm": 0.06291496008634567,
      "learning_rate": 0.00016564,
      "loss": 0.1287,
      "step": 82
    },
    {
      "epoch": 0.18372993912562258,
      "grad_norm": 0.06128452345728874,
      "learning_rate": 0.00016766,
      "loss": 0.1231,
      "step": 83
    },
    {
      "epoch": 0.18594355285002767,
      "grad_norm": 0.05924968421459198,
      "learning_rate": 0.00016968,
      "loss": 0.1226,
      "step": 84
    },
    {
      "epoch": 0.18815716657443277,
      "grad_norm": 0.061334043741226196,
      "learning_rate": 0.0001717,
      "loss": 0.1228,
      "step": 85
    },
    {
      "epoch": 0.19037078029883786,
      "grad_norm": 0.0736006647348404,
      "learning_rate": 0.00017372,
      "loss": 0.1225,
      "step": 86
    },
    {
      "epoch": 0.19258439402324296,
      "grad_norm": 0.0733736976981163,
      "learning_rate": 0.00017574,
      "loss": 0.1174,
      "step": 87
    },
    {
      "epoch": 0.19479800774764802,
      "grad_norm": 0.07361938059329987,
      "learning_rate": 0.00017776,
      "loss": 0.1304,
      "step": 88
    },
    {
      "epoch": 0.19701162147205312,
      "grad_norm": 0.062125205993652344,
      "learning_rate": 0.00017978000000000002,
      "loss": 0.121,
      "step": 89
    },
    {
      "epoch": 0.1992252351964582,
      "grad_norm": 0.06771834194660187,
      "learning_rate": 0.0001818,
      "loss": 0.1189,
      "step": 90
    },
    {
      "epoch": 0.2014388489208633,
      "grad_norm": 0.06287439167499542,
      "learning_rate": 0.00018382,
      "loss": 0.1205,
      "step": 91
    },
    {
      "epoch": 0.2036524626452684,
      "grad_norm": 0.08003047853708267,
      "learning_rate": 0.00018584000000000002,
      "loss": 0.1217,
      "step": 92
    },
    {
      "epoch": 0.2058660763696735,
      "grad_norm": 0.061133332550525665,
      "learning_rate": 0.00018786,
      "loss": 0.1248,
      "step": 93
    },
    {
      "epoch": 0.2080796900940786,
      "grad_norm": 0.07510392367839813,
      "learning_rate": 0.00018988,
      "loss": 0.1168,
      "step": 94
    },
    {
      "epoch": 0.21029330381848368,
      "grad_norm": 0.0626484677195549,
      "learning_rate": 0.0001919,
      "loss": 0.1193,
      "step": 95
    },
    {
      "epoch": 0.21250691754288878,
      "grad_norm": 0.06363672763109207,
      "learning_rate": 0.00019392,
      "loss": 0.1294,
      "step": 96
    },
    {
      "epoch": 0.21472053126729385,
      "grad_norm": 0.06432854384183884,
      "learning_rate": 0.00019594,
      "loss": 0.1127,
      "step": 97
    },
    {
      "epoch": 0.21693414499169894,
      "grad_norm": 0.06528935581445694,
      "learning_rate": 0.00019796,
      "loss": 0.1228,
      "step": 98
    },
    {
      "epoch": 0.21914775871610404,
      "grad_norm": 0.056662775576114655,
      "learning_rate": 0.00019998,
      "loss": 0.1143,
      "step": 99
    },
    {
      "epoch": 0.22136137244050913,
      "grad_norm": 0.060945093631744385,
      "learning_rate": 0.000202,
      "loss": 0.1267,
      "step": 100
    },
    {
      "epoch": 0.22357498616491422,
      "grad_norm": 0.06570828706026077,
      "learning_rate": 0.00020199800634646984,
      "loss": 0.1206,
      "step": 101
    },
    {
      "epoch": 0.22578859988931932,
      "grad_norm": 0.05616966634988785,
      "learning_rate": 0.00020199202546458545,
      "loss": 0.1151,
      "step": 102
    },
    {
      "epoch": 0.2280022136137244,
      "grad_norm": 0.07150031626224518,
      "learning_rate": 0.00020198205759046172,
      "loss": 0.1123,
      "step": 103
    },
    {
      "epoch": 0.2302158273381295,
      "grad_norm": 0.05906100943684578,
      "learning_rate": 0.00020196810311761329,
      "loss": 0.1184,
      "step": 104
    },
    {
      "epoch": 0.23242944106253458,
      "grad_norm": 0.0674620121717453,
      "learning_rate": 0.0002019501625969389,
      "loss": 0.1216,
      "step": 105
    },
    {
      "epoch": 0.23464305478693967,
      "grad_norm": 0.0677204579114914,
      "learning_rate": 0.0002019282367366995,
      "loss": 0.1111,
      "step": 106
    },
    {
      "epoch": 0.23685666851134476,
      "grad_norm": 0.05657443404197693,
      "learning_rate": 0.0002019023264024906,
      "loss": 0.1189,
      "step": 107
    },
    {
      "epoch": 0.23907028223574986,
      "grad_norm": 0.07203027606010437,
      "learning_rate": 0.00020187243261720779,
      "loss": 0.1159,
      "step": 108
    },
    {
      "epoch": 0.24128389596015495,
      "grad_norm": 0.05823586508631706,
      "learning_rate": 0.00020183855656100648,
      "loss": 0.112,
      "step": 109
    },
    {
      "epoch": 0.24349750968456005,
      "grad_norm": 0.07423489540815353,
      "learning_rate": 0.00020180069957125544,
      "loss": 0.1177,
      "step": 110
    },
    {
      "epoch": 0.24571112340896514,
      "grad_norm": 0.06276530027389526,
      "learning_rate": 0.00020175886314248374,
      "loss": 0.1161,
      "step": 111
    },
    {
      "epoch": 0.24792473713337024,
      "grad_norm": 0.07454822212457657,
      "learning_rate": 0.000201713048926322,
      "loss": 0.1235,
      "step": 112
    },
    {
      "epoch": 0.2501383508577753,
      "grad_norm": 0.05699668824672699,
      "learning_rate": 0.000201663258731437,
      "loss": 0.1044,
      "step": 113
    },
    {
      "epoch": 0.2523519645821804,
      "grad_norm": 0.06741677969694138,
      "learning_rate": 0.00020160949452346043,
      "loss": 0.122,
      "step": 114
    },
    {
      "epoch": 0.2545655783065855,
      "grad_norm": 0.05947846919298172,
      "learning_rate": 0.00020155175842491107,
      "loss": 0.1141,
      "step": 115
    },
    {
      "epoch": 0.2567791920309906,
      "grad_norm": 0.05743291229009628,
      "learning_rate": 0.00020149005271511133,
      "loss": 0.1082,
      "step": 116
    },
    {
      "epoch": 0.2589928057553957,
      "grad_norm": 0.07112299650907516,
      "learning_rate": 0.0002014243798300969,
      "loss": 0.1171,
      "step": 117
    },
    {
      "epoch": 0.2612064194798008,
      "grad_norm": 0.057768065482378006,
      "learning_rate": 0.00020135474236252085,
      "loss": 0.1189,
      "step": 118
    },
    {
      "epoch": 0.2634200332042059,
      "grad_norm": 0.059569794684648514,
      "learning_rate": 0.00020128114306155117,
      "loss": 0.1184,
      "step": 119
    },
    {
      "epoch": 0.26563364692861097,
      "grad_norm": 0.06188869848847389,
      "learning_rate": 0.00020120358483276227,
      "loss": 0.1183,
      "step": 120
    },
    {
      "epoch": 0.26784726065301606,
      "grad_norm": 0.05982523411512375,
      "learning_rate": 0.00020112207073802018,
      "loss": 0.1085,
      "step": 121
    },
    {
      "epoch": 0.27006087437742116,
      "grad_norm": 0.054782796651124954,
      "learning_rate": 0.00020103660399536176,
      "loss": 0.1162,
      "step": 122
    },
    {
      "epoch": 0.27227448810182625,
      "grad_norm": 0.06430336087942123,
      "learning_rate": 0.00020094718797886773,
      "loss": 0.1145,
      "step": 123
    },
    {
      "epoch": 0.27448810182623135,
      "grad_norm": 0.06522136181592941,
      "learning_rate": 0.00020085382621852933,
      "loss": 0.118,
      "step": 124
    },
    {
      "epoch": 0.27670171555063644,
      "grad_norm": 0.057066064327955246,
      "learning_rate": 0.00020075652240010892,
      "loss": 0.1165,
      "step": 125
    },
    {
      "epoch": 0.2789153292750415,
      "grad_norm": 0.06403174251317978,
      "learning_rate": 0.00020065528036499467,
      "loss": 0.1166,
      "step": 126
    },
    {
      "epoch": 0.2811289429994466,
      "grad_norm": 0.054746363312006,
      "learning_rate": 0.0002005501041100488,
      "loss": 0.1114,
      "step": 127
    },
    {
      "epoch": 0.28334255672385167,
      "grad_norm": 0.05794311314821243,
      "learning_rate": 0.00020044099778744975,
      "loss": 0.1138,
      "step": 128
    },
    {
      "epoch": 0.28555617044825676,
      "grad_norm": 0.057617563754320145,
      "learning_rate": 0.00020032796570452832,
      "loss": 0.1122,
      "step": 129
    },
    {
      "epoch": 0.28776978417266186,
      "grad_norm": 0.05604754760861397,
      "learning_rate": 0.00020021101232359757,
      "loss": 0.1173,
      "step": 130
    },
    {
      "epoch": 0.28998339789706695,
      "grad_norm": 0.0522674098610878,
      "learning_rate": 0.00020009014226177673,
      "loss": 0.1084,
      "step": 131
    },
    {
      "epoch": 0.29219701162147205,
      "grad_norm": 0.057841792702674866,
      "learning_rate": 0.00019996536029080893,
      "loss": 0.1067,
      "step": 132
    },
    {
      "epoch": 0.29441062534587714,
      "grad_norm": 0.05624908208847046,
      "learning_rate": 0.00019983667133687268,
      "loss": 0.1098,
      "step": 133
    },
    {
      "epoch": 0.29662423907028224,
      "grad_norm": 0.0583077035844326,
      "learning_rate": 0.00019970408048038756,
      "loss": 0.1131,
      "step": 134
    },
    {
      "epoch": 0.29883785279468733,
      "grad_norm": 0.055761851370334625,
      "learning_rate": 0.0001995675929558135,
      "loss": 0.1077,
      "step": 135
    },
    {
      "epoch": 0.3010514665190924,
      "grad_norm": 0.05490030720829964,
      "learning_rate": 0.0001994272141514443,
      "loss": 0.1086,
      "step": 136
    },
    {
      "epoch": 0.3032650802434975,
      "grad_norm": 0.05592850595712662,
      "learning_rate": 0.0001992829496091948,
      "loss": 0.1064,
      "step": 137
    },
    {
      "epoch": 0.3054786939679026,
      "grad_norm": 0.06564788520336151,
      "learning_rate": 0.00019913480502438207,
      "loss": 0.1148,
      "step": 138
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 0.060594383627176285,
      "learning_rate": 0.0001989827862455007,
      "loss": 0.1088,
      "step": 139
    },
    {
      "epoch": 0.3099059214167128,
      "grad_norm": 0.05725463852286339,
      "learning_rate": 0.00019882689927399174,
      "loss": 0.1149,
      "step": 140
    },
    {
      "epoch": 0.3121195351411179,
      "grad_norm": 0.057768531143665314,
      "learning_rate": 0.00019866715026400594,
      "loss": 0.1111,
      "step": 141
    },
    {
      "epoch": 0.314333148865523,
      "grad_norm": 0.05450383573770523,
      "learning_rate": 0.00019850354552216067,
      "loss": 0.095,
      "step": 142
    },
    {
      "epoch": 0.31654676258992803,
      "grad_norm": 0.059940584003925323,
      "learning_rate": 0.000198336091507291,
      "loss": 0.1035,
      "step": 143
    },
    {
      "epoch": 0.3187603763143331,
      "grad_norm": 0.05711367353796959,
      "learning_rate": 0.00019816479483019469,
      "loss": 0.1073,
      "step": 144
    },
    {
      "epoch": 0.3209739900387382,
      "grad_norm": 0.05912476405501366,
      "learning_rate": 0.00019798966225337126,
      "loss": 0.1138,
      "step": 145
    },
    {
      "epoch": 0.3231876037631433,
      "grad_norm": 0.056836798787117004,
      "learning_rate": 0.00019781070069075496,
      "loss": 0.1089,
      "step": 146
    },
    {
      "epoch": 0.3254012174875484,
      "grad_norm": 0.0560414120554924,
      "learning_rate": 0.00019762791720744188,
      "loss": 0.1135,
      "step": 147
    },
    {
      "epoch": 0.3276148312119535,
      "grad_norm": 0.05225170776247978,
      "learning_rate": 0.00019744131901941095,
      "loss": 0.1101,
      "step": 148
    },
    {
      "epoch": 0.3298284449363586,
      "grad_norm": 0.05294935405254364,
      "learning_rate": 0.0001972509134932391,
      "loss": 0.1085,
      "step": 149
    },
    {
      "epoch": 0.3320420586607637,
      "grad_norm": 0.055920619517564774,
      "learning_rate": 0.00019705670814581052,
      "loss": 0.1095,
      "step": 150
    },
    {
      "epoch": 0.3342556723851688,
      "grad_norm": 0.05386191979050636,
      "learning_rate": 0.00019685871064401976,
      "loss": 0.1091,
      "step": 151
    },
    {
      "epoch": 0.3364692861095739,
      "grad_norm": 0.05936359614133835,
      "learning_rate": 0.00019665692880446918,
      "loss": 0.1098,
      "step": 152
    },
    {
      "epoch": 0.338682899833979,
      "grad_norm": 0.05488903075456619,
      "learning_rate": 0.0001964513705931603,
      "loss": 0.1082,
      "step": 153
    },
    {
      "epoch": 0.3408965135583841,
      "grad_norm": 0.05924013629555702,
      "learning_rate": 0.00019624204412517932,
      "loss": 0.1031,
      "step": 154
    },
    {
      "epoch": 0.34311012728278917,
      "grad_norm": 0.05193838104605675,
      "learning_rate": 0.00019602895766437678,
      "loss": 0.0987,
      "step": 155
    },
    {
      "epoch": 0.34532374100719426,
      "grad_norm": 0.06212494894862175,
      "learning_rate": 0.0001958121196230413,
      "loss": 0.1053,
      "step": 156
    },
    {
      "epoch": 0.34753735473159936,
      "grad_norm": 0.055125847458839417,
      "learning_rate": 0.00019559153856156742,
      "loss": 0.1086,
      "step": 157
    },
    {
      "epoch": 0.34975096845600445,
      "grad_norm": 0.05868858844041824,
      "learning_rate": 0.00019536722318811784,
      "loss": 0.1046,
      "step": 158
    },
    {
      "epoch": 0.3519645821804095,
      "grad_norm": 0.05136340856552124,
      "learning_rate": 0.0001951391823582793,
      "loss": 0.1089,
      "step": 159
    },
    {
      "epoch": 0.3541781959048146,
      "grad_norm": 0.05976104363799095,
      "learning_rate": 0.00019490742507471338,
      "loss": 0.1078,
      "step": 160
    },
    {
      "epoch": 0.3563918096292197,
      "grad_norm": 0.05838807672262192,
      "learning_rate": 0.00019467196048680082,
      "loss": 0.1012,
      "step": 161
    },
    {
      "epoch": 0.3586054233536248,
      "grad_norm": 0.05167590081691742,
      "learning_rate": 0.00019443279789028027,
      "loss": 0.1053,
      "step": 162
    },
    {
      "epoch": 0.36081903707802987,
      "grad_norm": 0.05848187208175659,
      "learning_rate": 0.00019418994672688162,
      "loss": 0.1108,
      "step": 163
    },
    {
      "epoch": 0.36303265080243496,
      "grad_norm": 0.05634130910038948,
      "learning_rate": 0.0001939434165839529,
      "loss": 0.1051,
      "step": 164
    },
    {
      "epoch": 0.36524626452684006,
      "grad_norm": 0.0583169087767601,
      "learning_rate": 0.0001936932171940821,
      "loss": 0.1099,
      "step": 165
    },
    {
      "epoch": 0.36745987825124515,
      "grad_norm": 0.05432077497243881,
      "learning_rate": 0.00019343935843471269,
      "loss": 0.1058,
      "step": 166
    },
    {
      "epoch": 0.36967349197565025,
      "grad_norm": 0.06031405180692673,
      "learning_rate": 0.0001931818503277538,
      "loss": 0.1048,
      "step": 167
    },
    {
      "epoch": 0.37188710570005534,
      "grad_norm": 0.05366112291812897,
      "learning_rate": 0.00019292070303918456,
      "loss": 0.1061,
      "step": 168
    },
    {
      "epoch": 0.37410071942446044,
      "grad_norm": 0.061598941683769226,
      "learning_rate": 0.0001926559268786528,
      "loss": 0.1075,
      "step": 169
    },
    {
      "epoch": 0.37631433314886553,
      "grad_norm": 0.05797416344285011,
      "learning_rate": 0.00019238753229906797,
      "loss": 0.1074,
      "step": 170
    },
    {
      "epoch": 0.3785279468732706,
      "grad_norm": 0.05495131388306618,
      "learning_rate": 0.00019211552989618848,
      "loss": 0.1123,
      "step": 171
    },
    {
      "epoch": 0.3807415605976757,
      "grad_norm": 0.05574244633316994,
      "learning_rate": 0.0001918399304082035,
      "loss": 0.1077,
      "step": 172
    },
    {
      "epoch": 0.3829551743220808,
      "grad_norm": 0.052529409527778625,
      "learning_rate": 0.00019156074471530883,
      "loss": 0.1069,
      "step": 173
    },
    {
      "epoch": 0.3851687880464859,
      "grad_norm": 0.06319060921669006,
      "learning_rate": 0.00019127798383927766,
      "loss": 0.1117,
      "step": 174
    },
    {
      "epoch": 0.387382401770891,
      "grad_norm": 0.05489332601428032,
      "learning_rate": 0.00019099165894302515,
      "loss": 0.1076,
      "step": 175
    },
    {
      "epoch": 0.38959601549529604,
      "grad_norm": 0.05898142606019974,
      "learning_rate": 0.000190701781330168,
      "loss": 0.1057,
      "step": 176
    },
    {
      "epoch": 0.39180962921970114,
      "grad_norm": 0.05345754325389862,
      "learning_rate": 0.000190408362444578,
      "loss": 0.1011,
      "step": 177
    },
    {
      "epoch": 0.39402324294410623,
      "grad_norm": 0.06309884786605835,
      "learning_rate": 0.0001901114138699303,
      "loss": 0.1057,
      "step": 178
    },
    {
      "epoch": 0.39623685666851133,
      "grad_norm": 0.052138280123472214,
      "learning_rate": 0.00018981094732924616,
      "loss": 0.1096,
      "step": 179
    },
    {
      "epoch": 0.3984504703929164,
      "grad_norm": 0.05644951015710831,
      "learning_rate": 0.0001895069746844302,
      "loss": 0.112,
      "step": 180
    },
    {
      "epoch": 0.4006640841173215,
      "grad_norm": 0.05502810701727867,
      "learning_rate": 0.00018919950793580193,
      "loss": 0.1035,
      "step": 181
    },
    {
      "epoch": 0.4028776978417266,
      "grad_norm": 0.05197180435061455,
      "learning_rate": 0.0001888885592216221,
      "loss": 0.1033,
      "step": 182
    },
    {
      "epoch": 0.4050913115661317,
      "grad_norm": 0.05409747362136841,
      "learning_rate": 0.00018857414081761348,
      "loss": 0.1002,
      "step": 183
    },
    {
      "epoch": 0.4073049252905368,
      "grad_norm": 0.05338505655527115,
      "learning_rate": 0.00018825626513647637,
      "loss": 0.0977,
      "step": 184
    },
    {
      "epoch": 0.4095185390149419,
      "grad_norm": 0.054696545004844666,
      "learning_rate": 0.00018793494472739831,
      "loss": 0.1044,
      "step": 185
    },
    {
      "epoch": 0.411732152739347,
      "grad_norm": 0.05765092745423317,
      "learning_rate": 0.0001876101922755589,
      "loss": 0.1022,
      "step": 186
    },
    {
      "epoch": 0.4139457664637521,
      "grad_norm": 0.05602433159947395,
      "learning_rate": 0.00018728202060162882,
      "loss": 0.0995,
      "step": 187
    },
    {
      "epoch": 0.4161593801881572,
      "grad_norm": 0.06711708754301071,
      "learning_rate": 0.0001869504426612639,
      "loss": 0.1126,
      "step": 188
    },
    {
      "epoch": 0.4183729939125623,
      "grad_norm": 0.05177215114235878,
      "learning_rate": 0.0001866154715445934,
      "loss": 0.0953,
      "step": 189
    },
    {
      "epoch": 0.42058660763696737,
      "grad_norm": 0.07037360221147537,
      "learning_rate": 0.00018627712047570352,
      "loss": 0.1002,
      "step": 190
    },
    {
      "epoch": 0.42280022136137246,
      "grad_norm": 0.05427529290318489,
      "learning_rate": 0.0001859354028121151,
      "loss": 0.0988,
      "step": 191
    },
    {
      "epoch": 0.42501383508577756,
      "grad_norm": 0.0592191256582737,
      "learning_rate": 0.00018559033204425634,
      "loss": 0.1072,
      "step": 192
    },
    {
      "epoch": 0.4272274488101826,
      "grad_norm": 0.056034695357084274,
      "learning_rate": 0.0001852419217949303,
      "loss": 0.0985,
      "step": 193
    },
    {
      "epoch": 0.4294410625345877,
      "grad_norm": 0.06157103553414345,
      "learning_rate": 0.00018489018581877709,
      "loss": 0.103,
      "step": 194
    },
    {
      "epoch": 0.4316546762589928,
      "grad_norm": 0.052041370421648026,
      "learning_rate": 0.00018453513800173072,
      "loss": 0.1025,
      "step": 195
    },
    {
      "epoch": 0.4338682899833979,
      "grad_norm": 0.06048130244016647,
      "learning_rate": 0.00018417679236047116,
      "loss": 0.1097,
      "step": 196
    },
    {
      "epoch": 0.436081903707803,
      "grad_norm": 0.05686245113611221,
      "learning_rate": 0.00018381516304187068,
      "loss": 0.1061,
      "step": 197
    },
    {
      "epoch": 0.43829551743220807,
      "grad_norm": 0.0564442053437233,
      "learning_rate": 0.0001834502643224356,
      "loss": 0.1077,
      "step": 198
    },
    {
      "epoch": 0.44050913115661317,
      "grad_norm": 0.05520084500312805,
      "learning_rate": 0.00018308211060774247,
      "loss": 0.0944,
      "step": 199
    },
    {
      "epoch": 0.44272274488101826,
      "grad_norm": 0.04999931529164314,
      "learning_rate": 0.00018271071643186968,
      "loss": 0.1045,
      "step": 200
    },
    {
      "epoch": 0.44493635860542335,
      "grad_norm": 0.052557121962308884,
      "learning_rate": 0.0001823360964568233,
      "loss": 0.1035,
      "step": 201
    },
    {
      "epoch": 0.44714997232982845,
      "grad_norm": 0.050048310309648514,
      "learning_rate": 0.00018195826547195854,
      "loss": 0.1031,
      "step": 202
    },
    {
      "epoch": 0.44936358605423354,
      "grad_norm": 0.05513640120625496,
      "learning_rate": 0.00018157723839339567,
      "loss": 0.1027,
      "step": 203
    },
    {
      "epoch": 0.45157719977863864,
      "grad_norm": 0.05255535617470741,
      "learning_rate": 0.00018119303026343137,
      "loss": 0.107,
      "step": 204
    },
    {
      "epoch": 0.45379081350304373,
      "grad_norm": 0.0501008965075016,
      "learning_rate": 0.00018080565624994474,
      "loss": 0.1037,
      "step": 205
    },
    {
      "epoch": 0.4560044272274488,
      "grad_norm": 0.051182590425014496,
      "learning_rate": 0.0001804151316457985,
      "loss": 0.1049,
      "step": 206
    },
    {
      "epoch": 0.4582180409518539,
      "grad_norm": 0.05994383245706558,
      "learning_rate": 0.0001800214718682354,
      "loss": 0.094,
      "step": 207
    },
    {
      "epoch": 0.460431654676259,
      "grad_norm": 0.05334024503827095,
      "learning_rate": 0.00017962469245826938,
      "loss": 0.0929,
      "step": 208
    },
    {
      "epoch": 0.4626452684006641,
      "grad_norm": 0.0544343963265419,
      "learning_rate": 0.0001792248090800721,
      "loss": 0.1027,
      "step": 209
    },
    {
      "epoch": 0.46485888212506915,
      "grad_norm": 0.05169939994812012,
      "learning_rate": 0.0001788218375203547,
      "loss": 0.0983,
      "step": 210
    },
    {
      "epoch": 0.46707249584947425,
      "grad_norm": 0.05326651409268379,
      "learning_rate": 0.00017841579368774434,
      "loss": 0.1006,
      "step": 211
    },
    {
      "epoch": 0.46928610957387934,
      "grad_norm": 0.05337775498628616,
      "learning_rate": 0.00017800669361215624,
      "loss": 0.1089,
      "step": 212
    },
    {
      "epoch": 0.47149972329828443,
      "grad_norm": 0.054881252348423004,
      "learning_rate": 0.00017759455344416094,
      "loss": 0.1097,
      "step": 213
    },
    {
      "epoch": 0.47371333702268953,
      "grad_norm": 0.05182883143424988,
      "learning_rate": 0.00017717938945434648,
      "loss": 0.1049,
      "step": 214
    },
    {
      "epoch": 0.4759269507470946,
      "grad_norm": 0.04982960224151611,
      "learning_rate": 0.0001767612180326764,
      "loss": 0.1012,
      "step": 215
    },
    {
      "epoch": 0.4781405644714997,
      "grad_norm": 0.05516966059803963,
      "learning_rate": 0.0001763400556878424,
      "loss": 0.1037,
      "step": 216
    },
    {
      "epoch": 0.4803541781959048,
      "grad_norm": 0.05319411680102348,
      "learning_rate": 0.00017591591904661267,
      "loss": 0.1058,
      "step": 217
    },
    {
      "epoch": 0.4825677919203099,
      "grad_norm": 0.05496533587574959,
      "learning_rate": 0.00017548882485317557,
      "loss": 0.1025,
      "step": 218
    },
    {
      "epoch": 0.484781405644715,
      "grad_norm": 0.058709774166345596,
      "learning_rate": 0.0001750587899684786,
      "loss": 0.1069,
      "step": 219
    },
    {
      "epoch": 0.4869950193691201,
      "grad_norm": 0.06453804671764374,
      "learning_rate": 0.00017462583136956258,
      "loss": 0.0983,
      "step": 220
    },
    {
      "epoch": 0.4892086330935252,
      "grad_norm": 0.052097026258707047,
      "learning_rate": 0.0001741899661488917,
      "loss": 0.097,
      "step": 221
    },
    {
      "epoch": 0.4914222468179303,
      "grad_norm": 0.06481169164180756,
      "learning_rate": 0.0001737512115136786,
      "loss": 0.0998,
      "step": 222
    },
    {
      "epoch": 0.4936358605423354,
      "grad_norm": 0.0589127391576767,
      "learning_rate": 0.00017330958478520495,
      "loss": 0.105,
      "step": 223
    },
    {
      "epoch": 0.4958494742667405,
      "grad_norm": 0.05432052165269852,
      "learning_rate": 0.00017286510339813784,
      "loss": 0.1068,
      "step": 224
    },
    {
      "epoch": 0.49806308799114557,
      "grad_norm": 0.06411155313253403,
      "learning_rate": 0.0001724177848998413,
      "loss": 0.0964,
      "step": 225
    },
    {
      "epoch": 0.5002767017155506,
      "grad_norm": 0.05062282085418701,
      "learning_rate": 0.0001719676469496838,
      "loss": 0.0977,
      "step": 226
    },
    {
      "epoch": 0.5024903154399557,
      "grad_norm": 0.06264515221118927,
      "learning_rate": 0.00017151470731834075,
      "loss": 0.1012,
      "step": 227
    },
    {
      "epoch": 0.5047039291643608,
      "grad_norm": 0.05058835446834564,
      "learning_rate": 0.0001710589838870933,
      "loss": 0.0963,
      "step": 228
    },
    {
      "epoch": 0.5069175428887659,
      "grad_norm": 0.059549618512392044,
      "learning_rate": 0.0001706004946471222,
      "loss": 0.1098,
      "step": 229
    },
    {
      "epoch": 0.509131156613171,
      "grad_norm": 0.0681062713265419,
      "learning_rate": 0.00017013925769879755,
      "loss": 0.0943,
      "step": 230
    },
    {
      "epoch": 0.5113447703375761,
      "grad_norm": 0.05211712792515755,
      "learning_rate": 0.00016967529125096434,
      "loss": 0.0935,
      "step": 231
    },
    {
      "epoch": 0.5135583840619812,
      "grad_norm": 0.06584543734788895,
      "learning_rate": 0.00016920861362022346,
      "loss": 0.1079,
      "step": 232
    },
    {
      "epoch": 0.5157719977863863,
      "grad_norm": 0.05856283754110336,
      "learning_rate": 0.0001687392432302087,
      "loss": 0.1,
      "step": 233
    },
    {
      "epoch": 0.5179856115107914,
      "grad_norm": 0.0630572959780693,
      "learning_rate": 0.00016826719861085941,
      "loss": 0.1003,
      "step": 234
    },
    {
      "epoch": 0.5201992252351965,
      "grad_norm": 0.05135330557823181,
      "learning_rate": 0.00016779249839768884,
      "loss": 0.1023,
      "step": 235
    },
    {
      "epoch": 0.5224128389596016,
      "grad_norm": 0.057699378579854965,
      "learning_rate": 0.0001673151613310486,
      "loss": 0.0984,
      "step": 236
    },
    {
      "epoch": 0.5246264526840066,
      "grad_norm": 0.05483362823724747,
      "learning_rate": 0.00016683520625538877,
      "loss": 0.0928,
      "step": 237
    },
    {
      "epoch": 0.5268400664084117,
      "grad_norm": 0.05561482161283493,
      "learning_rate": 0.0001663526521185139,
      "loss": 0.106,
      "step": 238
    },
    {
      "epoch": 0.5290536801328168,
      "grad_norm": 0.05129164829850197,
      "learning_rate": 0.00016586751797083502,
      "loss": 0.1022,
      "step": 239
    },
    {
      "epoch": 0.5312672938572219,
      "grad_norm": 0.05290685221552849,
      "learning_rate": 0.00016537982296461768,
      "loss": 0.1067,
      "step": 240
    },
    {
      "epoch": 0.533480907581627,
      "grad_norm": 0.05199854448437691,
      "learning_rate": 0.0001648895863532256,
      "loss": 0.1036,
      "step": 241
    },
    {
      "epoch": 0.5356945213060321,
      "grad_norm": 0.04844312369823456,
      "learning_rate": 0.00016439682749036074,
      "loss": 0.0966,
      "step": 242
    },
    {
      "epoch": 0.5379081350304372,
      "grad_norm": 0.05228469520807266,
      "learning_rate": 0.00016390156582929936,
      "loss": 0.106,
      "step": 243
    },
    {
      "epoch": 0.5401217487548423,
      "grad_norm": 0.0567377507686615,
      "learning_rate": 0.00016340382092212377,
      "loss": 0.0899,
      "step": 244
    },
    {
      "epoch": 0.5423353624792474,
      "grad_norm": 0.05302844196557999,
      "learning_rate": 0.00016290361241895064,
      "loss": 0.0983,
      "step": 245
    },
    {
      "epoch": 0.5445489762036525,
      "grad_norm": 0.049148138612508774,
      "learning_rate": 0.00016240096006715516,
      "loss": 0.1011,
      "step": 246
    },
    {
      "epoch": 0.5467625899280576,
      "grad_norm": 0.0516098290681839,
      "learning_rate": 0.0001618958837105915,
      "loss": 0.0971,
      "step": 247
    },
    {
      "epoch": 0.5489762036524627,
      "grad_norm": 0.04922432824969292,
      "learning_rate": 0.0001613884032888094,
      "loss": 0.0883,
      "step": 248
    },
    {
      "epoch": 0.5511898173768678,
      "grad_norm": 0.051999930292367935,
      "learning_rate": 0.000160878538836267,
      "loss": 0.0981,
      "step": 249
    },
    {
      "epoch": 0.5534034311012729,
      "grad_norm": 0.05510128289461136,
      "learning_rate": 0.00016036631048153979,
      "loss": 0.1012,
      "step": 250
    },
    {
      "epoch": 0.5556170448256779,
      "grad_norm": 0.05354427173733711,
      "learning_rate": 0.0001598517384465262,
      "loss": 0.1059,
      "step": 251
    },
    {
      "epoch": 0.557830658550083,
      "grad_norm": 0.05153029412031174,
      "learning_rate": 0.000159334843045649,
      "loss": 0.1006,
      "step": 252
    },
    {
      "epoch": 0.560044272274488,
      "grad_norm": 0.0524306558072567,
      "learning_rate": 0.0001588156446850537,
      "loss": 0.1065,
      "step": 253
    },
    {
      "epoch": 0.5622578859988931,
      "grad_norm": 0.05381711572408676,
      "learning_rate": 0.00015829416386180242,
      "loss": 0.0968,
      "step": 254
    },
    {
      "epoch": 0.5644714997232982,
      "grad_norm": 0.05481947585940361,
      "learning_rate": 0.0001577704211630652,
      "loss": 0.0996,
      "step": 255
    },
    {
      "epoch": 0.5666851134477033,
      "grad_norm": 0.058301880955696106,
      "learning_rate": 0.00015724443726530699,
      "loss": 0.1059,
      "step": 256
    },
    {
      "epoch": 0.5688987271721084,
      "grad_norm": 0.050740595906972885,
      "learning_rate": 0.00015671623293347147,
      "loss": 0.0997,
      "step": 257
    },
    {
      "epoch": 0.5711123408965135,
      "grad_norm": 0.05427535995841026,
      "learning_rate": 0.00015618582902016118,
      "loss": 0.0931,
      "step": 258
    },
    {
      "epoch": 0.5733259546209186,
      "grad_norm": 0.04986918717622757,
      "learning_rate": 0.00015565324646481447,
      "loss": 0.1,
      "step": 259
    },
    {
      "epoch": 0.5755395683453237,
      "grad_norm": 0.04937012866139412,
      "learning_rate": 0.00015511850629287865,
      "loss": 0.0994,
      "step": 260
    },
    {
      "epoch": 0.5777531820697288,
      "grad_norm": 0.051233645528554916,
      "learning_rate": 0.00015458162961498015,
      "loss": 0.1018,
      "step": 261
    },
    {
      "epoch": 0.5799667957941339,
      "grad_norm": 0.051505833864212036,
      "learning_rate": 0.00015404263762609088,
      "loss": 0.0908,
      "step": 262
    },
    {
      "epoch": 0.582180409518539,
      "grad_norm": 0.049784693866968155,
      "learning_rate": 0.00015350155160469164,
      "loss": 0.0942,
      "step": 263
    },
    {
      "epoch": 0.5843940232429441,
      "grad_norm": 0.047675345093011856,
      "learning_rate": 0.00015295839291193215,
      "loss": 0.0944,
      "step": 264
    },
    {
      "epoch": 0.5866076369673492,
      "grad_norm": 0.058334752917289734,
      "learning_rate": 0.00015241318299078751,
      "loss": 0.0943,
      "step": 265
    },
    {
      "epoch": 0.5888212506917543,
      "grad_norm": 0.054721299558877945,
      "learning_rate": 0.00015186594336521184,
      "loss": 0.0932,
      "step": 266
    },
    {
      "epoch": 0.5910348644161594,
      "grad_norm": 0.05269457399845123,
      "learning_rate": 0.00015131669563928858,
      "loss": 0.0967,
      "step": 267
    },
    {
      "epoch": 0.5932484781405645,
      "grad_norm": 0.05269491672515869,
      "learning_rate": 0.00015076546149637746,
      "loss": 0.0957,
      "step": 268
    },
    {
      "epoch": 0.5954620918649696,
      "grad_norm": 0.05547887831926346,
      "learning_rate": 0.00015021226269825856,
      "loss": 0.1003,
      "step": 269
    },
    {
      "epoch": 0.5976757055893747,
      "grad_norm": 0.054141815751791,
      "learning_rate": 0.00014965712108427323,
      "loss": 0.0964,
      "step": 270
    },
    {
      "epoch": 0.5998893193137798,
      "grad_norm": 0.05328970029950142,
      "learning_rate": 0.00014910005857046184,
      "loss": 0.0973,
      "step": 271
    },
    {
      "epoch": 0.6021029330381849,
      "grad_norm": 0.05100683495402336,
      "learning_rate": 0.00014854109714869862,
      "loss": 0.0955,
      "step": 272
    },
    {
      "epoch": 0.60431654676259,
      "grad_norm": 0.05257899686694145,
      "learning_rate": 0.0001479802588858233,
      "loss": 0.0955,
      "step": 273
    },
    {
      "epoch": 0.606530160486995,
      "grad_norm": 0.054069556295871735,
      "learning_rate": 0.0001474175659227703,
      "loss": 0.099,
      "step": 274
    },
    {
      "epoch": 0.6087437742114001,
      "grad_norm": 0.053066860884428024,
      "learning_rate": 0.00014685304047369423,
      "loss": 0.1056,
      "step": 275
    },
    {
      "epoch": 0.6109573879358052,
      "grad_norm": 0.05929481238126755,
      "learning_rate": 0.00014628670482509328,
      "loss": 0.1038,
      "step": 276
    },
    {
      "epoch": 0.6131710016602103,
      "grad_norm": 0.0578310489654541,
      "learning_rate": 0.0001457185813349291,
      "loss": 0.1049,
      "step": 277
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.053261663764715195,
      "learning_rate": 0.0001451486924317442,
      "loss": 0.1045,
      "step": 278
    },
    {
      "epoch": 0.6175982291090205,
      "grad_norm": 0.049584999680519104,
      "learning_rate": 0.00014457706061377686,
      "loss": 0.0937,
      "step": 279
    },
    {
      "epoch": 0.6198118428334256,
      "grad_norm": 0.05142365023493767,
      "learning_rate": 0.00014400370844807234,
      "loss": 0.1001,
      "step": 280
    },
    {
      "epoch": 0.6220254565578307,
      "grad_norm": 0.047240000218153,
      "learning_rate": 0.00014342865856959247,
      "loss": 0.1026,
      "step": 281
    },
    {
      "epoch": 0.6242390702822358,
      "grad_norm": 0.05729861930012703,
      "learning_rate": 0.00014285193368032172,
      "loss": 0.0961,
      "step": 282
    },
    {
      "epoch": 0.6264526840066409,
      "grad_norm": 0.05752456188201904,
      "learning_rate": 0.00014227355654837127,
      "loss": 0.0952,
      "step": 283
    },
    {
      "epoch": 0.628666297731046,
      "grad_norm": 0.052682824432849884,
      "learning_rate": 0.00014169355000707995,
      "loss": 0.0961,
      "step": 284
    },
    {
      "epoch": 0.630879911455451,
      "grad_norm": 0.06825874745845795,
      "learning_rate": 0.00014111193695411285,
      "loss": 0.1028,
      "step": 285
    },
    {
      "epoch": 0.6330935251798561,
      "grad_norm": 0.048176687210798264,
      "learning_rate": 0.00014052874035055745,
      "loss": 0.0958,
      "step": 286
    },
    {
      "epoch": 0.6353071389042612,
      "grad_norm": 0.06942212581634521,
      "learning_rate": 0.00013994398322001708,
      "loss": 0.0973,
      "step": 287
    },
    {
      "epoch": 0.6375207526286663,
      "grad_norm": 0.05756694823503494,
      "learning_rate": 0.00013935768864770193,
      "loss": 0.0934,
      "step": 288
    },
    {
      "epoch": 0.6397343663530713,
      "grad_norm": 0.048866599798202515,
      "learning_rate": 0.00013876987977951783,
      "loss": 0.0887,
      "step": 289
    },
    {
      "epoch": 0.6419479800774764,
      "grad_norm": 0.06538858264684677,
      "learning_rate": 0.0001381805798211525,
      "loss": 0.1075,
      "step": 290
    },
    {
      "epoch": 0.6441615938018815,
      "grad_norm": 0.05294840782880783,
      "learning_rate": 0.0001375898120371591,
      "loss": 0.0985,
      "step": 291
    },
    {
      "epoch": 0.6463752075262866,
      "grad_norm": 0.05530858784914017,
      "learning_rate": 0.00013699759975003832,
      "loss": 0.0985,
      "step": 292
    },
    {
      "epoch": 0.6485888212506917,
      "grad_norm": 0.056934501975774765,
      "learning_rate": 0.00013640396633931716,
      "loss": 0.0994,
      "step": 293
    },
    {
      "epoch": 0.6508024349750968,
      "grad_norm": 0.05101519450545311,
      "learning_rate": 0.00013580893524062622,
      "loss": 0.1033,
      "step": 294
    },
    {
      "epoch": 0.6530160486995019,
      "grad_norm": 0.051168832927942276,
      "learning_rate": 0.00013521252994477446,
      "loss": 0.0885,
      "step": 295
    },
    {
      "epoch": 0.655229662423907,
      "grad_norm": 0.05867251753807068,
      "learning_rate": 0.00013461477399682165,
      "loss": 0.0985,
      "step": 296
    },
    {
      "epoch": 0.6574432761483121,
      "grad_norm": 0.04983022063970566,
      "learning_rate": 0.00013401569099514917,
      "loss": 0.0925,
      "step": 297
    },
    {
      "epoch": 0.6596568898727172,
      "grad_norm": 0.055614668875932693,
      "learning_rate": 0.00013341530459052816,
      "loss": 0.1068,
      "step": 298
    },
    {
      "epoch": 0.6618705035971223,
      "grad_norm": 0.05402126908302307,
      "learning_rate": 0.00013281363848518577,
      "loss": 0.0933,
      "step": 299
    },
    {
      "epoch": 0.6640841173215274,
      "grad_norm": 0.050118133425712585,
      "learning_rate": 0.0001322107164318697,
      "loss": 0.0953,
      "step": 300
    },
    {
      "epoch": 0.6662977310459325,
      "grad_norm": 0.05861670896410942,
      "learning_rate": 0.00013160656223291017,
      "loss": 0.0947,
      "step": 301
    },
    {
      "epoch": 0.6685113447703376,
      "grad_norm": 0.05306006595492363,
      "learning_rate": 0.00013100119973928054,
      "loss": 0.0998,
      "step": 302
    },
    {
      "epoch": 0.6707249584947427,
      "grad_norm": 0.051935601979494095,
      "learning_rate": 0.00013039465284965545,
      "loss": 0.092,
      "step": 303
    },
    {
      "epoch": 0.6729385722191478,
      "grad_norm": 0.05331779271364212,
      "learning_rate": 0.0001297869455094676,
      "loss": 0.0998,
      "step": 304
    },
    {
      "epoch": 0.6751521859435529,
      "grad_norm": 0.04757826402783394,
      "learning_rate": 0.00012917810170996218,
      "loss": 0.096,
      "step": 305
    },
    {
      "epoch": 0.677365799667958,
      "grad_norm": 0.04768158122897148,
      "learning_rate": 0.00012856814548724987,
      "loss": 0.0907,
      "step": 306
    },
    {
      "epoch": 0.679579413392363,
      "grad_norm": 0.04860216751694679,
      "learning_rate": 0.00012795710092135794,
      "loss": 0.0957,
      "step": 307
    },
    {
      "epoch": 0.6817930271167681,
      "grad_norm": 0.05123205482959747,
      "learning_rate": 0.0001273449921352796,
      "loss": 0.095,
      "step": 308
    },
    {
      "epoch": 0.6840066408411732,
      "grad_norm": 0.044535789638757706,
      "learning_rate": 0.0001267318432940216,
      "loss": 0.0868,
      "step": 309
    },
    {
      "epoch": 0.6862202545655783,
      "grad_norm": 0.04989129304885864,
      "learning_rate": 0.00012611767860365038,
      "loss": 0.0929,
      "step": 310
    },
    {
      "epoch": 0.6884338682899834,
      "grad_norm": 0.04998529702425003,
      "learning_rate": 0.00012550252231033617,
      "loss": 0.1013,
      "step": 311
    },
    {
      "epoch": 0.6906474820143885,
      "grad_norm": 0.04884598031640053,
      "learning_rate": 0.0001248863986993962,
      "loss": 0.0953,
      "step": 312
    },
    {
      "epoch": 0.6928610957387936,
      "grad_norm": 0.053967129439115524,
      "learning_rate": 0.00012426933209433566,
      "loss": 0.1004,
      "step": 313
    },
    {
      "epoch": 0.6950747094631987,
      "grad_norm": 0.04933411255478859,
      "learning_rate": 0.0001236513468558875,
      "loss": 0.0994,
      "step": 314
    },
    {
      "epoch": 0.6972883231876038,
      "grad_norm": 0.04862181097269058,
      "learning_rate": 0.00012303246738105082,
      "loss": 0.0914,
      "step": 315
    },
    {
      "epoch": 0.6995019369120089,
      "grad_norm": 0.04765050858259201,
      "learning_rate": 0.00012241271810212753,
      "loss": 0.0947,
      "step": 316
    },
    {
      "epoch": 0.701715550636414,
      "grad_norm": 0.048286739736795425,
      "learning_rate": 0.00012179212348575803,
      "loss": 0.0944,
      "step": 317
    },
    {
      "epoch": 0.703929164360819,
      "grad_norm": 0.04939479008316994,
      "learning_rate": 0.0001211707080319551,
      "loss": 0.094,
      "step": 318
    },
    {
      "epoch": 0.7061427780852241,
      "grad_norm": 0.060593683272600174,
      "learning_rate": 0.00012054849627313691,
      "loss": 0.0941,
      "step": 319
    },
    {
      "epoch": 0.7083563918096292,
      "grad_norm": 0.04723823815584183,
      "learning_rate": 0.0001199255127731582,
      "loss": 0.0937,
      "step": 320
    },
    {
      "epoch": 0.7105700055340343,
      "grad_norm": 0.052911270409822464,
      "learning_rate": 0.00011930178212634088,
      "loss": 0.092,
      "step": 321
    },
    {
      "epoch": 0.7127836192584394,
      "grad_norm": 0.04665184020996094,
      "learning_rate": 0.0001186773289565029,
      "loss": 0.091,
      "step": 322
    },
    {
      "epoch": 0.7149972329828445,
      "grad_norm": 0.052501097321510315,
      "learning_rate": 0.00011805217791598612,
      "loss": 0.0933,
      "step": 323
    },
    {
      "epoch": 0.7172108467072495,
      "grad_norm": 0.04518159106373787,
      "learning_rate": 0.00011742635368468325,
      "loss": 0.0876,
      "step": 324
    },
    {
      "epoch": 0.7194244604316546,
      "grad_norm": 0.04947478696703911,
      "learning_rate": 0.00011679988096906333,
      "loss": 0.0953,
      "step": 325
    },
    {
      "epoch": 0.7216380741560597,
      "grad_norm": 0.052446626126766205,
      "learning_rate": 0.00011617278450119647,
      "loss": 0.107,
      "step": 326
    },
    {
      "epoch": 0.7238516878804648,
      "grad_norm": 0.050682373344898224,
      "learning_rate": 0.00011554508903777747,
      "loss": 0.0953,
      "step": 327
    },
    {
      "epoch": 0.7260653016048699,
      "grad_norm": 0.048243243247270584,
      "learning_rate": 0.00011491681935914844,
      "loss": 0.0938,
      "step": 328
    },
    {
      "epoch": 0.728278915329275,
      "grad_norm": 0.05005733296275139,
      "learning_rate": 0.00011428800026832055,
      "loss": 0.0917,
      "step": 329
    },
    {
      "epoch": 0.7304925290536801,
      "grad_norm": 0.04852263256907463,
      "learning_rate": 0.00011365865658999474,
      "loss": 0.0909,
      "step": 330
    },
    {
      "epoch": 0.7327061427780852,
      "grad_norm": 0.04883822426199913,
      "learning_rate": 0.00011302881316958186,
      "loss": 0.0929,
      "step": 331
    },
    {
      "epoch": 0.7349197565024903,
      "grad_norm": 0.047983378171920776,
      "learning_rate": 0.00011239849487222164,
      "loss": 0.0873,
      "step": 332
    },
    {
      "epoch": 0.7371333702268954,
      "grad_norm": 0.05117323622107506,
      "learning_rate": 0.00011176772658180125,
      "loss": 0.0941,
      "step": 333
    },
    {
      "epoch": 0.7393469839513005,
      "grad_norm": 0.04865251109004021,
      "learning_rate": 0.0001111365331999727,
      "loss": 0.0958,
      "step": 334
    },
    {
      "epoch": 0.7415605976757056,
      "grad_norm": 0.05256965383887291,
      "learning_rate": 0.00011050493964516997,
      "loss": 0.0943,
      "step": 335
    },
    {
      "epoch": 0.7437742114001107,
      "grad_norm": 0.047763995826244354,
      "learning_rate": 0.00010987297085162508,
      "loss": 0.0953,
      "step": 336
    },
    {
      "epoch": 0.7459878251245158,
      "grad_norm": 0.056908294558525085,
      "learning_rate": 0.00010924065176838394,
      "loss": 0.0984,
      "step": 337
    },
    {
      "epoch": 0.7482014388489209,
      "grad_norm": 0.05389387905597687,
      "learning_rate": 0.00010860800735832122,
      "loss": 0.0963,
      "step": 338
    },
    {
      "epoch": 0.750415052573326,
      "grad_norm": 0.04997985437512398,
      "learning_rate": 0.00010797506259715501,
      "loss": 0.1015,
      "step": 339
    },
    {
      "epoch": 0.7526286662977311,
      "grad_norm": 0.0511101670563221,
      "learning_rate": 0.00010734184247246066,
      "loss": 0.0969,
      "step": 340
    },
    {
      "epoch": 0.7548422800221362,
      "grad_norm": 0.05244138464331627,
      "learning_rate": 0.00010670837198268449,
      "loss": 0.099,
      "step": 341
    },
    {
      "epoch": 0.7570558937465413,
      "grad_norm": 0.052141156047582626,
      "learning_rate": 0.00010607467613615673,
      "loss": 0.0935,
      "step": 342
    },
    {
      "epoch": 0.7592695074709463,
      "grad_norm": 0.05090029910206795,
      "learning_rate": 0.00010544077995010435,
      "loss": 0.0968,
      "step": 343
    },
    {
      "epoch": 0.7614831211953514,
      "grad_norm": 0.04941032826900482,
      "learning_rate": 0.00010480670844966341,
      "loss": 0.0969,
      "step": 344
    },
    {
      "epoch": 0.7636967349197565,
      "grad_norm": 0.04883594065904617,
      "learning_rate": 0.00010417248666689095,
      "loss": 0.0959,
      "step": 345
    },
    {
      "epoch": 0.7659103486441616,
      "grad_norm": 0.05119335651397705,
      "learning_rate": 0.0001035381396397771,
      "loss": 0.0926,
      "step": 346
    },
    {
      "epoch": 0.7681239623685667,
      "grad_norm": 0.053581420332193375,
      "learning_rate": 0.00010290369241125623,
      "loss": 0.1,
      "step": 347
    },
    {
      "epoch": 0.7703375760929718,
      "grad_norm": 0.04924101009964943,
      "learning_rate": 0.00010226917002821863,
      "loss": 0.1002,
      "step": 348
    },
    {
      "epoch": 0.7725511898173769,
      "grad_norm": 0.057637691497802734,
      "learning_rate": 0.00010163459754052147,
      "loss": 0.0893,
      "step": 349
    },
    {
      "epoch": 0.774764803541782,
      "grad_norm": 0.051754824817180634,
      "learning_rate": 0.000101,
      "loss": 0.0973,
      "step": 350
    },
    {
      "epoch": 0.7769784172661871,
      "grad_norm": 0.0597623810172081,
      "learning_rate": 0.00010036540245947855,
      "loss": 0.1054,
      "step": 351
    },
    {
      "epoch": 0.7791920309905921,
      "grad_norm": 0.04901718348264694,
      "learning_rate": 9.973082997178137e-05,
      "loss": 0.0935,
      "step": 352
    },
    {
      "epoch": 0.7814056447149972,
      "grad_norm": 0.052738007158041,
      "learning_rate": 9.909630758874378e-05,
      "loss": 0.0893,
      "step": 353
    },
    {
      "epoch": 0.7836192584394023,
      "grad_norm": 0.051349397748708725,
      "learning_rate": 9.846186036022292e-05,
      "loss": 0.0898,
      "step": 354
    },
    {
      "epoch": 0.7858328721638074,
      "grad_norm": 0.05271919071674347,
      "learning_rate": 9.782751333310905e-05,
      "loss": 0.0942,
      "step": 355
    },
    {
      "epoch": 0.7880464858882125,
      "grad_norm": 0.05395787954330444,
      "learning_rate": 9.719329155033661e-05,
      "loss": 0.0942,
      "step": 356
    },
    {
      "epoch": 0.7902600996126176,
      "grad_norm": 0.060253046452999115,
      "learning_rate": 9.655922004989566e-05,
      "loss": 0.0972,
      "step": 357
    },
    {
      "epoch": 0.7924737133370227,
      "grad_norm": 0.054247502237558365,
      "learning_rate": 9.592532386384328e-05,
      "loss": 0.1002,
      "step": 358
    },
    {
      "epoch": 0.7946873270614278,
      "grad_norm": 0.054204538464546204,
      "learning_rate": 9.529162801731553e-05,
      "loss": 0.0968,
      "step": 359
    },
    {
      "epoch": 0.7969009407858328,
      "grad_norm": 0.04828053340315819,
      "learning_rate": 9.465815752753935e-05,
      "loss": 0.0887,
      "step": 360
    },
    {
      "epoch": 0.7991145545102379,
      "grad_norm": 0.0502205453813076,
      "learning_rate": 9.402493740284501e-05,
      "loss": 0.1025,
      "step": 361
    },
    {
      "epoch": 0.801328168234643,
      "grad_norm": 0.052257999777793884,
      "learning_rate": 9.339199264167882e-05,
      "loss": 0.0863,
      "step": 362
    },
    {
      "epoch": 0.8035417819590481,
      "grad_norm": 0.05056029558181763,
      "learning_rate": 9.27593482316161e-05,
      "loss": 0.0991,
      "step": 363
    },
    {
      "epoch": 0.8057553956834532,
      "grad_norm": 0.04762789607048035,
      "learning_rate": 9.212702914837495e-05,
      "loss": 0.0863,
      "step": 364
    },
    {
      "epoch": 0.8079690094078583,
      "grad_norm": 0.04930886998772621,
      "learning_rate": 9.149506035483005e-05,
      "loss": 0.091,
      "step": 365
    },
    {
      "epoch": 0.8101826231322634,
      "grad_norm": 0.04972072318196297,
      "learning_rate": 9.086346680002729e-05,
      "loss": 0.0926,
      "step": 366
    },
    {
      "epoch": 0.8123962368566685,
      "grad_norm": 0.05357339233160019,
      "learning_rate": 9.023227341819875e-05,
      "loss": 0.0977,
      "step": 367
    },
    {
      "epoch": 0.8146098505810736,
      "grad_norm": 0.05606577917933464,
      "learning_rate": 8.960150512777835e-05,
      "loss": 0.0995,
      "step": 368
    },
    {
      "epoch": 0.8168234643054787,
      "grad_norm": 0.054417867213487625,
      "learning_rate": 8.897118683041815e-05,
      "loss": 0.0997,
      "step": 369
    },
    {
      "epoch": 0.8190370780298838,
      "grad_norm": 0.049265000969171524,
      "learning_rate": 8.834134341000527e-05,
      "loss": 0.0923,
      "step": 370
    },
    {
      "epoch": 0.8212506917542889,
      "grad_norm": 0.05342862382531166,
      "learning_rate": 8.771199973167947e-05,
      "loss": 0.0959,
      "step": 371
    },
    {
      "epoch": 0.823464305478694,
      "grad_norm": 0.05059719830751419,
      "learning_rate": 8.708318064085157e-05,
      "loss": 0.0901,
      "step": 372
    },
    {
      "epoch": 0.8256779192030991,
      "grad_norm": 0.04969753697514534,
      "learning_rate": 8.645491096222254e-05,
      "loss": 0.0942,
      "step": 373
    },
    {
      "epoch": 0.8278915329275042,
      "grad_norm": 0.05074961856007576,
      "learning_rate": 8.582721549880354e-05,
      "loss": 0.0966,
      "step": 374
    },
    {
      "epoch": 0.8301051466519093,
      "grad_norm": 0.051156435161828995,
      "learning_rate": 8.520011903093666e-05,
      "loss": 0.0915,
      "step": 375
    },
    {
      "epoch": 0.8323187603763144,
      "grad_norm": 0.050787124782800674,
      "learning_rate": 8.457364631531675e-05,
      "loss": 0.0858,
      "step": 376
    },
    {
      "epoch": 0.8345323741007195,
      "grad_norm": 0.05081328749656677,
      "learning_rate": 8.394782208401387e-05,
      "loss": 0.1017,
      "step": 377
    },
    {
      "epoch": 0.8367459878251245,
      "grad_norm": 0.051736414432525635,
      "learning_rate": 8.332267104349711e-05,
      "loss": 0.0988,
      "step": 378
    },
    {
      "epoch": 0.8389596015495296,
      "grad_norm": 0.04875095933675766,
      "learning_rate": 8.269821787365912e-05,
      "loss": 0.0909,
      "step": 379
    },
    {
      "epoch": 0.8411732152739347,
      "grad_norm": 0.05214601382613182,
      "learning_rate": 8.20744872268418e-05,
      "loss": 0.096,
      "step": 380
    },
    {
      "epoch": 0.8433868289983398,
      "grad_norm": 0.051986392587423325,
      "learning_rate": 8.145150372686311e-05,
      "loss": 0.0953,
      "step": 381
    },
    {
      "epoch": 0.8456004427227449,
      "grad_norm": 0.055257976055145264,
      "learning_rate": 8.082929196804491e-05,
      "loss": 0.0968,
      "step": 382
    },
    {
      "epoch": 0.84781405644715,
      "grad_norm": 0.050712622702121735,
      "learning_rate": 8.020787651424202e-05,
      "loss": 0.0894,
      "step": 383
    },
    {
      "epoch": 0.8500276701715551,
      "grad_norm": 0.049944646656513214,
      "learning_rate": 7.958728189787251e-05,
      "loss": 0.0954,
      "step": 384
    },
    {
      "epoch": 0.8522412838959601,
      "grad_norm": 0.05044480413198471,
      "learning_rate": 7.896753261894923e-05,
      "loss": 0.0961,
      "step": 385
    },
    {
      "epoch": 0.8544548976203652,
      "grad_norm": 0.05246739834547043,
      "learning_rate": 7.834865314411251e-05,
      "loss": 0.0924,
      "step": 386
    },
    {
      "epoch": 0.8566685113447703,
      "grad_norm": 0.051612380892038345,
      "learning_rate": 7.773066790566439e-05,
      "loss": 0.0966,
      "step": 387
    },
    {
      "epoch": 0.8588821250691754,
      "grad_norm": 0.05084594339132309,
      "learning_rate": 7.711360130060384e-05,
      "loss": 0.0934,
      "step": 388
    },
    {
      "epoch": 0.8610957387935805,
      "grad_norm": 0.049133967608213425,
      "learning_rate": 7.649747768966388e-05,
      "loss": 0.0907,
      "step": 389
    },
    {
      "epoch": 0.8633093525179856,
      "grad_norm": 0.050171997398138046,
      "learning_rate": 7.588232139634968e-05,
      "loss": 0.098,
      "step": 390
    },
    {
      "epoch": 0.8655229662423907,
      "grad_norm": 0.05164407193660736,
      "learning_rate": 7.526815670597842e-05,
      "loss": 0.0965,
      "step": 391
    },
    {
      "epoch": 0.8677365799667958,
      "grad_norm": 0.05403086543083191,
      "learning_rate": 7.465500786472044e-05,
      "loss": 0.1011,
      "step": 392
    },
    {
      "epoch": 0.8699501936912009,
      "grad_norm": 0.04819105938076973,
      "learning_rate": 7.40428990786421e-05,
      "loss": 0.0853,
      "step": 393
    },
    {
      "epoch": 0.872163807415606,
      "grad_norm": 0.049479082226753235,
      "learning_rate": 7.343185451275016e-05,
      "loss": 0.0852,
      "step": 394
    },
    {
      "epoch": 0.874377421140011,
      "grad_norm": 0.05218803137540817,
      "learning_rate": 7.282189829003785e-05,
      "loss": 0.0951,
      "step": 395
    },
    {
      "epoch": 0.8765910348644161,
      "grad_norm": 0.05069843307137489,
      "learning_rate": 7.221305449053241e-05,
      "loss": 0.0997,
      "step": 396
    },
    {
      "epoch": 0.8788046485888212,
      "grad_norm": 0.050326235592365265,
      "learning_rate": 7.160534715034457e-05,
      "loss": 0.0914,
      "step": 397
    },
    {
      "epoch": 0.8810182623132263,
      "grad_norm": 0.04836314171552658,
      "learning_rate": 7.09988002607195e-05,
      "loss": 0.0883,
      "step": 398
    },
    {
      "epoch": 0.8832318760376314,
      "grad_norm": 0.05146227777004242,
      "learning_rate": 7.039343776708985e-05,
      "loss": 0.0877,
      "step": 399
    },
    {
      "epoch": 0.8854454897620365,
      "grad_norm": 0.0493217371404171,
      "learning_rate": 6.978928356813031e-05,
      "loss": 0.0884,
      "step": 400
    },
    {
      "epoch": 0.8876591034864416,
      "grad_norm": 0.052928775548934937,
      "learning_rate": 6.918636151481424e-05,
      "loss": 0.0995,
      "step": 401
    },
    {
      "epoch": 0.8898727172108467,
      "grad_norm": 0.05177069082856178,
      "learning_rate": 6.858469540947185e-05,
      "loss": 0.102,
      "step": 402
    },
    {
      "epoch": 0.8920863309352518,
      "grad_norm": 0.04873339459300041,
      "learning_rate": 6.798430900485082e-05,
      "loss": 0.0878,
      "step": 403
    },
    {
      "epoch": 0.8942999446596569,
      "grad_norm": 0.050133801996707916,
      "learning_rate": 6.738522600317836e-05,
      "loss": 0.0915,
      "step": 404
    },
    {
      "epoch": 0.896513558384062,
      "grad_norm": 0.048657599836587906,
      "learning_rate": 6.678747005522557e-05,
      "loss": 0.0867,
      "step": 405
    },
    {
      "epoch": 0.8987271721084671,
      "grad_norm": 0.049238014966249466,
      "learning_rate": 6.619106475937378e-05,
      "loss": 0.095,
      "step": 406
    },
    {
      "epoch": 0.9009407858328722,
      "grad_norm": 0.04770975187420845,
      "learning_rate": 6.559603366068286e-05,
      "loss": 0.0848,
      "step": 407
    },
    {
      "epoch": 0.9031543995572773,
      "grad_norm": 0.05149288848042488,
      "learning_rate": 6.500240024996169e-05,
      "loss": 0.0863,
      "step": 408
    },
    {
      "epoch": 0.9053680132816824,
      "grad_norm": 0.05172006040811539,
      "learning_rate": 6.441018796284089e-05,
      "loss": 0.0927,
      "step": 409
    },
    {
      "epoch": 0.9075816270060875,
      "grad_norm": 0.047185853123664856,
      "learning_rate": 6.381942017884753e-05,
      "loss": 0.0897,
      "step": 410
    },
    {
      "epoch": 0.9097952407304926,
      "grad_norm": 0.05295510217547417,
      "learning_rate": 6.323012022048217e-05,
      "loss": 0.0844,
      "step": 411
    },
    {
      "epoch": 0.9120088544548977,
      "grad_norm": 0.056805483996868134,
      "learning_rate": 6.26423113522981e-05,
      "loss": 0.0986,
      "step": 412
    },
    {
      "epoch": 0.9142224681793027,
      "grad_norm": 0.05131161957979202,
      "learning_rate": 6.205601677998295e-05,
      "loss": 0.0923,
      "step": 413
    },
    {
      "epoch": 0.9164360819037078,
      "grad_norm": 0.05656265839934349,
      "learning_rate": 6.147125964944255e-05,
      "loss": 0.0909,
      "step": 414
    },
    {
      "epoch": 0.9186496956281129,
      "grad_norm": 0.05126512050628662,
      "learning_rate": 6.088806304588717e-05,
      "loss": 0.0957,
      "step": 415
    },
    {
      "epoch": 0.920863309352518,
      "grad_norm": 0.057724595069885254,
      "learning_rate": 6.030644999292008e-05,
      "loss": 0.0927,
      "step": 416
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.05197491869330406,
      "learning_rate": 5.972644345162876e-05,
      "loss": 0.0925,
      "step": 417
    },
    {
      "epoch": 0.9252905368013282,
      "grad_norm": 0.05068831145763397,
      "learning_rate": 5.914806631967831e-05,
      "loss": 0.0892,
      "step": 418
    },
    {
      "epoch": 0.9275041505257332,
      "grad_norm": 0.04659644514322281,
      "learning_rate": 5.857134143040757e-05,
      "loss": 0.0887,
      "step": 419
    },
    {
      "epoch": 0.9297177642501383,
      "grad_norm": 0.04940873757004738,
      "learning_rate": 5.7996291551927666e-05,
      "loss": 0.0884,
      "step": 420
    },
    {
      "epoch": 0.9319313779745434,
      "grad_norm": 0.04982376843690872,
      "learning_rate": 5.742293938622313e-05,
      "loss": 0.0928,
      "step": 421
    },
    {
      "epoch": 0.9341449916989485,
      "grad_norm": 0.048010315746068954,
      "learning_rate": 5.6851307568255805e-05,
      "loss": 0.0882,
      "step": 422
    },
    {
      "epoch": 0.9363586054233536,
      "grad_norm": 0.04856584593653679,
      "learning_rate": 5.628141866507097e-05,
      "loss": 0.0881,
      "step": 423
    },
    {
      "epoch": 0.9385722191477587,
      "grad_norm": 0.04905514791607857,
      "learning_rate": 5.571329517490676e-05,
      "loss": 0.0941,
      "step": 424
    },
    {
      "epoch": 0.9407858328721638,
      "grad_norm": 0.05087459087371826,
      "learning_rate": 5.514695952630578e-05,
      "loss": 0.0967,
      "step": 425
    },
    {
      "epoch": 0.9429994465965689,
      "grad_norm": 0.05130810663104057,
      "learning_rate": 5.4582434077229734e-05,
      "loss": 0.0946,
      "step": 426
    },
    {
      "epoch": 0.945213060320974,
      "grad_norm": 0.04644349589943886,
      "learning_rate": 5.401974111417671e-05,
      "loss": 0.0831,
      "step": 427
    },
    {
      "epoch": 0.9474266740453791,
      "grad_norm": 0.049982134252786636,
      "learning_rate": 5.3458902851301413e-05,
      "loss": 0.0897,
      "step": 428
    },
    {
      "epoch": 0.9496402877697842,
      "grad_norm": 0.056758761405944824,
      "learning_rate": 5.2899941429538136e-05,
      "loss": 0.1002,
      "step": 429
    },
    {
      "epoch": 0.9518539014941892,
      "grad_norm": 0.04831141233444214,
      "learning_rate": 5.234287891572674e-05,
      "loss": 0.0884,
      "step": 430
    },
    {
      "epoch": 0.9540675152185943,
      "grad_norm": 0.0477597676217556,
      "learning_rate": 5.178773730174141e-05,
      "loss": 0.0934,
      "step": 431
    },
    {
      "epoch": 0.9562811289429994,
      "grad_norm": 0.056299321353435516,
      "learning_rate": 5.1234538503622564e-05,
      "loss": 0.1016,
      "step": 432
    },
    {
      "epoch": 0.9584947426674045,
      "grad_norm": 0.05006204918026924,
      "learning_rate": 5.0683304360711434e-05,
      "loss": 0.0861,
      "step": 433
    },
    {
      "epoch": 0.9607083563918096,
      "grad_norm": 0.049608971923589706,
      "learning_rate": 5.013405663478816e-05,
      "loss": 0.0888,
      "step": 434
    },
    {
      "epoch": 0.9629219701162147,
      "grad_norm": 0.048696812242269516,
      "learning_rate": 4.95868170092125e-05,
      "loss": 0.0946,
      "step": 435
    },
    {
      "epoch": 0.9651355838406198,
      "grad_norm": 0.04894008859992027,
      "learning_rate": 4.904160708806784e-05,
      "loss": 0.0891,
      "step": 436
    },
    {
      "epoch": 0.9673491975650249,
      "grad_norm": 0.05277300998568535,
      "learning_rate": 4.849844839530833e-05,
      "loss": 0.091,
      "step": 437
    },
    {
      "epoch": 0.96956281128943,
      "grad_norm": 0.05100622400641441,
      "learning_rate": 4.795736237390912e-05,
      "loss": 0.092,
      "step": 438
    },
    {
      "epoch": 0.9717764250138351,
      "grad_norm": 0.04573279619216919,
      "learning_rate": 4.741837038501984e-05,
      "loss": 0.083,
      "step": 439
    },
    {
      "epoch": 0.9739900387382402,
      "grad_norm": 0.04919137433171272,
      "learning_rate": 4.6881493707121315e-05,
      "loss": 0.0875,
      "step": 440
    },
    {
      "epoch": 0.9762036524626453,
      "grad_norm": 0.04874091222882271,
      "learning_rate": 4.634675353518555e-05,
      "loss": 0.0912,
      "step": 441
    },
    {
      "epoch": 0.9784172661870504,
      "grad_norm": 0.050871625542640686,
      "learning_rate": 4.5814170979838834e-05,
      "loss": 0.092,
      "step": 442
    },
    {
      "epoch": 0.9806308799114555,
      "grad_norm": 0.054060570895671844,
      "learning_rate": 4.5283767066528554e-05,
      "loss": 0.0972,
      "step": 443
    },
    {
      "epoch": 0.9828444936358606,
      "grad_norm": 0.049973439425230026,
      "learning_rate": 4.475556273469305e-05,
      "loss": 0.0991,
      "step": 444
    },
    {
      "epoch": 0.9850581073602657,
      "grad_norm": 0.0494074821472168,
      "learning_rate": 4.422957883693483e-05,
      "loss": 0.0894,
      "step": 445
    },
    {
      "epoch": 0.9872717210846708,
      "grad_norm": 0.05115917697548866,
      "learning_rate": 4.3705836138197616e-05,
      "loss": 0.0913,
      "step": 446
    },
    {
      "epoch": 0.9894853348090759,
      "grad_norm": 0.04889511689543724,
      "learning_rate": 4.318435531494634e-05,
      "loss": 0.0898,
      "step": 447
    },
    {
      "epoch": 0.991698948533481,
      "grad_norm": 0.05189179256558418,
      "learning_rate": 4.266515695435099e-05,
      "loss": 0.0912,
      "step": 448
    },
    {
      "epoch": 0.993912562257886,
      "grad_norm": 0.04943928122520447,
      "learning_rate": 4.2148261553473836e-05,
      "loss": 0.0876,
      "step": 449
    },
    {
      "epoch": 0.9961261759822911,
      "grad_norm": 0.048750415444374084,
      "learning_rate": 4.1633689518460225e-05,
      "loss": 0.0929,
      "step": 450
    },
    {
      "epoch": 0.9983397897066962,
      "grad_norm": 0.05224109813570976,
      "learning_rate": 4.1121461163733016e-05,
      "loss": 0.0943,
      "step": 451
    },
    {
      "epoch": 1.0005534034311012,
      "grad_norm": 0.06343565881252289,
      "learning_rate": 4.061159671119063e-05,
      "loss": 0.1098,
      "step": 452
    },
    {
      "epoch": 1.0027670171555063,
      "grad_norm": 0.04856511950492859,
      "learning_rate": 4.010411628940853e-05,
      "loss": 0.082,
      "step": 453
    },
    {
      "epoch": 1.0049806308799114,
      "grad_norm": 0.04715016856789589,
      "learning_rate": 3.959903993284488e-05,
      "loss": 0.0845,
      "step": 454
    },
    {
      "epoch": 1.0071942446043165,
      "grad_norm": 0.053920548409223557,
      "learning_rate": 3.90963875810494e-05,
      "loss": 0.0832,
      "step": 455
    },
    {
      "epoch": 1.0094078583287216,
      "grad_norm": 0.04623395577073097,
      "learning_rate": 3.859617907787625e-05,
      "loss": 0.0839,
      "step": 456
    },
    {
      "epoch": 1.0116214720531267,
      "grad_norm": 0.04793941602110863,
      "learning_rate": 3.809843417070065e-05,
      "loss": 0.0882,
      "step": 457
    },
    {
      "epoch": 1.0138350857775318,
      "grad_norm": 0.05396652594208717,
      "learning_rate": 3.760317250963926e-05,
      "loss": 0.0834,
      "step": 458
    },
    {
      "epoch": 1.0160486995019369,
      "grad_norm": 0.051411934196949005,
      "learning_rate": 3.7110413646774435e-05,
      "loss": 0.088,
      "step": 459
    },
    {
      "epoch": 1.018262313226342,
      "grad_norm": 0.05102306231856346,
      "learning_rate": 3.662017703538234e-05,
      "loss": 0.0849,
      "step": 460
    },
    {
      "epoch": 1.020475926950747,
      "grad_norm": 0.054891008883714676,
      "learning_rate": 3.6132482029164975e-05,
      "loss": 0.0906,
      "step": 461
    },
    {
      "epoch": 1.0226895406751522,
      "grad_norm": 0.05452824383974075,
      "learning_rate": 3.564734788148616e-05,
      "loss": 0.0882,
      "step": 462
    },
    {
      "epoch": 1.0249031543995573,
      "grad_norm": 0.0523720420897007,
      "learning_rate": 3.516479374461126e-05,
      "loss": 0.0833,
      "step": 463
    },
    {
      "epoch": 1.0271167681239624,
      "grad_norm": 0.05288210138678551,
      "learning_rate": 3.468483866895141e-05,
      "loss": 0.0839,
      "step": 464
    },
    {
      "epoch": 1.0293303818483674,
      "grad_norm": 0.04852289333939552,
      "learning_rate": 3.420750160231118e-05,
      "loss": 0.0777,
      "step": 465
    },
    {
      "epoch": 1.0315439955727725,
      "grad_norm": 0.05111468955874443,
      "learning_rate": 3.3732801389140596e-05,
      "loss": 0.0875,
      "step": 466
    },
    {
      "epoch": 1.0337576092971776,
      "grad_norm": 0.05297563970088959,
      "learning_rate": 3.326075676979128e-05,
      "loss": 0.0861,
      "step": 467
    },
    {
      "epoch": 1.0359712230215827,
      "grad_norm": 0.04983185604214668,
      "learning_rate": 3.2791386379776527e-05,
      "loss": 0.0799,
      "step": 468
    },
    {
      "epoch": 1.0381848367459878,
      "grad_norm": 0.049646344035863876,
      "learning_rate": 3.232470874903566e-05,
      "loss": 0.0804,
      "step": 469
    },
    {
      "epoch": 1.040398450470393,
      "grad_norm": 0.05048072710633278,
      "learning_rate": 3.186074230120244e-05,
      "loss": 0.0859,
      "step": 470
    },
    {
      "epoch": 1.042612064194798,
      "grad_norm": 0.04904315248131752,
      "learning_rate": 3.1399505352877826e-05,
      "loss": 0.0847,
      "step": 471
    },
    {
      "epoch": 1.044825677919203,
      "grad_norm": 0.052079539746046066,
      "learning_rate": 3.094101611290671e-05,
      "loss": 0.0834,
      "step": 472
    },
    {
      "epoch": 1.0470392916436082,
      "grad_norm": 0.052563026547431946,
      "learning_rate": 3.0485292681659277e-05,
      "loss": 0.0861,
      "step": 473
    },
    {
      "epoch": 1.0492529053680133,
      "grad_norm": 0.0512564554810524,
      "learning_rate": 3.0032353050316243e-05,
      "loss": 0.0883,
      "step": 474
    },
    {
      "epoch": 1.0514665190924184,
      "grad_norm": 0.05077826976776123,
      "learning_rate": 2.9582215100158706e-05,
      "loss": 0.0907,
      "step": 475
    },
    {
      "epoch": 1.0536801328168235,
      "grad_norm": 0.048108045011758804,
      "learning_rate": 2.913489660186218e-05,
      "loss": 0.0803,
      "step": 476
    },
    {
      "epoch": 1.0558937465412286,
      "grad_norm": 0.050823770463466644,
      "learning_rate": 2.8690415214795046e-05,
      "loss": 0.0837,
      "step": 477
    },
    {
      "epoch": 1.0581073602656337,
      "grad_norm": 0.051949527114629745,
      "learning_rate": 2.82487884863214e-05,
      "loss": 0.0896,
      "step": 478
    },
    {
      "epoch": 1.0603209739900388,
      "grad_norm": 0.05039558187127113,
      "learning_rate": 2.7810033851108284e-05,
      "loss": 0.0877,
      "step": 479
    },
    {
      "epoch": 1.0625345877144439,
      "grad_norm": 0.05233335867524147,
      "learning_rate": 2.7374168630437456e-05,
      "loss": 0.0844,
      "step": 480
    },
    {
      "epoch": 1.064748201438849,
      "grad_norm": 0.05141540616750717,
      "learning_rate": 2.6941210031521457e-05,
      "loss": 0.0875,
      "step": 481
    },
    {
      "epoch": 1.066961815163254,
      "grad_norm": 0.05313284695148468,
      "learning_rate": 2.6511175146824443e-05,
      "loss": 0.0765,
      "step": 482
    },
    {
      "epoch": 1.0691754288876592,
      "grad_norm": 0.05009685456752777,
      "learning_rate": 2.608408095338735e-05,
      "loss": 0.0799,
      "step": 483
    },
    {
      "epoch": 1.0713890426120642,
      "grad_norm": 0.04916118085384369,
      "learning_rate": 2.5659944312157606e-05,
      "loss": 0.0827,
      "step": 484
    },
    {
      "epoch": 1.0736026563364693,
      "grad_norm": 0.05077299475669861,
      "learning_rate": 2.523878196732358e-05,
      "loss": 0.0815,
      "step": 485
    },
    {
      "epoch": 1.0758162700608744,
      "grad_norm": 0.05161164328455925,
      "learning_rate": 2.482061054565351e-05,
      "loss": 0.0873,
      "step": 486
    },
    {
      "epoch": 1.0780298837852795,
      "grad_norm": 0.05135266110301018,
      "learning_rate": 2.440544655583909e-05,
      "loss": 0.0862,
      "step": 487
    },
    {
      "epoch": 1.0802434975096846,
      "grad_norm": 0.0509047694504261,
      "learning_rate": 2.399330638784375e-05,
      "loss": 0.0816,
      "step": 488
    },
    {
      "epoch": 1.0824571112340897,
      "grad_norm": 0.052165884524583817,
      "learning_rate": 2.3584206312255677e-05,
      "loss": 0.089,
      "step": 489
    },
    {
      "epoch": 1.0846707249584948,
      "grad_norm": 0.054725173860788345,
      "learning_rate": 2.31781624796453e-05,
      "loss": 0.0913,
      "step": 490
    },
    {
      "epoch": 1.0868843386829,
      "grad_norm": 0.051129017025232315,
      "learning_rate": 2.2775190919927896e-05,
      "loss": 0.0745,
      "step": 491
    },
    {
      "epoch": 1.089097952407305,
      "grad_norm": 0.05222058296203613,
      "learning_rate": 2.2375307541730643e-05,
      "loss": 0.0807,
      "step": 492
    },
    {
      "epoch": 1.09131156613171,
      "grad_norm": 0.054515715688467026,
      "learning_rate": 2.19785281317646e-05,
      "loss": 0.0777,
      "step": 493
    },
    {
      "epoch": 1.0935251798561152,
      "grad_norm": 0.048953328281641006,
      "learning_rate": 2.158486835420149e-05,
      "loss": 0.0788,
      "step": 494
    },
    {
      "epoch": 1.0957387935805203,
      "grad_norm": 0.05130873993039131,
      "learning_rate": 2.119434375005527e-05,
      "loss": 0.0818,
      "step": 495
    },
    {
      "epoch": 1.0979524073049254,
      "grad_norm": 0.05241890251636505,
      "learning_rate": 2.0806969736568627e-05,
      "loss": 0.0879,
      "step": 496
    },
    {
      "epoch": 1.1001660210293305,
      "grad_norm": 0.05658801272511482,
      "learning_rate": 2.042276160660432e-05,
      "loss": 0.0871,
      "step": 497
    },
    {
      "epoch": 1.1023796347537356,
      "grad_norm": 0.050439462065696716,
      "learning_rate": 2.004173452804145e-05,
      "loss": 0.0794,
      "step": 498
    },
    {
      "epoch": 1.1045932484781407,
      "grad_norm": 0.04868178814649582,
      "learning_rate": 1.966390354317669e-05,
      "loss": 0.0865,
      "step": 499
    },
    {
      "epoch": 1.1068068622025455,
      "grad_norm": 0.05438188835978508,
      "learning_rate": 1.928928356813032e-05,
      "loss": 0.0847,
      "step": 500
    },
    {
      "epoch": 1.1090204759269509,
      "grad_norm": 0.057815033942461014,
      "learning_rate": 1.8917889392257513e-05,
      "loss": 0.0808,
      "step": 501
    },
    {
      "epoch": 1.1112340896513557,
      "grad_norm": 0.05223087593913078,
      "learning_rate": 1.854973567756442e-05,
      "loss": 0.0858,
      "step": 502
    },
    {
      "epoch": 1.113447703375761,
      "grad_norm": 0.04764244705438614,
      "learning_rate": 1.8184836958129312e-05,
      "loss": 0.0815,
      "step": 503
    },
    {
      "epoch": 1.115661317100166,
      "grad_norm": 0.05304750055074692,
      "learning_rate": 1.7823207639528827e-05,
      "loss": 0.0834,
      "step": 504
    },
    {
      "epoch": 1.117874930824571,
      "grad_norm": 0.05036177486181259,
      "learning_rate": 1.7464861998269243e-05,
      "loss": 0.0775,
      "step": 505
    },
    {
      "epoch": 1.120088544548976,
      "grad_norm": 0.05070766806602478,
      "learning_rate": 1.710981418122291e-05,
      "loss": 0.0832,
      "step": 506
    },
    {
      "epoch": 1.1223021582733812,
      "grad_norm": 0.05284438282251358,
      "learning_rate": 1.6758078205069717e-05,
      "loss": 0.0809,
      "step": 507
    },
    {
      "epoch": 1.1245157719977863,
      "grad_norm": 0.05208960920572281,
      "learning_rate": 1.6409667955743693e-05,
      "loss": 0.0857,
      "step": 508
    },
    {
      "epoch": 1.1267293857221914,
      "grad_norm": 0.049338165670633316,
      "learning_rate": 1.606459718788493e-05,
      "loss": 0.0774,
      "step": 509
    },
    {
      "epoch": 1.1289429994465965,
      "grad_norm": 0.0496298149228096,
      "learning_rate": 1.57228795242965e-05,
      "loss": 0.0811,
      "step": 510
    },
    {
      "epoch": 1.1311566131710016,
      "grad_norm": 0.04850947484374046,
      "learning_rate": 1.5384528455406615e-05,
      "loss": 0.0858,
      "step": 511
    },
    {
      "epoch": 1.1333702268954067,
      "grad_norm": 0.0498884953558445,
      "learning_rate": 1.5049557338736136e-05,
      "loss": 0.0784,
      "step": 512
    },
    {
      "epoch": 1.1355838406198118,
      "grad_norm": 0.05427051708102226,
      "learning_rate": 1.47179793983712e-05,
      "loss": 0.084,
      "step": 513
    },
    {
      "epoch": 1.1377974543442169,
      "grad_norm": 0.053438618779182434,
      "learning_rate": 1.4389807724441138e-05,
      "loss": 0.0882,
      "step": 514
    },
    {
      "epoch": 1.140011068068622,
      "grad_norm": 0.049612775444984436,
      "learning_rate": 1.4065055272601703e-05,
      "loss": 0.0797,
      "step": 515
    },
    {
      "epoch": 1.142224681793027,
      "grad_norm": 0.04936014115810394,
      "learning_rate": 1.3743734863523637e-05,
      "loss": 0.076,
      "step": 516
    },
    {
      "epoch": 1.1444382955174321,
      "grad_norm": 0.05199284479022026,
      "learning_rate": 1.3425859182386506e-05,
      "loss": 0.0858,
      "step": 517
    },
    {
      "epoch": 1.1466519092418372,
      "grad_norm": 0.050271183252334595,
      "learning_rate": 1.3111440778377905e-05,
      "loss": 0.0779,
      "step": 518
    },
    {
      "epoch": 1.1488655229662423,
      "grad_norm": 0.05064354091882706,
      "learning_rate": 1.2800492064198088e-05,
      "loss": 0.0784,
      "step": 519
    },
    {
      "epoch": 1.1510791366906474,
      "grad_norm": 0.05049782246351242,
      "learning_rate": 1.2493025315569801e-05,
      "loss": 0.0756,
      "step": 520
    },
    {
      "epoch": 1.1532927504150525,
      "grad_norm": 0.049687910825014114,
      "learning_rate": 1.2189052670753833e-05,
      "loss": 0.0787,
      "step": 521
    },
    {
      "epoch": 1.1555063641394576,
      "grad_norm": 0.05238902196288109,
      "learning_rate": 1.188858613006973e-05,
      "loss": 0.0841,
      "step": 522
    },
    {
      "epoch": 1.1577199778638627,
      "grad_norm": 0.05193723365664482,
      "learning_rate": 1.1591637555422032e-05,
      "loss": 0.0791,
      "step": 523
    },
    {
      "epoch": 1.1599335915882678,
      "grad_norm": 0.053750574588775635,
      "learning_rate": 1.1298218669832009e-05,
      "loss": 0.0837,
      "step": 524
    },
    {
      "epoch": 1.162147205312673,
      "grad_norm": 0.051983386278152466,
      "learning_rate": 1.1008341056974854e-05,
      "loss": 0.0828,
      "step": 525
    },
    {
      "epoch": 1.164360819037078,
      "grad_norm": 0.0516984649002552,
      "learning_rate": 1.072201616072236e-05,
      "loss": 0.0847,
      "step": 526
    },
    {
      "epoch": 1.166574432761483,
      "grad_norm": 0.05225353688001633,
      "learning_rate": 1.0439255284691176e-05,
      "loss": 0.0772,
      "step": 527
    },
    {
      "epoch": 1.1687880464858882,
      "grad_norm": 0.05271396040916443,
      "learning_rate": 1.016006959179652e-05,
      "loss": 0.0877,
      "step": 528
    },
    {
      "epoch": 1.1710016602102933,
      "grad_norm": 0.048421863466501236,
      "learning_rate": 9.884470103811524e-06,
      "loss": 0.0806,
      "step": 529
    },
    {
      "epoch": 1.1732152739346984,
      "grad_norm": 0.05148995667695999,
      "learning_rate": 9.612467700932045e-06,
      "loss": 0.0854,
      "step": 530
    },
    {
      "epoch": 1.1754288876591035,
      "grad_norm": 0.051169902086257935,
      "learning_rate": 9.344073121347194e-06,
      "loss": 0.0822,
      "step": 531
    },
    {
      "epoch": 1.1776425013835086,
      "grad_norm": 0.051393430680036545,
      "learning_rate": 9.079296960815439e-06,
      "loss": 0.0879,
      "step": 532
    },
    {
      "epoch": 1.1798561151079137,
      "grad_norm": 0.053706392645835876,
      "learning_rate": 8.818149672246222e-06,
      "loss": 0.0886,
      "step": 533
    },
    {
      "epoch": 1.1820697288323188,
      "grad_norm": 0.05470919609069824,
      "learning_rate": 8.56064156528733e-06,
      "loss": 0.0826,
      "step": 534
    },
    {
      "epoch": 1.1842833425567239,
      "grad_norm": 0.05181707814335823,
      "learning_rate": 8.306782805917904e-06,
      "loss": 0.082,
      "step": 535
    },
    {
      "epoch": 1.186496956281129,
      "grad_norm": 0.05429249629378319,
      "learning_rate": 8.056583416047092e-06,
      "loss": 0.087,
      "step": 536
    },
    {
      "epoch": 1.188710570005534,
      "grad_norm": 0.05111720412969589,
      "learning_rate": 7.810053273118396e-06,
      "loss": 0.0831,
      "step": 537
    },
    {
      "epoch": 1.1909241837299391,
      "grad_norm": 0.051177989691495895,
      "learning_rate": 7.567202109719749e-06,
      "loss": 0.0814,
      "step": 538
    },
    {
      "epoch": 1.1931377974543442,
      "grad_norm": 0.05209766700863838,
      "learning_rate": 7.3280395131992125e-06,
      "loss": 0.0845,
      "step": 539
    },
    {
      "epoch": 1.1953514111787493,
      "grad_norm": 0.05545610189437866,
      "learning_rate": 7.092574925286614e-06,
      "loss": 0.0843,
      "step": 540
    },
    {
      "epoch": 1.1975650249031544,
      "grad_norm": 0.05091063678264618,
      "learning_rate": 6.860817641720694e-06,
      "loss": 0.084,
      "step": 541
    },
    {
      "epoch": 1.1997786386275595,
      "grad_norm": 0.05152612924575806,
      "learning_rate": 6.632776811882186e-06,
      "loss": 0.0838,
      "step": 542
    },
    {
      "epoch": 1.2019922523519646,
      "grad_norm": 0.055114369839429855,
      "learning_rate": 6.4084614384325795e-06,
      "loss": 0.0884,
      "step": 543
    },
    {
      "epoch": 1.2042058660763697,
      "grad_norm": 0.05061941221356392,
      "learning_rate": 6.187880376958719e-06,
      "loss": 0.0856,
      "step": 544
    },
    {
      "epoch": 1.2064194798007748,
      "grad_norm": 0.052969641983509064,
      "learning_rate": 5.971042335623229e-06,
      "loss": 0.0904,
      "step": 545
    },
    {
      "epoch": 1.20863309352518,
      "grad_norm": 0.050591930747032166,
      "learning_rate": 5.757955874820683e-06,
      "loss": 0.0849,
      "step": 546
    },
    {
      "epoch": 1.210846707249585,
      "grad_norm": 0.05166866257786751,
      "learning_rate": 5.5486294068397254e-06,
      "loss": 0.0863,
      "step": 547
    },
    {
      "epoch": 1.21306032097399,
      "grad_norm": 0.05161614343523979,
      "learning_rate": 5.3430711955308325e-06,
      "loss": 0.0817,
      "step": 548
    },
    {
      "epoch": 1.2152739346983952,
      "grad_norm": 0.05152802914381027,
      "learning_rate": 5.141289355980257e-06,
      "loss": 0.0876,
      "step": 549
    },
    {
      "epoch": 1.2174875484228003,
      "grad_norm": 0.05258704349398613,
      "learning_rate": 4.943291854189493e-06,
      "loss": 0.091,
      "step": 550
    },
    {
      "epoch": 1.2197011621472054,
      "grad_norm": 0.05155012384057045,
      "learning_rate": 4.749086506760907e-06,
      "loss": 0.081,
      "step": 551
    },
    {
      "epoch": 1.2219147758716105,
      "grad_norm": 0.052838440984487534,
      "learning_rate": 4.558680980589062e-06,
      "loss": 0.0876,
      "step": 552
    },
    {
      "epoch": 1.2241283895960156,
      "grad_norm": 0.055451128631830215,
      "learning_rate": 4.372082792558115e-06,
      "loss": 0.0869,
      "step": 553
    },
    {
      "epoch": 1.2263420033204206,
      "grad_norm": 0.04950740560889244,
      "learning_rate": 4.1892993092450295e-06,
      "loss": 0.0805,
      "step": 554
    },
    {
      "epoch": 1.2285556170448257,
      "grad_norm": 0.05245472490787506,
      "learning_rate": 4.010337746628751e-06,
      "loss": 0.0834,
      "step": 555
    },
    {
      "epoch": 1.2307692307692308,
      "grad_norm": 0.050240740180015564,
      "learning_rate": 3.835205169805321e-06,
      "loss": 0.0807,
      "step": 556
    },
    {
      "epoch": 1.232982844493636,
      "grad_norm": 0.05048750340938568,
      "learning_rate": 3.663908492709019e-06,
      "loss": 0.0823,
      "step": 557
    },
    {
      "epoch": 1.235196458218041,
      "grad_norm": 0.05028418451547623,
      "learning_rate": 3.4964544778393383e-06,
      "loss": 0.0841,
      "step": 558
    },
    {
      "epoch": 1.2374100719424461,
      "grad_norm": 0.048871058970689774,
      "learning_rate": 3.3328497359940654e-06,
      "loss": 0.0765,
      "step": 559
    },
    {
      "epoch": 1.2396236856668512,
      "grad_norm": 0.04969479888677597,
      "learning_rate": 3.1731007260082616e-06,
      "loss": 0.0817,
      "step": 560
    },
    {
      "epoch": 1.2418372993912563,
      "grad_norm": 0.05241498723626137,
      "learning_rate": 3.0172137544993147e-06,
      "loss": 0.0853,
      "step": 561
    },
    {
      "epoch": 1.2440509131156614,
      "grad_norm": 0.05134303495287895,
      "learning_rate": 2.865194975617929e-06,
      "loss": 0.0787,
      "step": 562
    },
    {
      "epoch": 1.2462645268400665,
      "grad_norm": 0.05156482383608818,
      "learning_rate": 2.7170503908052103e-06,
      "loss": 0.0867,
      "step": 563
    },
    {
      "epoch": 1.2484781405644716,
      "grad_norm": 0.05086381360888481,
      "learning_rate": 2.572785848555699e-06,
      "loss": 0.0844,
      "step": 564
    },
    {
      "epoch": 1.2506917542888765,
      "grad_norm": 0.05083329975605011,
      "learning_rate": 2.432407044186509e-06,
      "loss": 0.0838,
      "step": 565
    },
    {
      "epoch": 1.2529053680132818,
      "grad_norm": 0.05146085098385811,
      "learning_rate": 2.2959195196124583e-06,
      "loss": 0.0813,
      "step": 566
    },
    {
      "epoch": 1.2551189817376867,
      "grad_norm": 0.05358012765645981,
      "learning_rate": 2.1633286631273213e-06,
      "loss": 0.0863,
      "step": 567
    },
    {
      "epoch": 1.257332595462092,
      "grad_norm": 0.051807280629873276,
      "learning_rate": 2.0346397091910673e-06,
      "loss": 0.0835,
      "step": 568
    },
    {
      "epoch": 1.2595462091864968,
      "grad_norm": 0.05208767205476761,
      "learning_rate": 1.9098577382232685e-06,
      "loss": 0.083,
      "step": 569
    },
    {
      "epoch": 1.2617598229109022,
      "grad_norm": 0.05047999694943428,
      "learning_rate": 1.7889876764024505e-06,
      "loss": 0.0821,
      "step": 570
    },
    {
      "epoch": 1.263973436635307,
      "grad_norm": 0.050665419548749924,
      "learning_rate": 1.672034295471709e-06,
      "loss": 0.084,
      "step": 571
    },
    {
      "epoch": 1.2661870503597124,
      "grad_norm": 0.05311613902449608,
      "learning_rate": 1.5590022125502616e-06,
      "loss": 0.0875,
      "step": 572
    },
    {
      "epoch": 1.2684006640841172,
      "grad_norm": 0.053732745349407196,
      "learning_rate": 1.4498958899511971e-06,
      "loss": 0.0807,
      "step": 573
    },
    {
      "epoch": 1.2706142778085225,
      "grad_norm": 0.05082022398710251,
      "learning_rate": 1.3447196350053282e-06,
      "loss": 0.0861,
      "step": 574
    },
    {
      "epoch": 1.2728278915329274,
      "grad_norm": 0.05043462663888931,
      "learning_rate": 1.2434775998910964e-06,
      "loss": 0.083,
      "step": 575
    },
    {
      "epoch": 1.2750415052573327,
      "grad_norm": 0.053700484335422516,
      "learning_rate": 1.146173781470691e-06,
      "loss": 0.0851,
      "step": 576
    },
    {
      "epoch": 1.2772551189817376,
      "grad_norm": 0.05222710967063904,
      "learning_rate": 1.0528120211322557e-06,
      "loss": 0.0868,
      "step": 577
    },
    {
      "epoch": 1.2794687327061427,
      "grad_norm": 0.04993864893913269,
      "learning_rate": 9.6339600463823e-07,
      "loss": 0.0806,
      "step": 578
    },
    {
      "epoch": 1.2816823464305478,
      "grad_norm": 0.05103394389152527,
      "learning_rate": 8.779292619798456e-07,
      "loss": 0.0859,
      "step": 579
    },
    {
      "epoch": 1.2838959601549529,
      "grad_norm": 0.04791456460952759,
      "learning_rate": 7.964151672377458e-07,
      "loss": 0.0748,
      "step": 580
    },
    {
      "epoch": 1.286109573879358,
      "grad_norm": 0.049576062709093094,
      "learning_rate": 7.188569384488277e-07,
      "loss": 0.0835,
      "step": 581
    },
    {
      "epoch": 1.288323187603763,
      "grad_norm": 0.05148833245038986,
      "learning_rate": 6.452576374791521e-07,
      "loss": 0.086,
      "step": 582
    },
    {
      "epoch": 1.2905368013281682,
      "grad_norm": 0.050598274916410446,
      "learning_rate": 5.756201699031087e-07,
      "loss": 0.0796,
      "step": 583
    },
    {
      "epoch": 1.2927504150525733,
      "grad_norm": 0.05039560794830322,
      "learning_rate": 5.099472848886825e-07,
      "loss": 0.084,
      "step": 584
    },
    {
      "epoch": 1.2949640287769784,
      "grad_norm": 0.050472088158130646,
      "learning_rate": 4.482415750889204e-07,
      "loss": 0.0772,
      "step": 585
    },
    {
      "epoch": 1.2971776425013835,
      "grad_norm": 0.051853395998477936,
      "learning_rate": 3.90505476539577e-07,
      "loss": 0.0833,
      "step": 586
    },
    {
      "epoch": 1.2993912562257885,
      "grad_norm": 0.050441011786460876,
      "learning_rate": 3.367412685629833e-07,
      "loss": 0.0879,
      "step": 587
    },
    {
      "epoch": 1.3016048699501936,
      "grad_norm": 0.04932254180312157,
      "learning_rate": 2.869510736779927e-07,
      "loss": 0.0798,
      "step": 588
    },
    {
      "epoch": 1.3038184836745987,
      "grad_norm": 0.05223463475704193,
      "learning_rate": 2.4113685751625216e-07,
      "loss": 0.0873,
      "step": 589
    },
    {
      "epoch": 1.3060320973990038,
      "grad_norm": 0.05462180823087692,
      "learning_rate": 1.9930042874457254e-07,
      "loss": 0.0904,
      "step": 590
    },
    {
      "epoch": 1.308245711123409,
      "grad_norm": 0.04821028560400009,
      "learning_rate": 1.6144343899352277e-07,
      "loss": 0.0812,
      "step": 591
    },
    {
      "epoch": 1.310459324847814,
      "grad_norm": 0.048690084367990494,
      "learning_rate": 1.275673827922358e-07,
      "loss": 0.0798,
      "step": 592
    },
    {
      "epoch": 1.3126729385722191,
      "grad_norm": 0.05054464191198349,
      "learning_rate": 9.767359750940463e-08,
      "loss": 0.085,
      "step": 593
    },
    {
      "epoch": 1.3148865522966242,
      "grad_norm": 0.0533391498029232,
      "learning_rate": 7.176326330049032e-08,
      "loss": 0.0856,
      "step": 594
    },
    {
      "epoch": 1.3171001660210293,
      "grad_norm": 0.051400430500507355,
      "learning_rate": 4.98374030611084e-08,
      "loss": 0.0808,
      "step": 595
    },
    {
      "epoch": 1.3193137797454344,
      "grad_norm": 0.05192789435386658,
      "learning_rate": 3.189688238670607e-08,
      "loss": 0.0873,
      "step": 596
    },
    {
      "epoch": 1.3215273934698395,
      "grad_norm": 0.04824462905526161,
      "learning_rate": 1.7942409538294514e-08,
      "loss": 0.0786,
      "step": 597
    },
    {
      "epoch": 1.3237410071942446,
      "grad_norm": 0.052794598042964935,
      "learning_rate": 7.974535414572715e-09,
      "loss": 0.0829,
      "step": 598
    },
    {
      "epoch": 1.3259546209186497,
      "grad_norm": 0.053302157670259476,
      "learning_rate": 1.9936535301513516e-09,
      "loss": 0.0924,
      "step": 599
    },
    {
      "epoch": 1.3281682346430548,
      "grad_norm": 0.05163723602890968,
      "learning_rate": 0.0,
      "loss": 0.0822,
      "step": 600
    }
  ],
  "logging_steps": 1,
  "max_steps": 600,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.1166765036624937e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}