{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3198976327575176,
  "eval_steps": 500,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001599488163787588,
      "grad_norm": 85.17652893066406,
      "learning_rate": 0.0,
      "loss": 1.8933,
      "step": 1
    },
    {
      "epoch": 0.0003198976327575176,
      "grad_norm": 85.6594009399414,
      "learning_rate": 6.618493869311837e-08,
      "loss": 1.8658,
      "step": 2
    },
    {
      "epoch": 0.0004798464491362764,
      "grad_norm": 85.49679565429688,
      "learning_rate": 1.0490064594112132e-07,
      "loss": 1.8685,
      "step": 3
    },
    {
      "epoch": 0.0006397952655150352,
      "grad_norm": 85.8963394165039,
      "learning_rate": 1.3236987738623674e-07,
      "loss": 1.8663,
      "step": 4
    },
    {
      "epoch": 0.000799744081893794,
      "grad_norm": 85.42606353759766,
      "learning_rate": 1.536766686099492e-07,
      "loss": 1.8578,
      "step": 5
    },
    {
      "epoch": 0.0009596928982725527,
      "grad_norm": 86.55461883544922,
      "learning_rate": 1.710855846342397e-07,
      "loss": 1.8601,
      "step": 6
    },
    {
      "epoch": 0.0011196417146513116,
      "grad_norm": 86.57372283935547,
      "learning_rate": 1.8580461340620663e-07,
      "loss": 1.8426,
      "step": 7
    },
    {
      "epoch": 0.0012795905310300703,
      "grad_norm": 84.68374633789062,
      "learning_rate": 1.9855481607935512e-07,
      "loss": 1.7736,
      "step": 8
    },
    {
      "epoch": 0.0014395393474088292,
      "grad_norm": 84.08427429199219,
      "learning_rate": 2.0980129188224264e-07,
      "loss": 1.7468,
      "step": 9
    },
    {
      "epoch": 0.001599488163787588,
      "grad_norm": 84.55657958984375,
      "learning_rate": 2.1986160730306764e-07,
      "loss": 1.7423,
      "step": 10
    },
    {
      "epoch": 0.0017594369801663468,
      "grad_norm": 85.6728286743164,
      "learning_rate": 2.2896226959254482e-07,
      "loss": 1.736,
      "step": 11
    },
    {
      "epoch": 0.0019193857965451055,
      "grad_norm": 86.00248718261719,
      "learning_rate": 2.3727052332735806e-07,
      "loss": 1.5367,
      "step": 12
    },
    {
      "epoch": 0.0020793346129238644,
      "grad_norm": 82.50618743896484,
      "learning_rate": 2.449133758827484e-07,
      "loss": 1.4261,
      "step": 13
    },
    {
      "epoch": 0.0022392834293026233,
      "grad_norm": 83.5391845703125,
      "learning_rate": 2.51989552099325e-07,
      "loss": 1.4143,
      "step": 14
    },
    {
      "epoch": 0.0023992322456813818,
      "grad_norm": 83.69563293457031,
      "learning_rate": 2.585773145510705e-07,
      "loss": 1.4004,
      "step": 15
    },
    {
      "epoch": 0.0025591810620601407,
      "grad_norm": 87.10025024414062,
      "learning_rate": 2.647397547724735e-07,
      "loss": 1.351,
      "step": 16
    },
    {
      "epoch": 0.0027191298784388996,
      "grad_norm": 88.8424301147461,
      "learning_rate": 2.705284775585532e-07,
      "loss": 1.3156,
      "step": 17
    },
    {
      "epoch": 0.0028790786948176585,
      "grad_norm": 89.1293716430664,
      "learning_rate": 2.7598623057536095e-07,
      "loss": 1.2823,
      "step": 18
    },
    {
      "epoch": 0.0030390275111964174,
      "grad_norm": 93.47500610351562,
      "learning_rate": 2.8114882205007443e-07,
      "loss": 1.2635,
      "step": 19
    },
    {
      "epoch": 0.003198976327575176,
      "grad_norm": 46.638404846191406,
      "learning_rate": 2.8604654599618593e-07,
      "loss": 0.6763,
      "step": 20
    },
    {
      "epoch": 0.0033589251439539347,
      "grad_norm": 34.566158294677734,
      "learning_rate": 2.9070525934732797e-07,
      "loss": 0.6199,
      "step": 21
    },
    {
      "epoch": 0.0035188739603326936,
      "grad_norm": 29.87923240661621,
      "learning_rate": 2.951472082856632e-07,
      "loss": 0.6077,
      "step": 22
    },
    {
      "epoch": 0.0036788227767114525,
      "grad_norm": 27.07023048400879,
      "learning_rate": 2.99391670736156e-07,
      "loss": 0.5797,
      "step": 23
    },
    {
      "epoch": 0.003838771593090211,
      "grad_norm": 25.281110763549805,
      "learning_rate": 3.0345546202047643e-07,
      "loss": 0.5628,
      "step": 24
    },
    {
      "epoch": 0.00399872040946897,
      "grad_norm": 24.53383445739746,
      "learning_rate": 3.073533372198984e-07,
      "loss": 0.5466,
      "step": 25
    },
    {
      "epoch": 0.004158669225847729,
      "grad_norm": 21.25245475769043,
      "learning_rate": 3.1109831457586684e-07,
      "loss": 0.529,
      "step": 26
    },
    {
      "epoch": 0.004318618042226488,
      "grad_norm": 17.80137825012207,
      "learning_rate": 3.1470193782336395e-07,
      "loss": 0.4994,
      "step": 27
    },
    {
      "epoch": 0.004478566858605247,
      "grad_norm": 14.846242904663086,
      "learning_rate": 3.181744907924434e-07,
      "loss": 0.4873,
      "step": 28
    },
    {
      "epoch": 0.0046385156749840055,
      "grad_norm": 13.211403846740723,
      "learning_rate": 3.2152517433485257e-07,
      "loss": 0.483,
      "step": 29
    },
    {
      "epoch": 0.0047984644913627635,
      "grad_norm": 11.83629322052002,
      "learning_rate": 3.2476225324418893e-07,
      "loss": 0.4724,
      "step": 30
    },
    {
      "epoch": 0.004958413307741522,
      "grad_norm": 9.42281436920166,
      "learning_rate": 3.2789317907662863e-07,
      "loss": 0.4551,
      "step": 31
    },
    {
      "epoch": 0.005118362124120281,
      "grad_norm": 7.412388801574707,
      "learning_rate": 3.3092469346559186e-07,
      "loss": 0.419,
      "step": 32
    },
    {
      "epoch": 0.00527831094049904,
      "grad_norm": 7.285440921783447,
      "learning_rate": 3.3386291553366605e-07,
      "loss": 0.4061,
      "step": 33
    },
    {
      "epoch": 0.005438259756877799,
      "grad_norm": 6.207165718078613,
      "learning_rate": 3.3671341625167155e-07,
      "loss": 0.4002,
      "step": 34
    },
    {
      "epoch": 0.005598208573256558,
      "grad_norm": 4.463186264038086,
      "learning_rate": 3.3948128201615584e-07,
      "loss": 0.3886,
      "step": 35
    },
    {
      "epoch": 0.005758157389635317,
      "grad_norm": 5.231314182281494,
      "learning_rate": 3.421711692684794e-07,
      "loss": 0.3892,
      "step": 36
    },
    {
      "epoch": 0.005918106206014076,
      "grad_norm": 3.8013081550598145,
      "learning_rate": 3.4478735162881125e-07,
      "loss": 0.3828,
      "step": 37
    },
    {
      "epoch": 0.006078055022392835,
      "grad_norm": 3.3373162746429443,
      "learning_rate": 3.4733376074319286e-07,
      "loss": 0.3765,
      "step": 38
    },
    {
      "epoch": 0.006238003838771593,
      "grad_norm": 3.666706085205078,
      "learning_rate": 3.4981402182386973e-07,
      "loss": 0.3696,
      "step": 39
    },
    {
      "epoch": 0.006397952655150352,
      "grad_norm": 2.9298367500305176,
      "learning_rate": 3.5223148468930436e-07,
      "loss": 0.3709,
      "step": 40
    },
    {
      "epoch": 0.0065579014715291106,
      "grad_norm": 3.2080020904541016,
      "learning_rate": 3.5458925097084135e-07,
      "loss": 0.3647,
      "step": 41
    },
    {
      "epoch": 0.0067178502879078695,
      "grad_norm": 3.2833340167999268,
      "learning_rate": 3.5689019804044634e-07,
      "loss": 0.3682,
      "step": 42
    },
    {
      "epoch": 0.006877799104286628,
      "grad_norm": 2.499022960662842,
      "learning_rate": 3.5913700012258737e-07,
      "loss": 0.3641,
      "step": 43
    },
    {
      "epoch": 0.007037747920665387,
      "grad_norm": 2.818941116333008,
      "learning_rate": 3.613321469787815e-07,
      "loss": 0.3648,
      "step": 44
    },
    {
      "epoch": 0.007197696737044146,
      "grad_norm": 3.203673839569092,
      "learning_rate": 3.634779604921918e-07,
      "loss": 0.3685,
      "step": 45
    },
    {
      "epoch": 0.007357645553422905,
      "grad_norm": 2.4849696159362793,
      "learning_rate": 3.6557660942927445e-07,
      "loss": 0.3644,
      "step": 46
    },
    {
      "epoch": 0.007517594369801663,
      "grad_norm": 2.909961462020874,
      "learning_rate": 3.676301226137632e-07,
      "loss": 0.3617,
      "step": 47
    },
    {
      "epoch": 0.007677543186180422,
      "grad_norm": 3.9024240970611572,
      "learning_rate": 3.696404007135948e-07,
      "loss": 0.3602,
      "step": 48
    },
    {
      "epoch": 0.007837492002559182,
      "grad_norm": 3.8943114280700684,
      "learning_rate": 3.7160922681241326e-07,
      "loss": 0.3593,
      "step": 49
    },
    {
      "epoch": 0.00799744081893794,
      "grad_norm": 2.9267067909240723,
      "learning_rate": 3.735382759130168e-07,
      "loss": 0.359,
      "step": 50
    },
    {
      "epoch": 0.008157389635316698,
      "grad_norm": 3.1694483757019043,
      "learning_rate": 3.754291234996745e-07,
      "loss": 0.3548,
      "step": 51
    },
    {
      "epoch": 0.008317338451695458,
      "grad_norm": 2.925090789794922,
      "learning_rate": 3.772832532689852e-07,
      "loss": 0.357,
      "step": 52
    },
    {
      "epoch": 0.008477287268074216,
      "grad_norm": 2.9238314628601074,
      "learning_rate": 3.7910206412432413e-07,
      "loss": 0.3538,
      "step": 53
    },
    {
      "epoch": 0.008637236084452975,
      "grad_norm": 3.049347400665283,
      "learning_rate": 3.808868765164823e-07,
      "loss": 0.3568,
      "step": 54
    },
    {
      "epoch": 0.008797184900831733,
      "grad_norm": 2.571756601333618,
      "learning_rate": 3.8263893820249403e-07,
      "loss": 0.3528,
      "step": 55
    },
    {
      "epoch": 0.008957133717210493,
      "grad_norm": 2.5225884914398193,
      "learning_rate": 3.843594294855618e-07,
      "loss": 0.3499,
      "step": 56
    },
    {
      "epoch": 0.009117082533589251,
      "grad_norm": 2.102689266204834,
      "learning_rate": 3.860494679911958e-07,
      "loss": 0.3504,
      "step": 57
    },
    {
      "epoch": 0.009277031349968011,
      "grad_norm": 3.555590867996216,
      "learning_rate": 3.877101130279709e-07,
      "loss": 0.356,
      "step": 58
    },
    {
      "epoch": 0.009436980166346769,
      "grad_norm": 2.7563183307647705,
      "learning_rate": 3.8934236957551244e-07,
      "loss": 0.352,
      "step": 59
    },
    {
      "epoch": 0.009596928982725527,
      "grad_norm": 2.8881306648254395,
      "learning_rate": 3.9094719193730725e-07,
      "loss": 0.347,
      "step": 60
    },
    {
      "epoch": 0.009756877799104287,
      "grad_norm": 2.2584786415100098,
      "learning_rate": 3.9252548709158774e-07,
      "loss": 0.3475,
      "step": 61
    },
    {
      "epoch": 0.009916826615483045,
      "grad_norm": 2.5391483306884766,
      "learning_rate": 3.9407811776974695e-07,
      "loss": 0.3459,
      "step": 62
    },
    {
      "epoch": 0.010076775431861805,
      "grad_norm": 4.021678924560547,
      "learning_rate": 3.956059052884493e-07,
      "loss": 0.3519,
      "step": 63
    },
    {
      "epoch": 0.010236724248240563,
      "grad_norm": 3.740267515182495,
      "learning_rate": 3.9710963215871023e-07,
      "loss": 0.3533,
      "step": 64
    },
    {
      "epoch": 0.010396673064619322,
      "grad_norm": 2.5211634635925293,
      "learning_rate": 3.985900444926976e-07,
      "loss": 0.3493,
      "step": 65
    },
    {
      "epoch": 0.01055662188099808,
      "grad_norm": 2.3158297538757324,
      "learning_rate": 4.000478542267844e-07,
      "loss": 0.347,
      "step": 66
    },
    {
      "epoch": 0.01071657069737684,
      "grad_norm": 2.4849162101745605,
      "learning_rate": 4.014837411774357e-07,
      "loss": 0.3476,
      "step": 67
    },
    {
      "epoch": 0.010876519513755598,
      "grad_norm": 2.5029687881469727,
      "learning_rate": 4.0289835494478997e-07,
      "loss": 0.3443,
      "step": 68
    },
    {
      "epoch": 0.011036468330134356,
      "grad_norm": 2.865060567855835,
      "learning_rate": 4.042923166772774e-07,
      "loss": 0.3435,
      "step": 69
    },
    {
      "epoch": 0.011196417146513116,
      "grad_norm": 2.3379647731781006,
      "learning_rate": 4.0566622070927427e-07,
      "loss": 0.3462,
      "step": 70
    },
    {
      "epoch": 0.011356365962891874,
      "grad_norm": 2.227175712585449,
      "learning_rate": 4.070206360825987e-07,
      "loss": 0.3449,
      "step": 71
    },
    {
      "epoch": 0.011516314779270634,
      "grad_norm": 2.171285629272461,
      "learning_rate": 4.0835610796159775e-07,
      "loss": 0.3446,
      "step": 72
    },
    {
      "epoch": 0.011676263595649392,
      "grad_norm": 2.293562650680542,
      "learning_rate": 4.0967315895063244e-07,
      "loss": 0.3433,
      "step": 73
    },
    {
      "epoch": 0.011836212412028152,
      "grad_norm": 1.9350941181182861,
      "learning_rate": 4.1097229032192967e-07,
      "loss": 0.3448,
      "step": 74
    },
    {
      "epoch": 0.01199616122840691,
      "grad_norm": 2.324625015258789,
      "learning_rate": 4.1225398316101974e-07,
      "loss": 0.3449,
      "step": 75
    },
    {
      "epoch": 0.01215611004478567,
      "grad_norm": 1.9447277784347534,
      "learning_rate": 4.1351869943631123e-07,
      "loss": 0.3424,
      "step": 76
    },
    {
      "epoch": 0.012316058861164427,
      "grad_norm": 2.354130983352661,
      "learning_rate": 4.1476688299875144e-07,
      "loss": 0.3394,
      "step": 77
    },
    {
      "epoch": 0.012476007677543186,
      "grad_norm": 2.6508255004882812,
      "learning_rate": 4.1599896051698815e-07,
      "loss": 0.343,
      "step": 78
    },
    {
      "epoch": 0.012635956493921945,
      "grad_norm": 2.754037857055664,
      "learning_rate": 4.1721534235296145e-07,
      "loss": 0.3457,
      "step": 79
    },
    {
      "epoch": 0.012795905310300703,
      "grad_norm": 2.178448438644409,
      "learning_rate": 4.184164233824227e-07,
      "loss": 0.3412,
      "step": 80
    },
    {
      "epoch": 0.012955854126679463,
      "grad_norm": 2.0572001934051514,
      "learning_rate": 4.1960258376448527e-07,
      "loss": 0.3412,
      "step": 81
    },
    {
      "epoch": 0.013115802943058221,
      "grad_norm": 2.156132459640503,
      "learning_rate": 4.207741896639597e-07,
      "loss": 0.3382,
      "step": 82
    },
    {
      "epoch": 0.013275751759436981,
      "grad_norm": 1.894192099571228,
      "learning_rate": 4.219315939299085e-07,
      "loss": 0.3448,
      "step": 83
    },
    {
      "epoch": 0.013435700575815739,
      "grad_norm": 2.370906114578247,
      "learning_rate": 4.230751367335647e-07,
      "loss": 0.3392,
      "step": 84
    },
    {
      "epoch": 0.013595649392194497,
      "grad_norm": 2.20163631439209,
      "learning_rate": 4.242051461685024e-07,
      "loss": 0.3407,
      "step": 85
    },
    {
      "epoch": 0.013755598208573257,
      "grad_norm": 1.9814859628677368,
      "learning_rate": 4.2532193881570574e-07,
      "loss": 0.3394,
      "step": 86
    },
    {
      "epoch": 0.013915547024952015,
      "grad_norm": 2.2526137828826904,
      "learning_rate": 4.2642582027597383e-07,
      "loss": 0.3386,
      "step": 87
    },
    {
      "epoch": 0.014075495841330775,
      "grad_norm": 1.8013986349105835,
      "learning_rate": 4.275170856718999e-07,
      "loss": 0.3397,
      "step": 88
    },
    {
      "epoch": 0.014235444657709533,
      "grad_norm": 2.0186736583709717,
      "learning_rate": 4.2859602012148816e-07,
      "loss": 0.3353,
      "step": 89
    },
    {
      "epoch": 0.014395393474088292,
      "grad_norm": 2.665245532989502,
      "learning_rate": 4.2966289918531025e-07,
      "loss": 0.3396,
      "step": 90
    },
    {
      "epoch": 0.01455534229046705,
      "grad_norm": 2.8007969856262207,
      "learning_rate": 4.30717989288955e-07,
      "loss": 0.345,
      "step": 91
    },
    {
      "epoch": 0.01471529110684581,
      "grad_norm": 2.548588752746582,
      "learning_rate": 4.317615481223928e-07,
      "loss": 0.3375,
      "step": 92
    },
    {
      "epoch": 0.014875239923224568,
      "grad_norm": 2.3883602619171143,
      "learning_rate": 4.327938250177499e-07,
      "loss": 0.3399,
      "step": 93
    },
    {
      "epoch": 0.015035188739603326,
      "grad_norm": 3.050342559814453,
      "learning_rate": 4.338150613068816e-07,
      "loss": 0.3354,
      "step": 94
    },
    {
      "epoch": 0.015195137555982086,
      "grad_norm": 3.028380870819092,
      "learning_rate": 4.348254906600237e-07,
      "loss": 0.3383,
      "step": 95
    },
    {
      "epoch": 0.015355086372360844,
      "grad_norm": 2.1377193927764893,
      "learning_rate": 4.358253394067132e-07,
      "loss": 0.334,
      "step": 96
    },
    {
      "epoch": 0.015515035188739604,
      "grad_norm": 2.8175201416015625,
      "learning_rate": 4.368148268400797e-07,
      "loss": 0.3387,
      "step": 97
    },
    {
      "epoch": 0.015674984005118364,
      "grad_norm": 2.3567044734954834,
      "learning_rate": 4.3779416550553173e-07,
      "loss": 0.337,
      "step": 98
    },
    {
      "epoch": 0.01583493282149712,
      "grad_norm": 1.8462302684783936,
      "learning_rate": 4.3876356147478737e-07,
      "loss": 0.3376,
      "step": 99
    },
    {
      "epoch": 0.01599488163787588,
      "grad_norm": 2.2520411014556885,
      "learning_rate": 4.397232146061353e-07,
      "loss": 0.3392,
      "step": 100
    },
    {
      "epoch": 0.01615483045425464,
      "grad_norm": 2.330493688583374,
      "learning_rate": 4.4067331879174436e-07,
      "loss": 0.3355,
      "step": 101
    },
    {
      "epoch": 0.016314779270633396,
      "grad_norm": 2.0870676040649414,
      "learning_rate": 4.416140621927928e-07,
      "loss": 0.3383,
      "step": 102
    },
    {
      "epoch": 0.016474728087012155,
      "grad_norm": 1.692879557609558,
      "learning_rate": 4.42545627463125e-07,
      "loss": 0.3374,
      "step": 103
    },
    {
      "epoch": 0.016634676903390915,
      "grad_norm": 2.5787672996520996,
      "learning_rate": 4.434681919621036e-07,
      "loss": 0.3332,
      "step": 104
    },
    {
      "epoch": 0.016794625719769675,
      "grad_norm": 1.7892930507659912,
      "learning_rate": 4.4438192795727716e-07,
      "loss": 0.336,
      "step": 105
    },
    {
      "epoch": 0.01695457453614843,
      "grad_norm": 3.3685359954833984,
      "learning_rate": 4.452870028174424e-07,
      "loss": 0.34,
      "step": 106
    },
    {
      "epoch": 0.01711452335252719,
      "grad_norm": 2.1710000038146973,
      "learning_rate": 4.4618357919664135e-07,
      "loss": 0.3366,
      "step": 107
    },
    {
      "epoch": 0.01727447216890595,
      "grad_norm": 2.3592770099639893,
      "learning_rate": 4.470718152096007e-07,
      "loss": 0.3357,
      "step": 108
    },
    {
      "epoch": 0.01743442098528471,
      "grad_norm": 2.0101053714752197,
      "learning_rate": 4.479518645990856e-07,
      "loss": 0.3365,
      "step": 109
    },
    {
      "epoch": 0.017594369801663467,
      "grad_norm": 1.988000512123108,
      "learning_rate": 4.488238768956124e-07,
      "loss": 0.3372,
      "step": 110
    },
    {
      "epoch": 0.017754318618042227,
      "grad_norm": 2.3476438522338867,
      "learning_rate": 4.496879975699325e-07,
      "loss": 0.335,
      "step": 111
    },
    {
      "epoch": 0.017914267434420986,
      "grad_norm": 1.8307112455368042,
      "learning_rate": 4.5054436817868014e-07,
      "loss": 0.3361,
      "step": 112
    },
    {
      "epoch": 0.018074216250799743,
      "grad_norm": 2.2033002376556396,
      "learning_rate": 4.513931265035449e-07,
      "loss": 0.3319,
      "step": 113
    },
    {
      "epoch": 0.018234165067178502,
      "grad_norm": 2.2312443256378174,
      "learning_rate": 4.522344066843142e-07,
      "loss": 0.3347,
      "step": 114
    },
    {
      "epoch": 0.018394113883557262,
      "grad_norm": 2.2270936965942383,
      "learning_rate": 4.5306833934610526e-07,
      "loss": 0.3348,
      "step": 115
    },
    {
      "epoch": 0.018554062699936022,
      "grad_norm": 1.9072121381759644,
      "learning_rate": 4.5389505172108926e-07,
      "loss": 0.3369,
      "step": 116
    },
    {
      "epoch": 0.01871401151631478,
      "grad_norm": 2.190023183822632,
      "learning_rate": 4.5471466776499105e-07,
      "loss": 0.3317,
      "step": 117
    },
    {
      "epoch": 0.018873960332693538,
      "grad_norm": 2.107757568359375,
      "learning_rate": 4.5552730826863076e-07,
      "loss": 0.3342,
      "step": 118
    },
    {
      "epoch": 0.019033909149072298,
      "grad_norm": 1.8661385774612427,
      "learning_rate": 4.5633309096475983e-07,
      "loss": 0.3359,
      "step": 119
    },
    {
      "epoch": 0.019193857965451054,
      "grad_norm": 2.014629602432251,
      "learning_rate": 4.571321306304257e-07,
      "loss": 0.3341,
      "step": 120
    },
    {
      "epoch": 0.019353806781829814,
      "grad_norm": 2.8072755336761475,
      "learning_rate": 4.5792453918508963e-07,
      "loss": 0.3353,
      "step": 121
    },
    {
      "epoch": 0.019513755598208574,
      "grad_norm": 2.038113594055176,
      "learning_rate": 4.5871042578470616e-07,
      "loss": 0.3348,
      "step": 122
    },
    {
      "epoch": 0.019673704414587333,
      "grad_norm": 2.315272808074951,
      "learning_rate": 4.594898969119626e-07,
      "loss": 0.3325,
      "step": 123
    },
    {
      "epoch": 0.01983365323096609,
      "grad_norm": 2.1532442569732666,
      "learning_rate": 4.602630564628653e-07,
      "loss": 0.3319,
      "step": 124
    },
    {
      "epoch": 0.01999360204734485,
      "grad_norm": 2.007309675216675,
      "learning_rate": 4.6103000582984767e-07,
      "loss": 0.3319,
      "step": 125
    },
    {
      "epoch": 0.02015355086372361,
      "grad_norm": 2.151139974594116,
      "learning_rate": 4.6179084398156766e-07,
      "loss": 0.333,
      "step": 126
    },
    {
      "epoch": 0.020313499680102366,
      "grad_norm": 2.3104774951934814,
      "learning_rate": 4.6254566753955096e-07,
      "loss": 0.332,
      "step": 127
    },
    {
      "epoch": 0.020473448496481125,
      "grad_norm": 1.8280476331710815,
      "learning_rate": 4.632945708518286e-07,
      "loss": 0.3306,
      "step": 128
    },
    {
      "epoch": 0.020633397312859885,
      "grad_norm": 2.3713104724884033,
      "learning_rate": 4.6403764606370863e-07,
      "loss": 0.3332,
      "step": 129
    },
    {
      "epoch": 0.020793346129238645,
      "grad_norm": 3.176211357116699,
      "learning_rate": 4.6477498318581597e-07,
      "loss": 0.3306,
      "step": 130
    },
    {
      "epoch": 0.0209532949456174,
      "grad_norm": 2.147477149963379,
      "learning_rate": 4.655066701595247e-07,
      "loss": 0.3317,
      "step": 131
    },
    {
      "epoch": 0.02111324376199616,
      "grad_norm": 1.7592236995697021,
      "learning_rate": 4.662327929199028e-07,
      "loss": 0.3321,
      "step": 132
    },
    {
      "epoch": 0.02127319257837492,
      "grad_norm": 2.2478225231170654,
      "learning_rate": 4.6695343545628114e-07,
      "loss": 0.3294,
      "step": 133
    },
    {
      "epoch": 0.02143314139475368,
      "grad_norm": 3.3743834495544434,
      "learning_rate": 4.676686798705541e-07,
      "loss": 0.3321,
      "step": 134
    },
    {
      "epoch": 0.021593090211132437,
      "grad_norm": 2.4256768226623535,
      "learning_rate": 4.683786064333132e-07,
      "loss": 0.3348,
      "step": 135
    },
    {
      "epoch": 0.021753039027511197,
      "grad_norm": 1.9116963148117065,
      "learning_rate": 4.6908329363790834e-07,
      "loss": 0.3308,
      "step": 136
    },
    {
      "epoch": 0.021912987843889956,
      "grad_norm": 1.9296830892562866,
      "learning_rate": 4.697828182525298e-07,
      "loss": 0.3322,
      "step": 137
    },
    {
      "epoch": 0.022072936660268713,
      "grad_norm": 1.8151130676269531,
      "learning_rate": 4.7047725537039577e-07,
      "loss": 0.3321,
      "step": 138
    },
    {
      "epoch": 0.022232885476647472,
      "grad_norm": 3.5900635719299316,
      "learning_rate": 4.711666784581277e-07,
      "loss": 0.333,
      "step": 139
    },
    {
      "epoch": 0.022392834293026232,
      "grad_norm": 2.350512742996216,
      "learning_rate": 4.718511594023926e-07,
      "loss": 0.3323,
      "step": 140
    },
    {
      "epoch": 0.022552783109404992,
      "grad_norm": 1.7909281253814697,
      "learning_rate": 4.7253076855488455e-07,
      "loss": 0.3309,
      "step": 141
    },
    {
      "epoch": 0.022712731925783748,
      "grad_norm": 1.7933621406555176,
      "learning_rate": 4.732055747757171e-07,
      "loss": 0.3296,
      "step": 142
    },
    {
      "epoch": 0.022872680742162508,
      "grad_norm": 2.1033036708831787,
      "learning_rate": 4.738756454752932e-07,
      "loss": 0.3298,
      "step": 143
    },
    {
      "epoch": 0.023032629558541268,
      "grad_norm": 2.3765900135040283,
      "learning_rate": 4.745410466547161e-07,
      "loss": 0.3304,
      "step": 144
    },
    {
      "epoch": 0.023192578374920024,
      "grad_norm": 2.3325862884521484,
      "learning_rate": 4.7520184294480176e-07,
      "loss": 0.3296,
      "step": 145
    },
    {
      "epoch": 0.023352527191298784,
      "grad_norm": 2.2188477516174316,
      "learning_rate": 4.7585809764375076e-07,
      "loss": 0.3334,
      "step": 146
    },
    {
      "epoch": 0.023512476007677544,
      "grad_norm": 2.363621711730957,
      "learning_rate": 4.765098727535345e-07,
      "loss": 0.3315,
      "step": 147
    },
    {
      "epoch": 0.023672424824056303,
      "grad_norm": 2.4442789554595947,
      "learning_rate": 4.77157229015048e-07,
      "loss": 0.3293,
      "step": 148
    },
    {
      "epoch": 0.02383237364043506,
      "grad_norm": 1.6580065488815308,
      "learning_rate": 4.778002259420783e-07,
      "loss": 0.3249,
      "step": 149
    },
    {
      "epoch": 0.02399232245681382,
      "grad_norm": 2.5953547954559326,
      "learning_rate": 4.784389218541381e-07,
      "loss": 0.3339,
      "step": 150
    },
    {
      "epoch": 0.02415227127319258,
      "grad_norm": 1.939281940460205,
      "learning_rate": 4.790733739082079e-07,
      "loss": 0.3308,
      "step": 151
    },
    {
      "epoch": 0.02431222008957134,
      "grad_norm": 1.9402070045471191,
      "learning_rate": 4.797036381294296e-07,
      "loss": 0.3313,
      "step": 152
    },
    {
      "epoch": 0.024472168905950095,
      "grad_norm": 2.573465347290039,
      "learning_rate": 4.803297694407958e-07,
      "loss": 0.327,
      "step": 153
    },
    {
      "epoch": 0.024632117722328855,
      "grad_norm": 2.283810615539551,
      "learning_rate": 4.809518216918698e-07,
      "loss": 0.3271,
      "step": 154
    },
    {
      "epoch": 0.024792066538707615,
      "grad_norm": 1.6673210859298706,
      "learning_rate": 4.815698476865779e-07,
      "loss": 0.327,
      "step": 155
    },
    {
      "epoch": 0.02495201535508637,
      "grad_norm": 2.462007999420166,
      "learning_rate": 4.821838992101065e-07,
      "loss": 0.3279,
      "step": 156
    },
    {
      "epoch": 0.02511196417146513,
      "grad_norm": 2.1435704231262207,
      "learning_rate": 4.827940270549415e-07,
      "loss": 0.3289,
      "step": 157
    },
    {
      "epoch": 0.02527191298784389,
      "grad_norm": 2.4535584449768066,
      "learning_rate": 4.834002810460798e-07,
      "loss": 0.3278,
      "step": 158
    },
    {
      "epoch": 0.02543186180422265,
      "grad_norm": 2.7825655937194824,
      "learning_rate": 4.840027100654454e-07,
      "loss": 0.3284,
      "step": 159
    },
    {
      "epoch": 0.025591810620601407,
      "grad_norm": 3.0963246822357178,
      "learning_rate": 4.846013620755411e-07,
      "loss": 0.3295,
      "step": 160
    },
    {
      "epoch": 0.025751759436980166,
      "grad_norm": 3.3835527896881104,
      "learning_rate": 4.851962841423627e-07,
      "loss": 0.3291,
      "step": 161
    },
    {
      "epoch": 0.025911708253358926,
      "grad_norm": 2.200159788131714,
      "learning_rate": 4.857875224576035e-07,
      "loss": 0.328,
      "step": 162
    },
    {
      "epoch": 0.026071657069737682,
      "grad_norm": 2.2082433700561523,
      "learning_rate": 4.863751223601768e-07,
      "loss": 0.3288,
      "step": 163
    },
    {
      "epoch": 0.026231605886116442,
      "grad_norm": 2.1219968795776367,
      "learning_rate": 4.869591283570781e-07,
      "loss": 0.3294,
      "step": 164
    },
    {
      "epoch": 0.026391554702495202,
      "grad_norm": 3.033280849456787,
      "learning_rate": 4.875395841436153e-07,
      "loss": 0.3274,
      "step": 165
    },
    {
      "epoch": 0.026551503518873962,
      "grad_norm": 2.202948808670044,
      "learning_rate": 4.881165326230269e-07,
      "loss": 0.3289,
      "step": 166
    },
    {
      "epoch": 0.026711452335252718,
      "grad_norm": 2.244345188140869,
      "learning_rate": 4.886900159255102e-07,
      "loss": 0.3292,
      "step": 167
    },
    {
      "epoch": 0.026871401151631478,
      "grad_norm": 1.814702033996582,
      "learning_rate": 4.89260075426683e-07,
      "loss": 0.327,
      "step": 168
    },
    {
      "epoch": 0.027031349968010238,
      "grad_norm": 2.228276014328003,
      "learning_rate": 4.898267517654968e-07,
      "loss": 0.3248,
      "step": 169
    },
    {
      "epoch": 0.027191298784388994,
      "grad_norm": 1.8179571628570557,
      "learning_rate": 4.903900848616208e-07,
      "loss": 0.3246,
      "step": 170
    },
    {
      "epoch": 0.027351247600767754,
      "grad_norm": 1.7501437664031982,
      "learning_rate": 4.909501139323171e-07,
      "loss": 0.3283,
      "step": 171
    },
    {
      "epoch": 0.027511196417146513,
      "grad_norm": 1.7531627416610718,
      "learning_rate": 4.915068775088241e-07,
      "loss": 0.3243,
      "step": 172
    },
    {
      "epoch": 0.027671145233525273,
      "grad_norm": 2.403271198272705,
      "learning_rate": 4.920604134522639e-07,
      "loss": 0.3294,
      "step": 173
    },
    {
      "epoch": 0.02783109404990403,
      "grad_norm": 1.9931720495224,
      "learning_rate": 4.926107589690923e-07,
      "loss": 0.3238,
      "step": 174
    },
    {
      "epoch": 0.02799104286628279,
      "grad_norm": 2.3306241035461426,
      "learning_rate": 4.931579506261051e-07,
      "loss": 0.328,
      "step": 175
    },
    {
      "epoch": 0.02815099168266155,
      "grad_norm": 3.8948726654052734,
      "learning_rate": 4.937020243650182e-07,
      "loss": 0.3269,
      "step": 176
    },
    {
      "epoch": 0.02831094049904031,
      "grad_norm": 2.6338629722595215,
      "learning_rate": 4.942430155166337e-07,
      "loss": 0.3258,
      "step": 177
    },
    {
      "epoch": 0.028470889315419065,
      "grad_norm": 2.4384703636169434,
      "learning_rate": 4.947809588146065e-07,
      "loss": 0.3299,
      "step": 178
    },
    {
      "epoch": 0.028630838131797825,
      "grad_norm": 2.789285659790039,
      "learning_rate": 4.953158884088269e-07,
      "loss": 0.3275,
      "step": 179
    },
    {
      "epoch": 0.028790786948176585,
      "grad_norm": 3.7899723052978516,
      "learning_rate": 4.958478378784286e-07,
      "loss": 0.3314,
      "step": 180
    },
    {
      "epoch": 0.02895073576455534,
      "grad_norm": 3.1386754512786865,
      "learning_rate": 4.96376840244438e-07,
      "loss": 0.3242,
      "step": 181
    },
    {
      "epoch": 0.0291106845809341,
      "grad_norm": 1.8889617919921875,
      "learning_rate": 4.969029279820735e-07,
      "loss": 0.327,
      "step": 182
    },
    {
      "epoch": 0.02927063339731286,
      "grad_norm": 1.6730552911758423,
      "learning_rate": 4.974261330327091e-07,
      "loss": 0.3224,
      "step": 183
    },
    {
      "epoch": 0.02943058221369162,
      "grad_norm": 3.168966770172119,
      "learning_rate": 4.979464868155112e-07,
      "loss": 0.3288,
      "step": 184
    },
    {
      "epoch": 0.029590531030070377,
      "grad_norm": 2.3325023651123047,
      "learning_rate": 4.984640202387604e-07,
      "loss": 0.3259,
      "step": 185
    },
    {
      "epoch": 0.029750479846449136,
      "grad_norm": 2.1466970443725586,
      "learning_rate": 4.989787637108683e-07,
      "loss": 0.3225,
      "step": 186
    },
    {
      "epoch": 0.029910428662827896,
      "grad_norm": 2.1745641231536865,
      "learning_rate": 4.994907471510979e-07,
      "loss": 0.3246,
      "step": 187
    },
    {
      "epoch": 0.030070377479206652,
      "grad_norm": 2.053147077560425,
      "learning_rate": 5e-07,
      "loss": 0.3244,
      "step": 188
    },
    {
      "epoch": 0.030230326295585412,
      "grad_norm": 2.3146328926086426,
      "learning_rate": 5e-07,
      "loss": 0.327,
      "step": 189
    },
    {
      "epoch": 0.030390275111964172,
      "grad_norm": 1.895895004272461,
      "learning_rate": 5e-07,
      "loss": 0.3233,
      "step": 190
    },
    {
      "epoch": 0.03055022392834293,
      "grad_norm": 2.4542839527130127,
      "learning_rate": 5e-07,
      "loss": 0.3235,
      "step": 191
    },
    {
      "epoch": 0.030710172744721688,
      "grad_norm": 2.708322286605835,
      "learning_rate": 5e-07,
      "loss": 0.326,
      "step": 192
    },
    {
      "epoch": 0.030870121561100448,
      "grad_norm": 2.3342604637145996,
      "learning_rate": 5e-07,
      "loss": 0.3258,
      "step": 193
    },
    {
      "epoch": 0.031030070377479207,
      "grad_norm": 1.915714979171753,
      "learning_rate": 5e-07,
      "loss": 0.3272,
      "step": 194
    },
    {
      "epoch": 0.031190019193857964,
      "grad_norm": 1.8390288352966309,
      "learning_rate": 5e-07,
      "loss": 0.3251,
      "step": 195
    },
    {
      "epoch": 0.03134996801023673,
      "grad_norm": 2.54887318611145,
      "learning_rate": 5e-07,
      "loss": 0.3227,
      "step": 196
    },
    {
      "epoch": 0.03150991682661548,
      "grad_norm": 2.114854097366333,
      "learning_rate": 5e-07,
      "loss": 0.3248,
      "step": 197
    },
    {
      "epoch": 0.03166986564299424,
      "grad_norm": 2.2237589359283447,
      "learning_rate": 5e-07,
      "loss": 0.3253,
      "step": 198
    },
    {
      "epoch": 0.031829814459373,
      "grad_norm": 2.0162508487701416,
      "learning_rate": 5e-07,
      "loss": 0.3239,
      "step": 199
    },
    {
      "epoch": 0.03198976327575176,
      "grad_norm": 2.0380868911743164,
      "learning_rate": 5e-07,
      "loss": 0.3207,
      "step": 200
    },
    {
      "epoch": 0.032149712092130515,
      "grad_norm": 1.9689375162124634,
      "learning_rate": 5e-07,
      "loss": 0.3227,
      "step": 201
    },
    {
      "epoch": 0.03230966090850928,
      "grad_norm": 1.865056037902832,
      "learning_rate": 5e-07,
      "loss": 0.3265,
      "step": 202
    },
    {
      "epoch": 0.032469609724888035,
      "grad_norm": 1.940753698348999,
      "learning_rate": 5e-07,
      "loss": 0.3212,
      "step": 203
    },
    {
      "epoch": 0.03262955854126679,
      "grad_norm": 2.315392255783081,
      "learning_rate": 5e-07,
      "loss": 0.3259,
      "step": 204
    },
    {
      "epoch": 0.032789507357645555,
      "grad_norm": 1.9743400812149048,
      "learning_rate": 5e-07,
      "loss": 0.3244,
      "step": 205
    },
    {
      "epoch": 0.03294945617402431,
      "grad_norm": 2.4033799171447754,
      "learning_rate": 5e-07,
      "loss": 0.3234,
      "step": 206
    },
    {
      "epoch": 0.033109404990403074,
      "grad_norm": 1.9600516557693481,
      "learning_rate": 5e-07,
      "loss": 0.323,
      "step": 207
    },
    {
      "epoch": 0.03326935380678183,
      "grad_norm": 2.1019670963287354,
      "learning_rate": 5e-07,
      "loss": 0.3212,
      "step": 208
    },
    {
      "epoch": 0.03342930262316059,
      "grad_norm": 2.2442522048950195,
      "learning_rate": 5e-07,
      "loss": 0.3233,
      "step": 209
    },
    {
      "epoch": 0.03358925143953935,
      "grad_norm": 2.218440532684326,
      "learning_rate": 5e-07,
      "loss": 0.3214,
      "step": 210
    },
    {
      "epoch": 0.033749200255918106,
      "grad_norm": 2.181065797805786,
      "learning_rate": 5e-07,
      "loss": 0.3266,
      "step": 211
    },
    {
      "epoch": 0.03390914907229686,
      "grad_norm": 2.342560291290283,
      "learning_rate": 5e-07,
      "loss": 0.3219,
      "step": 212
    },
    {
      "epoch": 0.034069097888675626,
      "grad_norm": 1.7659623622894287,
      "learning_rate": 5e-07,
      "loss": 0.322,
      "step": 213
    },
    {
      "epoch": 0.03422904670505438,
      "grad_norm": 1.8943110704421997,
      "learning_rate": 5e-07,
      "loss": 0.3241,
      "step": 214
    },
    {
      "epoch": 0.03438899552143314,
      "grad_norm": 3.2150795459747314,
      "learning_rate": 5e-07,
      "loss": 0.32,
      "step": 215
    },
    {
      "epoch": 0.0345489443378119,
      "grad_norm": 3.0332131385803223,
      "learning_rate": 5e-07,
      "loss": 0.321,
      "step": 216
    },
    {
      "epoch": 0.03470889315419066,
      "grad_norm": 2.171844005584717,
      "learning_rate": 5e-07,
      "loss": 0.3233,
      "step": 217
    },
    {
      "epoch": 0.03486884197056942,
      "grad_norm": 2.6237447261810303,
      "learning_rate": 5e-07,
      "loss": 0.3198,
      "step": 218
    },
    {
      "epoch": 0.03502879078694818,
      "grad_norm": 2.2594878673553467,
      "learning_rate": 5e-07,
      "loss": 0.3221,
      "step": 219
    },
    {
      "epoch": 0.035188739603326934,
      "grad_norm": 2.5174078941345215,
      "learning_rate": 5e-07,
      "loss": 0.321,
      "step": 220
    },
    {
      "epoch": 0.0353486884197057,
      "grad_norm": 1.8536790609359741,
      "learning_rate": 5e-07,
      "loss": 0.3191,
      "step": 221
    },
    {
      "epoch": 0.03550863723608445,
      "grad_norm": 1.951005458831787,
      "learning_rate": 5e-07,
      "loss": 0.3207,
      "step": 222
    },
    {
      "epoch": 0.03566858605246321,
      "grad_norm": 2.184480905532837,
      "learning_rate": 5e-07,
      "loss": 0.3204,
      "step": 223
    },
    {
      "epoch": 0.03582853486884197,
      "grad_norm": 2.8233137130737305,
      "learning_rate": 5e-07,
      "loss": 0.321,
      "step": 224
    },
    {
      "epoch": 0.03598848368522073,
      "grad_norm": 2.0543386936187744,
      "learning_rate": 5e-07,
      "loss": 0.32,
      "step": 225
    },
    {
      "epoch": 0.036148432501599485,
      "grad_norm": 1.9717906713485718,
      "learning_rate": 5e-07,
      "loss": 0.3226,
      "step": 226
    },
    {
      "epoch": 0.03630838131797825,
      "grad_norm": 2.2854740619659424,
      "learning_rate": 5e-07,
      "loss": 0.3207,
      "step": 227
    },
    {
      "epoch": 0.036468330134357005,
      "grad_norm": 2.3082988262176514,
      "learning_rate": 5e-07,
      "loss": 0.319,
      "step": 228
    },
    {
      "epoch": 0.03662827895073576,
      "grad_norm": 1.8915127515792847,
      "learning_rate": 5e-07,
      "loss": 0.3223,
      "step": 229
    },
    {
      "epoch": 0.036788227767114524,
      "grad_norm": 2.1046142578125,
      "learning_rate": 5e-07,
      "loss": 0.3207,
      "step": 230
    },
    {
      "epoch": 0.03694817658349328,
      "grad_norm": 2.0681722164154053,
      "learning_rate": 5e-07,
      "loss": 0.3237,
      "step": 231
    },
    {
      "epoch": 0.037108125399872044,
      "grad_norm": 2.836958885192871,
      "learning_rate": 5e-07,
      "loss": 0.3192,
      "step": 232
    },
    {
      "epoch": 0.0372680742162508,
      "grad_norm": 2.1854233741760254,
      "learning_rate": 5e-07,
      "loss": 0.3209,
      "step": 233
    },
    {
      "epoch": 0.03742802303262956,
      "grad_norm": 2.031627655029297,
      "learning_rate": 5e-07,
      "loss": 0.3237,
      "step": 234
    },
    {
      "epoch": 0.03758797184900832,
      "grad_norm": 2.6581907272338867,
      "learning_rate": 5e-07,
      "loss": 0.3216,
      "step": 235
    },
    {
      "epoch": 0.037747920665387076,
      "grad_norm": 2.763349771499634,
      "learning_rate": 5e-07,
      "loss": 0.3198,
      "step": 236
    },
    {
      "epoch": 0.03790786948176583,
      "grad_norm": 2.69455623626709,
      "learning_rate": 5e-07,
      "loss": 0.3185,
      "step": 237
    },
    {
      "epoch": 0.038067818298144596,
      "grad_norm": 2.50883412361145,
      "learning_rate": 5e-07,
      "loss": 0.3196,
      "step": 238
    },
    {
      "epoch": 0.03822776711452335,
      "grad_norm": 2.22615385055542,
      "learning_rate": 5e-07,
      "loss": 0.3184,
      "step": 239
    },
    {
      "epoch": 0.03838771593090211,
      "grad_norm": 2.3230910301208496,
      "learning_rate": 5e-07,
      "loss": 0.3204,
      "step": 240
    },
    {
      "epoch": 0.03854766474728087,
      "grad_norm": 2.4422476291656494,
      "learning_rate": 5e-07,
      "loss": 0.3235,
      "step": 241
    },
    {
      "epoch": 0.03870761356365963,
      "grad_norm": 1.974568247795105,
      "learning_rate": 5e-07,
      "loss": 0.3163,
      "step": 242
    },
    {
      "epoch": 0.03886756238003839,
      "grad_norm": 2.0555613040924072,
      "learning_rate": 5e-07,
      "loss": 0.3173,
      "step": 243
    },
    {
      "epoch": 0.03902751119641715,
      "grad_norm": 1.984845519065857,
      "learning_rate": 5e-07,
      "loss": 0.3213,
      "step": 244
    },
    {
      "epoch": 0.039187460012795904,
      "grad_norm": 2.130237102508545,
      "learning_rate": 5e-07,
      "loss": 0.3228,
      "step": 245
    },
    {
      "epoch": 0.03934740882917467,
      "grad_norm": 2.2199597358703613,
      "learning_rate": 5e-07,
      "loss": 0.3194,
      "step": 246
    },
    {
      "epoch": 0.03950735764555342,
      "grad_norm": 2.0320522785186768,
      "learning_rate": 5e-07,
      "loss": 0.3176,
      "step": 247
    },
    {
      "epoch": 0.03966730646193218,
      "grad_norm": 2.1560816764831543,
      "learning_rate": 5e-07,
      "loss": 0.3189,
      "step": 248
    },
    {
      "epoch": 0.03982725527831094,
      "grad_norm": 2.048503875732422,
      "learning_rate": 5e-07,
      "loss": 0.3182,
      "step": 249
    },
    {
      "epoch": 0.0399872040946897,
      "grad_norm": 2.9372193813323975,
      "learning_rate": 5e-07,
      "loss": 0.3221,
      "step": 250
    },
    {
      "epoch": 0.040147152911068455,
      "grad_norm": 2.5493674278259277,
      "learning_rate": 5e-07,
      "loss": 0.3178,
      "step": 251
    },
    {
      "epoch": 0.04030710172744722,
      "grad_norm": 2.447479486465454,
      "learning_rate": 5e-07,
      "loss": 0.3212,
      "step": 252
    },
    {
      "epoch": 0.040467050543825975,
      "grad_norm": 2.383833885192871,
      "learning_rate": 5e-07,
      "loss": 0.319,
      "step": 253
    },
    {
      "epoch": 0.04062699936020473,
      "grad_norm": 2.618457794189453,
      "learning_rate": 5e-07,
      "loss": 0.3222,
      "step": 254
    },
    {
      "epoch": 0.040786948176583494,
      "grad_norm": 2.3768558502197266,
      "learning_rate": 5e-07,
      "loss": 0.3212,
      "step": 255
    },
    {
      "epoch": 0.04094689699296225,
      "grad_norm": 1.742486596107483,
      "learning_rate": 5e-07,
      "loss": 0.3199,
      "step": 256
    },
    {
      "epoch": 0.041106845809341014,
      "grad_norm": 2.117663860321045,
      "learning_rate": 5e-07,
      "loss": 0.3183,
      "step": 257
    },
    {
      "epoch": 0.04126679462571977,
      "grad_norm": 2.1858232021331787,
      "learning_rate": 5e-07,
      "loss": 0.3179,
      "step": 258
    },
    {
      "epoch": 0.041426743442098526,
      "grad_norm": 2.4423446655273438,
      "learning_rate": 5e-07,
      "loss": 0.32,
      "step": 259
    },
    {
      "epoch": 0.04158669225847729,
      "grad_norm": 1.9817628860473633,
      "learning_rate": 5e-07,
      "loss": 0.3197,
      "step": 260
    },
    {
      "epoch": 0.041746641074856046,
      "grad_norm": 2.0078375339508057,
      "learning_rate": 5e-07,
      "loss": 0.3183,
      "step": 261
    },
    {
      "epoch": 0.0419065898912348,
      "grad_norm": 2.6137590408325195,
      "learning_rate": 5e-07,
      "loss": 0.3187,
      "step": 262
    },
    {
      "epoch": 0.042066538707613566,
      "grad_norm": 2.0042335987091064,
      "learning_rate": 5e-07,
      "loss": 0.3192,
      "step": 263
    },
    {
      "epoch": 0.04222648752399232,
      "grad_norm": 2.398226261138916,
      "learning_rate": 5e-07,
      "loss": 0.3205,
      "step": 264
    },
    {
      "epoch": 0.04238643634037108,
      "grad_norm": 2.1579015254974365,
      "learning_rate": 5e-07,
      "loss": 0.3171,
      "step": 265
    },
    {
      "epoch": 0.04254638515674984,
      "grad_norm": 1.9863477945327759,
      "learning_rate": 5e-07,
      "loss": 0.3128,
      "step": 266
    },
    {
      "epoch": 0.0427063339731286,
      "grad_norm": 2.2131097316741943,
      "learning_rate": 5e-07,
      "loss": 0.3181,
      "step": 267
    },
    {
      "epoch": 0.04286628278950736,
      "grad_norm": 2.722665548324585,
      "learning_rate": 5e-07,
      "loss": 0.3147,
      "step": 268
    },
    {
      "epoch": 0.04302623160588612,
      "grad_norm": 2.0469257831573486,
      "learning_rate": 5e-07,
      "loss": 0.3173,
      "step": 269
    },
    {
      "epoch": 0.04318618042226487,
      "grad_norm": 1.854529857635498,
      "learning_rate": 5e-07,
      "loss": 0.3145,
      "step": 270
    },
    {
      "epoch": 0.04334612923864364,
      "grad_norm": 2.2341718673706055,
      "learning_rate": 5e-07,
      "loss": 0.316,
      "step": 271
    },
    {
      "epoch": 0.04350607805502239,
      "grad_norm": 1.7397892475128174,
      "learning_rate": 5e-07,
      "loss": 0.3192,
      "step": 272
    },
    {
      "epoch": 0.04366602687140115,
      "grad_norm": 1.7914948463439941,
      "learning_rate": 5e-07,
      "loss": 0.3152,
      "step": 273
    },
    {
      "epoch": 0.04382597568777991,
      "grad_norm": 2.1963894367218018,
      "learning_rate": 5e-07,
      "loss": 0.3166,
      "step": 274
    },
    {
      "epoch": 0.04398592450415867,
      "grad_norm": 2.025214910507202,
      "learning_rate": 5e-07,
      "loss": 0.3169,
      "step": 275
    },
    {
      "epoch": 0.044145873320537425,
      "grad_norm": 1.710566759109497,
      "learning_rate": 5e-07,
      "loss": 0.3145,
      "step": 276
    },
    {
      "epoch": 0.04430582213691619,
      "grad_norm": 1.9879398345947266,
      "learning_rate": 5e-07,
      "loss": 0.3174,
      "step": 277
    },
    {
      "epoch": 0.044465770953294945,
      "grad_norm": 2.310574531555176,
      "learning_rate": 5e-07,
      "loss": 0.3163,
      "step": 278
    },
    {
      "epoch": 0.0446257197696737,
      "grad_norm": 1.6731493473052979,
      "learning_rate": 5e-07,
      "loss": 0.3142,
      "step": 279
    },
    {
      "epoch": 0.044785668586052464,
      "grad_norm": 2.098635196685791,
      "learning_rate": 5e-07,
      "loss": 0.3204,
      "step": 280
    },
    {
      "epoch": 0.04494561740243122,
      "grad_norm": 1.7935731410980225,
      "learning_rate": 5e-07,
      "loss": 0.3159,
      "step": 281
    },
    {
      "epoch": 0.045105566218809984,
      "grad_norm": 2.007554769515991,
      "learning_rate": 5e-07,
      "loss": 0.3184,
      "step": 282
    },
    {
      "epoch": 0.04526551503518874,
      "grad_norm": 2.2598252296447754,
      "learning_rate": 5e-07,
      "loss": 0.319,
      "step": 283
    },
    {
      "epoch": 0.045425463851567496,
      "grad_norm": 2.4885053634643555,
      "learning_rate": 5e-07,
      "loss": 0.3141,
      "step": 284
    },
    {
      "epoch": 0.04558541266794626,
      "grad_norm": 1.86944580078125,
      "learning_rate": 5e-07,
      "loss": 0.3119,
      "step": 285
    },
    {
      "epoch": 0.045745361484325016,
      "grad_norm": 3.117776393890381,
      "learning_rate": 5e-07,
      "loss": 0.3134,
      "step": 286
    },
    {
      "epoch": 0.04590531030070377,
      "grad_norm": 1.7600862979888916,
      "learning_rate": 5e-07,
      "loss": 0.3135,
      "step": 287
    },
    {
      "epoch": 0.046065259117082535,
      "grad_norm": 2.8487918376922607,
      "learning_rate": 5e-07,
      "loss": 0.3145,
      "step": 288
    },
    {
      "epoch": 0.04622520793346129,
      "grad_norm": 2.452319383621216,
      "learning_rate": 5e-07,
      "loss": 0.3177,
      "step": 289
    },
    {
      "epoch": 0.04638515674984005,
      "grad_norm": 2.665156126022339,
      "learning_rate": 5e-07,
      "loss": 0.3196,
      "step": 290
    },
    {
      "epoch": 0.04654510556621881,
      "grad_norm": 2.8896114826202393,
      "learning_rate": 5e-07,
      "loss": 0.3156,
      "step": 291
    },
    {
      "epoch": 0.04670505438259757,
      "grad_norm": 1.9238169193267822,
      "learning_rate": 5e-07,
      "loss": 0.3146,
      "step": 292
    },
    {
      "epoch": 0.04686500319897633,
      "grad_norm": 1.7857141494750977,
      "learning_rate": 5e-07,
      "loss": 0.3179,
      "step": 293
    },
    {
      "epoch": 0.04702495201535509,
      "grad_norm": 1.6979793310165405,
      "learning_rate": 5e-07,
      "loss": 0.3125,
      "step": 294
    },
    {
      "epoch": 0.04718490083173384,
      "grad_norm": 1.8092222213745117,
      "learning_rate": 5e-07,
      "loss": 0.3174,
      "step": 295
    },
    {
      "epoch": 0.04734484964811261,
      "grad_norm": 1.876101016998291,
      "learning_rate": 5e-07,
      "loss": 0.3152,
      "step": 296
    },
    {
      "epoch": 0.04750479846449136,
      "grad_norm": 1.8959208726882935,
      "learning_rate": 5e-07,
      "loss": 0.3128,
      "step": 297
    },
    {
      "epoch": 0.04766474728087012,
      "grad_norm": 1.8851134777069092,
      "learning_rate": 5e-07,
      "loss": 0.3112,
      "step": 298
    },
    {
      "epoch": 0.04782469609724888,
      "grad_norm": 1.6895989179611206,
      "learning_rate": 5e-07,
      "loss": 0.3172,
      "step": 299
    },
    {
      "epoch": 0.04798464491362764,
      "grad_norm": 1.7786316871643066,
      "learning_rate": 5e-07,
      "loss": 0.3119,
      "step": 300
    },
    {
      "epoch": 0.048144593730006395,
      "grad_norm": 1.877082109451294,
      "learning_rate": 5e-07,
      "loss": 0.3125,
      "step": 301
    },
    {
      "epoch": 0.04830454254638516,
      "grad_norm": 3.4801509380340576,
      "learning_rate": 5e-07,
      "loss": 0.3185,
      "step": 302
    },
    {
      "epoch": 0.048464491362763915,
      "grad_norm": 2.355114221572876,
      "learning_rate": 5e-07,
      "loss": 0.3188,
      "step": 303
    },
    {
      "epoch": 0.04862444017914268,
      "grad_norm": 1.9409304857254028,
      "learning_rate": 5e-07,
      "loss": 0.3118,
      "step": 304
    },
    {
      "epoch": 0.048784388995521434,
      "grad_norm": 2.3526453971862793,
      "learning_rate": 5e-07,
      "loss": 0.3141,
      "step": 305
    },
    {
      "epoch": 0.04894433781190019,
      "grad_norm": 2.0451951026916504,
      "learning_rate": 5e-07,
      "loss": 0.3134,
      "step": 306
    },
    {
      "epoch": 0.049104286628278954,
      "grad_norm": 2.210442304611206,
      "learning_rate": 5e-07,
      "loss": 0.3139,
      "step": 307
    },
    {
      "epoch": 0.04926423544465771,
      "grad_norm": 1.8098499774932861,
      "learning_rate": 5e-07,
      "loss": 0.3152,
      "step": 308
    },
    {
      "epoch": 0.049424184261036466,
      "grad_norm": 2.271404981613159,
      "learning_rate": 5e-07,
      "loss": 0.313,
      "step": 309
    },
    {
      "epoch": 0.04958413307741523,
      "grad_norm": 3.221630811691284,
      "learning_rate": 5e-07,
      "loss": 0.3201,
      "step": 310
    },
    {
      "epoch": 0.049744081893793986,
      "grad_norm": 2.4023654460906982,
      "learning_rate": 5e-07,
      "loss": 0.3141,
      "step": 311
    },
    {
      "epoch": 0.04990403071017274,
      "grad_norm": 2.0539891719818115,
      "learning_rate": 5e-07,
      "loss": 0.3128,
      "step": 312
    },
    {
      "epoch": 0.050063979526551505,
      "grad_norm": 2.6773035526275635,
      "learning_rate": 5e-07,
      "loss": 0.3162,
      "step": 313
    },
    {
      "epoch": 0.05022392834293026,
      "grad_norm": 2.372063398361206,
      "learning_rate": 5e-07,
      "loss": 0.3119,
      "step": 314
    },
    {
      "epoch": 0.05038387715930902,
      "grad_norm": 2.198241710662842,
      "learning_rate": 5e-07,
      "loss": 0.3152,
      "step": 315
    },
    {
      "epoch": 0.05054382597568778,
      "grad_norm": 2.151221990585327,
      "learning_rate": 5e-07,
      "loss": 0.3107,
      "step": 316
    },
    {
      "epoch": 0.05070377479206654,
      "grad_norm": 2.1385982036590576,
      "learning_rate": 5e-07,
      "loss": 0.313,
      "step": 317
    },
    {
      "epoch": 0.0508637236084453,
      "grad_norm": 2.091799736022949,
      "learning_rate": 5e-07,
      "loss": 0.3153,
      "step": 318
    },
    {
      "epoch": 0.05102367242482406,
      "grad_norm": 2.0750176906585693,
      "learning_rate": 5e-07,
      "loss": 0.3139,
      "step": 319
    },
    {
      "epoch": 0.05118362124120281,
      "grad_norm": 1.8819572925567627,
      "learning_rate": 5e-07,
      "loss": 0.3093,
      "step": 320
    },
    {
      "epoch": 0.051343570057581576,
      "grad_norm": 1.600071907043457,
      "learning_rate": 5e-07,
      "loss": 0.3108,
      "step": 321
    },
    {
      "epoch": 0.05150351887396033,
      "grad_norm": 2.1824517250061035,
      "learning_rate": 5e-07,
      "loss": 0.3095,
      "step": 322
    },
    {
      "epoch": 0.05166346769033909,
      "grad_norm": 2.0456933975219727,
      "learning_rate": 5e-07,
      "loss": 0.3098,
      "step": 323
    },
    {
      "epoch": 0.05182341650671785,
      "grad_norm": 2.4777157306671143,
      "learning_rate": 5e-07,
      "loss": 0.317,
      "step": 324
    },
    {
      "epoch": 0.05198336532309661,
      "grad_norm": 2.103722095489502,
      "learning_rate": 5e-07,
      "loss": 0.3119,
      "step": 325
    },
    {
      "epoch": 0.052143314139475365,
      "grad_norm": 1.8596789836883545,
      "learning_rate": 5e-07,
      "loss": 0.3117,
      "step": 326
    },
    {
      "epoch": 0.05230326295585413,
      "grad_norm": 1.9572100639343262,
      "learning_rate": 5e-07,
      "loss": 0.3112,
      "step": 327
    },
    {
      "epoch": 0.052463211772232884,
      "grad_norm": 2.243565559387207,
      "learning_rate": 5e-07,
      "loss": 0.3138,
      "step": 328
    },
    {
      "epoch": 0.05262316058861165,
      "grad_norm": 2.021181106567383,
      "learning_rate": 5e-07,
      "loss": 0.3087,
      "step": 329
    },
    {
      "epoch": 0.052783109404990404,
      "grad_norm": 2.191643238067627,
      "learning_rate": 5e-07,
      "loss": 0.3109,
      "step": 330
    },
    {
      "epoch": 0.05294305822136916,
      "grad_norm": 2.002149820327759,
      "learning_rate": 5e-07,
      "loss": 0.3092,
      "step": 331
    },
    {
      "epoch": 0.053103007037747924,
      "grad_norm": 2.3007524013519287,
      "learning_rate": 5e-07,
      "loss": 0.3142,
      "step": 332
    },
    {
      "epoch": 0.05326295585412668,
      "grad_norm": 2.219128370285034,
      "learning_rate": 5e-07,
      "loss": 0.3157,
      "step": 333
    },
    {
      "epoch": 0.053422904670505436,
      "grad_norm": 2.7911880016326904,
      "learning_rate": 5e-07,
      "loss": 0.3132,
      "step": 334
    },
    {
      "epoch": 0.0535828534868842,
      "grad_norm": 2.12546706199646,
      "learning_rate": 5e-07,
      "loss": 0.3142,
      "step": 335
    },
    {
      "epoch": 0.053742802303262956,
      "grad_norm": 1.939138650894165,
      "learning_rate": 5e-07,
      "loss": 0.3129,
      "step": 336
    },
    {
      "epoch": 0.05390275111964171,
      "grad_norm": 2.083577871322632,
      "learning_rate": 5e-07,
      "loss": 0.3141,
      "step": 337
    },
    {
      "epoch": 0.054062699936020475,
      "grad_norm": 1.7784308195114136,
      "learning_rate": 5e-07,
      "loss": 0.313,
      "step": 338
    },
    {
      "epoch": 0.05422264875239923,
      "grad_norm": 1.8251392841339111,
      "learning_rate": 5e-07,
      "loss": 0.3096,
      "step": 339
    },
    {
      "epoch": 0.05438259756877799,
      "grad_norm": 1.8069288730621338,
      "learning_rate": 5e-07,
      "loss": 0.3153,
      "step": 340
    },
    {
      "epoch": 0.05454254638515675,
      "grad_norm": 1.883309245109558,
      "learning_rate": 5e-07,
      "loss": 0.309,
      "step": 341
    },
    {
      "epoch": 0.05470249520153551,
      "grad_norm": 1.965843677520752,
      "learning_rate": 5e-07,
      "loss": 0.314,
      "step": 342
    },
    {
      "epoch": 0.05486244401791427,
      "grad_norm": 2.352357864379883,
      "learning_rate": 5e-07,
      "loss": 0.3131,
      "step": 343
    },
    {
      "epoch": 0.05502239283429303,
      "grad_norm": 2.720951795578003,
      "learning_rate": 5e-07,
      "loss": 0.3145,
      "step": 344
    },
    {
      "epoch": 0.05518234165067178,
      "grad_norm": 1.8085368871688843,
      "learning_rate": 5e-07,
      "loss": 0.3078,
      "step": 345
    },
    {
      "epoch": 0.055342290467050546,
      "grad_norm": 2.358532190322876,
      "learning_rate": 5e-07,
      "loss": 0.3095,
      "step": 346
    },
    {
      "epoch": 0.0555022392834293,
      "grad_norm": 2.594289541244507,
      "learning_rate": 5e-07,
      "loss": 0.3131,
      "step": 347
    },
    {
      "epoch": 0.05566218809980806,
      "grad_norm": 2.1992201805114746,
      "learning_rate": 5e-07,
      "loss": 0.3129,
      "step": 348
    },
    {
      "epoch": 0.05582213691618682,
      "grad_norm": 1.8443855047225952,
      "learning_rate": 5e-07,
      "loss": 0.312,
      "step": 349
    },
    {
      "epoch": 0.05598208573256558,
      "grad_norm": 2.210239887237549,
      "learning_rate": 5e-07,
      "loss": 0.3048,
      "step": 350
    },
    {
      "epoch": 0.056142034548944335,
      "grad_norm": 2.0294570922851562,
      "learning_rate": 5e-07,
      "loss": 0.317,
      "step": 351
    },
    {
      "epoch": 0.0563019833653231,
      "grad_norm": 2.210648775100708,
      "learning_rate": 5e-07,
      "loss": 0.3109,
      "step": 352
    },
    {
      "epoch": 0.056461932181701854,
      "grad_norm": 1.7871031761169434,
      "learning_rate": 5e-07,
      "loss": 0.3118,
      "step": 353
    },
    {
      "epoch": 0.05662188099808062,
      "grad_norm": 2.080329656600952,
      "learning_rate": 5e-07,
      "loss": 0.3175,
      "step": 354
    },
    {
      "epoch": 0.056781829814459374,
      "grad_norm": 1.9030518531799316,
      "learning_rate": 5e-07,
      "loss": 0.3083,
      "step": 355
    },
    {
      "epoch": 0.05694177863083813,
      "grad_norm": 2.1452903747558594,
      "learning_rate": 5e-07,
      "loss": 0.308,
      "step": 356
    },
    {
      "epoch": 0.05710172744721689,
      "grad_norm": 2.202566146850586,
      "learning_rate": 5e-07,
      "loss": 0.3056,
      "step": 357
    },
    {
      "epoch": 0.05726167626359565,
      "grad_norm": 2.2931318283081055,
      "learning_rate": 5e-07,
      "loss": 0.3123,
      "step": 358
    },
    {
      "epoch": 0.057421625079974406,
      "grad_norm": 2.540449619293213,
      "learning_rate": 5e-07,
      "loss": 0.3129,
      "step": 359
    },
    {
      "epoch": 0.05758157389635317,
      "grad_norm": 2.1892638206481934,
      "learning_rate": 5e-07,
      "loss": 0.3116,
      "step": 360
    },
    {
      "epoch": 0.057741522712731926,
      "grad_norm": 2.1311938762664795,
      "learning_rate": 5e-07,
      "loss": 0.3092,
      "step": 361
    },
    {
      "epoch": 0.05790147152911068,
      "grad_norm": 1.8681343793869019,
      "learning_rate": 5e-07,
      "loss": 0.3093,
      "step": 362
    },
    {
      "epoch": 0.058061420345489445,
      "grad_norm": 2.46610951423645,
      "learning_rate": 5e-07,
      "loss": 0.3134,
      "step": 363
    },
    {
      "epoch": 0.0582213691618682,
      "grad_norm": 2.1158607006073,
      "learning_rate": 5e-07,
      "loss": 0.3091,
      "step": 364
    },
    {
      "epoch": 0.05838131797824696,
      "grad_norm": 2.4985034465789795,
      "learning_rate": 5e-07,
      "loss": 0.3094,
      "step": 365
    },
    {
      "epoch": 0.05854126679462572,
      "grad_norm": 2.325754165649414,
      "learning_rate": 5e-07,
      "loss": 0.3038,
      "step": 366
    },
    {
      "epoch": 0.05870121561100448,
      "grad_norm": 2.004274368286133,
      "learning_rate": 5e-07,
      "loss": 0.31,
      "step": 367
    },
    {
      "epoch": 0.05886116442738324,
      "grad_norm": 1.9178204536437988,
      "learning_rate": 5e-07,
      "loss": 0.31,
      "step": 368
    },
    {
      "epoch": 0.059021113243762,
      "grad_norm": 1.7691121101379395,
      "learning_rate": 5e-07,
      "loss": 0.3081,
      "step": 369
    },
    {
      "epoch": 0.05918106206014075,
      "grad_norm": 1.9725359678268433,
      "learning_rate": 5e-07,
      "loss": 0.3082,
      "step": 370
    },
    {
      "epoch": 0.059341010876519516,
      "grad_norm": 2.255153179168701,
      "learning_rate": 5e-07,
      "loss": 0.3085,
      "step": 371
    },
    {
      "epoch": 0.05950095969289827,
      "grad_norm": 1.941026210784912,
      "learning_rate": 5e-07,
      "loss": 0.3108,
      "step": 372
    },
    {
      "epoch": 0.05966090850927703,
      "grad_norm": 1.9656212329864502,
      "learning_rate": 5e-07,
      "loss": 0.3105,
      "step": 373
    },
    {
      "epoch": 0.05982085732565579,
      "grad_norm": 1.8278310298919678,
      "learning_rate": 5e-07,
      "loss": 0.3113,
      "step": 374
    },
    {
      "epoch": 0.05998080614203455,
      "grad_norm": 2.8869919776916504,
      "learning_rate": 5e-07,
      "loss": 0.3091,
      "step": 375
    },
    {
      "epoch": 0.060140754958413305,
      "grad_norm": 1.8348920345306396,
      "learning_rate": 5e-07,
      "loss": 0.3145,
      "step": 376
    },
    {
      "epoch": 0.06030070377479207,
      "grad_norm": 2.222409963607788,
      "learning_rate": 5e-07,
      "loss": 0.3075,
      "step": 377
    },
    {
      "epoch": 0.060460652591170824,
      "grad_norm": 1.7737579345703125,
      "learning_rate": 5e-07,
      "loss": 0.3066,
      "step": 378
    },
    {
      "epoch": 0.06062060140754959,
      "grad_norm": 2.0238726139068604,
      "learning_rate": 5e-07,
      "loss": 0.3032,
      "step": 379
    },
    {
      "epoch": 0.060780550223928344,
      "grad_norm": 2.2447547912597656,
      "learning_rate": 5e-07,
      "loss": 0.3092,
      "step": 380
    },
    {
      "epoch": 0.0609404990403071,
      "grad_norm": 2.1232385635375977,
      "learning_rate": 5e-07,
      "loss": 0.3101,
      "step": 381
    },
    {
      "epoch": 0.06110044785668586,
      "grad_norm": 2.1634531021118164,
      "learning_rate": 5e-07,
      "loss": 0.3047,
      "step": 382
    },
    {
      "epoch": 0.06126039667306462,
      "grad_norm": 2.4750919342041016,
      "learning_rate": 5e-07,
      "loss": 0.317,
      "step": 383
    },
    {
      "epoch": 0.061420345489443376,
      "grad_norm": 1.9723148345947266,
      "learning_rate": 5e-07,
      "loss": 0.3098,
      "step": 384
    },
    {
      "epoch": 0.06158029430582214,
      "grad_norm": 1.7774702310562134,
      "learning_rate": 5e-07,
      "loss": 0.3101,
      "step": 385
    },
    {
      "epoch": 0.061740243122200895,
      "grad_norm": 1.91207754611969,
      "learning_rate": 5e-07,
      "loss": 0.3058,
      "step": 386
    },
    {
      "epoch": 0.06190019193857965,
      "grad_norm": 2.0282106399536133,
      "learning_rate": 5e-07,
      "loss": 0.3078,
      "step": 387
    },
    {
      "epoch": 0.062060140754958415,
      "grad_norm": 2.097832679748535,
      "learning_rate": 5e-07,
      "loss": 0.3102,
      "step": 388
    },
    {
      "epoch": 0.06222008957133717,
      "grad_norm": 2.1513030529022217,
      "learning_rate": 5e-07,
      "loss": 0.3131,
      "step": 389
    },
    {
      "epoch": 0.06238003838771593,
      "grad_norm": 2.4126341342926025,
      "learning_rate": 5e-07,
      "loss": 0.3112,
      "step": 390
    },
    {
      "epoch": 0.06253998720409469,
      "grad_norm": 2.408459424972534,
      "learning_rate": 5e-07,
      "loss": 0.3112,
      "step": 391
    },
    {
      "epoch": 0.06269993602047345,
      "grad_norm": 2.201793670654297,
      "learning_rate": 5e-07,
      "loss": 0.3078,
      "step": 392
    },
    {
      "epoch": 0.0628598848368522,
      "grad_norm": 2.7969467639923096,
      "learning_rate": 5e-07,
      "loss": 0.31,
      "step": 393
    },
    {
      "epoch": 0.06301983365323097,
      "grad_norm": 1.9709779024124146,
      "learning_rate": 5e-07,
      "loss": 0.3054,
      "step": 394
    },
    {
      "epoch": 0.06317978246960973,
      "grad_norm": 1.7591475248336792,
      "learning_rate": 5e-07,
      "loss": 0.3124,
      "step": 395
    },
    {
      "epoch": 0.06333973128598848,
      "grad_norm": 2.3742406368255615,
      "learning_rate": 5e-07,
      "loss": 0.3128,
      "step": 396
    },
    {
      "epoch": 0.06349968010236724,
      "grad_norm": 2.0511155128479004,
      "learning_rate": 5e-07,
      "loss": 0.3071,
      "step": 397
    },
    {
      "epoch": 0.063659628918746,
      "grad_norm": 2.1338870525360107,
      "learning_rate": 5e-07,
      "loss": 0.3062,
      "step": 398
    },
    {
      "epoch": 0.06381957773512476,
      "grad_norm": 1.9965507984161377,
      "learning_rate": 5e-07,
      "loss": 0.3102,
      "step": 399
    },
    {
      "epoch": 0.06397952655150352,
      "grad_norm": 2.1809186935424805,
      "learning_rate": 5e-07,
      "loss": 0.3056,
      "step": 400
    },
    {
      "epoch": 0.06413947536788228,
      "grad_norm": 1.8199806213378906,
      "learning_rate": 5e-07,
      "loss": 0.308,
      "step": 401
    },
    {
      "epoch": 0.06429942418426103,
      "grad_norm": 2.333096981048584,
      "learning_rate": 5e-07,
      "loss": 0.3068,
      "step": 402
    },
    {
      "epoch": 0.0644593730006398,
      "grad_norm": 2.0032901763916016,
      "learning_rate": 5e-07,
      "loss": 0.3088,
      "step": 403
    },
    {
      "epoch": 0.06461932181701856,
      "grad_norm": 1.9422023296356201,
      "learning_rate": 5e-07,
      "loss": 0.3087,
      "step": 404
    },
    {
      "epoch": 0.0647792706333973,
      "grad_norm": 2.2162113189697266,
      "learning_rate": 5e-07,
      "loss": 0.3046,
      "step": 405
    },
    {
      "epoch": 0.06493921944977607,
      "grad_norm": 1.9533367156982422,
      "learning_rate": 5e-07,
      "loss": 0.3057,
      "step": 406
    },
    {
      "epoch": 0.06509916826615483,
      "grad_norm": 2.1378214359283447,
      "learning_rate": 5e-07,
      "loss": 0.3067,
      "step": 407
    },
    {
      "epoch": 0.06525911708253358,
      "grad_norm": 2.2973387241363525,
      "learning_rate": 5e-07,
      "loss": 0.3041,
      "step": 408
    },
    {
      "epoch": 0.06541906589891235,
      "grad_norm": 2.338731288909912,
      "learning_rate": 5e-07,
      "loss": 0.3054,
      "step": 409
    },
    {
      "epoch": 0.06557901471529111,
      "grad_norm": 2.5633339881896973,
      "learning_rate": 5e-07,
      "loss": 0.311,
      "step": 410
    },
    {
      "epoch": 0.06573896353166987,
      "grad_norm": 1.998003363609314,
      "learning_rate": 5e-07,
      "loss": 0.3068,
      "step": 411
    },
    {
      "epoch": 0.06589891234804862,
      "grad_norm": 2.5521657466888428,
      "learning_rate": 5e-07,
      "loss": 0.3098,
      "step": 412
    },
    {
      "epoch": 0.06605886116442738,
      "grad_norm": 2.1892497539520264,
      "learning_rate": 5e-07,
      "loss": 0.3102,
      "step": 413
    },
    {
      "epoch": 0.06621880998080615,
      "grad_norm": 2.2930119037628174,
      "learning_rate": 5e-07,
      "loss": 0.3059,
      "step": 414
    },
    {
      "epoch": 0.0663787587971849,
      "grad_norm": 2.3684473037719727,
      "learning_rate": 5e-07,
      "loss": 0.307,
      "step": 415
    },
    {
      "epoch": 0.06653870761356366,
      "grad_norm": 2.366596221923828,
      "learning_rate": 5e-07,
      "loss": 0.3028,
      "step": 416
    },
    {
      "epoch": 0.06669865642994242,
      "grad_norm": 2.589324951171875,
      "learning_rate": 5e-07,
      "loss": 0.3058,
      "step": 417
    },
    {
      "epoch": 0.06685860524632117,
      "grad_norm": 3.0611791610717773,
      "learning_rate": 5e-07,
      "loss": 0.3103,
      "step": 418
    },
    {
      "epoch": 0.06701855406269994,
      "grad_norm": 2.931704044342041,
      "learning_rate": 5e-07,
      "loss": 0.2992,
      "step": 419
    },
    {
      "epoch": 0.0671785028790787,
      "grad_norm": 2.059356689453125,
      "learning_rate": 5e-07,
      "loss": 0.3082,
      "step": 420
    },
    {
      "epoch": 0.06733845169545745,
      "grad_norm": 1.9305551052093506,
      "learning_rate": 5e-07,
      "loss": 0.3052,
      "step": 421
    },
    {
      "epoch": 0.06749840051183621,
      "grad_norm": 1.8755519390106201,
      "learning_rate": 5e-07,
      "loss": 0.3071,
      "step": 422
    },
    {
      "epoch": 0.06765834932821498,
      "grad_norm": 2.292158603668213,
      "learning_rate": 5e-07,
      "loss": 0.3047,
      "step": 423
    },
    {
      "epoch": 0.06781829814459372,
      "grad_norm": 2.0400631427764893,
      "learning_rate": 5e-07,
      "loss": 0.3039,
      "step": 424
    },
    {
      "epoch": 0.06797824696097249,
      "grad_norm": 2.1579113006591797,
      "learning_rate": 5e-07,
      "loss": 0.3009,
      "step": 425
    },
    {
      "epoch": 0.06813819577735125,
      "grad_norm": 2.720517158508301,
      "learning_rate": 5e-07,
      "loss": 0.3049,
      "step": 426
    },
    {
      "epoch": 0.06829814459373,
      "grad_norm": 2.729381799697876,
      "learning_rate": 5e-07,
      "loss": 0.3064,
      "step": 427
    },
    {
      "epoch": 0.06845809341010876,
      "grad_norm": 2.1737046241760254,
      "learning_rate": 5e-07,
      "loss": 0.3013,
      "step": 428
    },
    {
      "epoch": 0.06861804222648753,
      "grad_norm": 2.462416887283325,
      "learning_rate": 5e-07,
      "loss": 0.3084,
      "step": 429
    },
    {
      "epoch": 0.06877799104286628,
      "grad_norm": 2.1802892684936523,
      "learning_rate": 5e-07,
      "loss": 0.3073,
      "step": 430
    },
    {
      "epoch": 0.06893793985924504,
      "grad_norm": 2.3725764751434326,
      "learning_rate": 5e-07,
      "loss": 0.3058,
      "step": 431
    },
    {
      "epoch": 0.0690978886756238,
      "grad_norm": 2.1835389137268066,
      "learning_rate": 5e-07,
      "loss": 0.2996,
      "step": 432
    },
    {
      "epoch": 0.06925783749200255,
      "grad_norm": 2.1933882236480713,
      "learning_rate": 5e-07,
      "loss": 0.3012,
      "step": 433
    },
    {
      "epoch": 0.06941778630838132,
      "grad_norm": 2.1373140811920166,
      "learning_rate": 5e-07,
      "loss": 0.3079,
      "step": 434
    },
    {
      "epoch": 0.06957773512476008,
      "grad_norm": 2.4460721015930176,
      "learning_rate": 5e-07,
      "loss": 0.3039,
      "step": 435
    },
    {
      "epoch": 0.06973768394113884,
      "grad_norm": 2.027027130126953,
      "learning_rate": 5e-07,
      "loss": 0.3087,
      "step": 436
    },
    {
      "epoch": 0.06989763275751759,
      "grad_norm": 2.2803993225097656,
      "learning_rate": 5e-07,
      "loss": 0.3089,
      "step": 437
    },
    {
      "epoch": 0.07005758157389635,
      "grad_norm": 2.038334608078003,
      "learning_rate": 5e-07,
      "loss": 0.3016,
      "step": 438
    },
    {
      "epoch": 0.07021753039027512,
      "grad_norm": 1.9255573749542236,
      "learning_rate": 5e-07,
      "loss": 0.3061,
      "step": 439
    },
    {
      "epoch": 0.07037747920665387,
      "grad_norm": 1.801837682723999,
      "learning_rate": 5e-07,
      "loss": 0.3015,
      "step": 440
    },
    {
      "epoch": 0.07053742802303263,
      "grad_norm": 1.8259141445159912,
      "learning_rate": 5e-07,
      "loss": 0.3072,
      "step": 441
    },
    {
      "epoch": 0.0706973768394114,
      "grad_norm": 2.1980960369110107,
      "learning_rate": 5e-07,
      "loss": 0.3022,
      "step": 442
    },
    {
      "epoch": 0.07085732565579014,
      "grad_norm": 2.2662923336029053,
      "learning_rate": 5e-07,
      "loss": 0.3072,
      "step": 443
    },
    {
      "epoch": 0.0710172744721689,
      "grad_norm": 2.7139031887054443,
      "learning_rate": 5e-07,
      "loss": 0.3037,
      "step": 444
    },
    {
      "epoch": 0.07117722328854767,
      "grad_norm": 2.1421709060668945,
      "learning_rate": 5e-07,
      "loss": 0.308,
      "step": 445
    },
    {
      "epoch": 0.07133717210492642,
      "grad_norm": 2.409440279006958,
      "learning_rate": 5e-07,
      "loss": 0.3058,
      "step": 446
    },
    {
      "epoch": 0.07149712092130518,
      "grad_norm": 2.2012946605682373,
      "learning_rate": 5e-07,
      "loss": 0.3016,
      "step": 447
    },
    {
      "epoch": 0.07165706973768395,
      "grad_norm": 2.3783745765686035,
      "learning_rate": 5e-07,
      "loss": 0.3009,
      "step": 448
    },
    {
      "epoch": 0.0718170185540627,
      "grad_norm": 1.928109884262085,
      "learning_rate": 5e-07,
      "loss": 0.3053,
      "step": 449
    },
    {
      "epoch": 0.07197696737044146,
      "grad_norm": 2.067361831665039,
      "learning_rate": 5e-07,
      "loss": 0.3064,
      "step": 450
    },
    {
      "epoch": 0.07213691618682022,
      "grad_norm": 2.5034492015838623,
      "learning_rate": 5e-07,
      "loss": 0.3104,
      "step": 451
    },
    {
      "epoch": 0.07229686500319897,
      "grad_norm": 2.4402754306793213,
      "learning_rate": 5e-07,
      "loss": 0.3091,
      "step": 452
    },
    {
      "epoch": 0.07245681381957773,
      "grad_norm": 1.9460946321487427,
      "learning_rate": 5e-07,
      "loss": 0.3021,
      "step": 453
    },
    {
      "epoch": 0.0726167626359565,
      "grad_norm": 2.0234925746917725,
      "learning_rate": 5e-07,
      "loss": 0.3008,
      "step": 454
    },
    {
      "epoch": 0.07277671145233525,
      "grad_norm": 1.7365145683288574,
      "learning_rate": 5e-07,
      "loss": 0.3017,
      "step": 455
    },
    {
      "epoch": 0.07293666026871401,
      "grad_norm": 2.280240058898926,
      "learning_rate": 5e-07,
      "loss": 0.3118,
      "step": 456
    },
    {
      "epoch": 0.07309660908509277,
      "grad_norm": 2.031451940536499,
      "learning_rate": 5e-07,
      "loss": 0.3052,
      "step": 457
    },
    {
      "epoch": 0.07325655790147152,
      "grad_norm": 2.0397462844848633,
      "learning_rate": 5e-07,
      "loss": 0.3006,
      "step": 458
    },
    {
      "epoch": 0.07341650671785029,
      "grad_norm": 2.1512537002563477,
      "learning_rate": 5e-07,
      "loss": 0.3014,
      "step": 459
    },
    {
      "epoch": 0.07357645553422905,
      "grad_norm": 1.9270386695861816,
      "learning_rate": 5e-07,
      "loss": 0.3025,
      "step": 460
    },
    {
      "epoch": 0.07373640435060781,
      "grad_norm": 2.293191432952881,
      "learning_rate": 5e-07,
      "loss": 0.3053,
      "step": 461
    },
    {
      "epoch": 0.07389635316698656,
      "grad_norm": 2.181025266647339,
      "learning_rate": 5e-07,
      "loss": 0.3035,
      "step": 462
    },
    {
      "epoch": 0.07405630198336532,
      "grad_norm": 2.3629238605499268,
      "learning_rate": 5e-07,
      "loss": 0.3055,
      "step": 463
    },
    {
      "epoch": 0.07421625079974409,
      "grad_norm": 2.168504238128662,
      "learning_rate": 5e-07,
      "loss": 0.3042,
      "step": 464
    },
    {
      "epoch": 0.07437619961612284,
      "grad_norm": 2.079216480255127,
      "learning_rate": 5e-07,
      "loss": 0.3047,
      "step": 465
    },
    {
      "epoch": 0.0745361484325016,
      "grad_norm": 2.207763910293579,
      "learning_rate": 5e-07,
      "loss": 0.3008,
      "step": 466
    },
    {
      "epoch": 0.07469609724888036,
      "grad_norm": 2.420771598815918,
      "learning_rate": 5e-07,
      "loss": 0.3095,
      "step": 467
    },
    {
      "epoch": 0.07485604606525911,
      "grad_norm": 2.367994785308838,
      "learning_rate": 5e-07,
      "loss": 0.2979,
      "step": 468
    },
    {
      "epoch": 0.07501599488163788,
      "grad_norm": 1.8690481185913086,
      "learning_rate": 5e-07,
      "loss": 0.3035,
      "step": 469
    },
    {
      "epoch": 0.07517594369801664,
      "grad_norm": 2.1732397079467773,
      "learning_rate": 5e-07,
      "loss": 0.3054,
      "step": 470
    },
    {
      "epoch": 0.07533589251439539,
      "grad_norm": 2.136955738067627,
      "learning_rate": 5e-07,
      "loss": 0.2994,
      "step": 471
    },
    {
      "epoch": 0.07549584133077415,
      "grad_norm": 2.4509029388427734,
      "learning_rate": 5e-07,
      "loss": 0.2987,
      "step": 472
    },
    {
      "epoch": 0.07565579014715292,
      "grad_norm": 2.0626986026763916,
      "learning_rate": 5e-07,
      "loss": 0.3024,
      "step": 473
    },
    {
      "epoch": 0.07581573896353166,
      "grad_norm": 2.345771312713623,
      "learning_rate": 5e-07,
      "loss": 0.3048,
      "step": 474
    },
    {
      "epoch": 0.07597568777991043,
      "grad_norm": 2.667473554611206,
      "learning_rate": 5e-07,
      "loss": 0.3019,
      "step": 475
    },
    {
      "epoch": 0.07613563659628919,
      "grad_norm": 2.542586088180542,
      "learning_rate": 5e-07,
      "loss": 0.3027,
      "step": 476
    },
    {
      "epoch": 0.07629558541266794,
      "grad_norm": 2.041093587875366,
      "learning_rate": 5e-07,
      "loss": 0.2984,
      "step": 477
    },
    {
      "epoch": 0.0764555342290467,
      "grad_norm": 2.0286173820495605,
      "learning_rate": 5e-07,
      "loss": 0.303,
      "step": 478
    },
    {
      "epoch": 0.07661548304542547,
      "grad_norm": 2.0105905532836914,
      "learning_rate": 5e-07,
      "loss": 0.3027,
      "step": 479
    },
    {
      "epoch": 0.07677543186180422,
      "grad_norm": 2.0923233032226562,
      "learning_rate": 5e-07,
      "loss": 0.3017,
      "step": 480
    },
    {
      "epoch": 0.07693538067818298,
      "grad_norm": 2.081124782562256,
      "learning_rate": 5e-07,
      "loss": 0.3047,
      "step": 481
    },
    {
      "epoch": 0.07709532949456174,
      "grad_norm": 1.6731597185134888,
      "learning_rate": 5e-07,
      "loss": 0.2967,
      "step": 482
    },
    {
      "epoch": 0.07725527831094049,
      "grad_norm": 2.305619239807129,
      "learning_rate": 5e-07,
      "loss": 0.2965,
      "step": 483
    },
    {
      "epoch": 0.07741522712731926,
      "grad_norm": 2.2861437797546387,
      "learning_rate": 5e-07,
      "loss": 0.303,
      "step": 484
    },
    {
      "epoch": 0.07757517594369802,
      "grad_norm": 1.8781129121780396,
      "learning_rate": 5e-07,
      "loss": 0.2994,
      "step": 485
    },
    {
      "epoch": 0.07773512476007678,
      "grad_norm": 2.319096326828003,
      "learning_rate": 5e-07,
      "loss": 0.3044,
      "step": 486
    },
    {
      "epoch": 0.07789507357645553,
      "grad_norm": 2.1522216796875,
      "learning_rate": 5e-07,
      "loss": 0.3027,
      "step": 487
    },
    {
      "epoch": 0.0780550223928343,
      "grad_norm": 2.335820436477661,
      "learning_rate": 5e-07,
      "loss": 0.3007,
      "step": 488
    },
    {
      "epoch": 0.07821497120921306,
      "grad_norm": 1.9937384128570557,
      "learning_rate": 5e-07,
      "loss": 0.2982,
      "step": 489
    },
    {
      "epoch": 0.07837492002559181,
      "grad_norm": 2.118121385574341,
      "learning_rate": 5e-07,
      "loss": 0.3031,
      "step": 490
    },
    {
      "epoch": 0.07853486884197057,
      "grad_norm": 2.1595475673675537,
      "learning_rate": 5e-07,
      "loss": 0.3046,
      "step": 491
    },
    {
      "epoch": 0.07869481765834933,
      "grad_norm": 2.2636759281158447,
      "learning_rate": 5e-07,
      "loss": 0.3047,
      "step": 492
    },
    {
      "epoch": 0.07885476647472808,
      "grad_norm": 2.1016416549682617,
      "learning_rate": 5e-07,
      "loss": 0.2989,
      "step": 493
    },
    {
      "epoch": 0.07901471529110685,
      "grad_norm": 2.3300018310546875,
      "learning_rate": 5e-07,
      "loss": 0.3023,
      "step": 494
    },
    {
      "epoch": 0.07917466410748561,
      "grad_norm": 1.8764586448669434,
      "learning_rate": 5e-07,
      "loss": 0.3,
      "step": 495
    },
    {
      "epoch": 0.07933461292386436,
      "grad_norm": 2.2234604358673096,
      "learning_rate": 5e-07,
      "loss": 0.3015,
      "step": 496
    },
    {
      "epoch": 0.07949456174024312,
      "grad_norm": 2.5243752002716064,
      "learning_rate": 5e-07,
      "loss": 0.3009,
      "step": 497
    },
    {
      "epoch": 0.07965451055662189,
      "grad_norm": 2.286010265350342,
      "learning_rate": 5e-07,
      "loss": 0.3012,
      "step": 498
    },
    {
      "epoch": 0.07981445937300063,
      "grad_norm": 2.1571044921875,
      "learning_rate": 5e-07,
      "loss": 0.3025,
      "step": 499
    },
    {
      "epoch": 0.0799744081893794,
      "grad_norm": 2.265155076980591,
      "learning_rate": 5e-07,
      "loss": 0.2977,
      "step": 500
    },
    {
      "epoch": 0.08013435700575816,
      "grad_norm": 2.676246404647827,
      "learning_rate": 5e-07,
      "loss": 0.304,
      "step": 501
    },
    {
      "epoch": 0.08029430582213691,
      "grad_norm": 2.767507553100586,
      "learning_rate": 5e-07,
      "loss": 0.3054,
      "step": 502
    },
    {
      "epoch": 0.08045425463851567,
      "grad_norm": 2.5017900466918945,
      "learning_rate": 5e-07,
      "loss": 0.3048,
      "step": 503
    },
    {
      "epoch": 0.08061420345489444,
      "grad_norm": 1.9273490905761719,
      "learning_rate": 5e-07,
      "loss": 0.3,
      "step": 504
    },
    {
      "epoch": 0.08077415227127319,
      "grad_norm": 1.9731382131576538,
      "learning_rate": 5e-07,
      "loss": 0.3038,
      "step": 505
    },
    {
      "epoch": 0.08093410108765195,
      "grad_norm": 2.0946028232574463,
      "learning_rate": 5e-07,
      "loss": 0.3007,
      "step": 506
    },
    {
      "epoch": 0.08109404990403071,
      "grad_norm": 2.121446371078491,
      "learning_rate": 5e-07,
      "loss": 0.3014,
      "step": 507
    },
    {
      "epoch": 0.08125399872040946,
      "grad_norm": 2.046224355697632,
      "learning_rate": 5e-07,
      "loss": 0.2979,
      "step": 508
    },
    {
      "epoch": 0.08141394753678823,
      "grad_norm": 2.0703961849212646,
      "learning_rate": 5e-07,
      "loss": 0.3036,
      "step": 509
    },
    {
      "epoch": 0.08157389635316699,
      "grad_norm": 2.0696616172790527,
      "learning_rate": 5e-07,
      "loss": 0.3038,
      "step": 510
    },
    {
      "epoch": 0.08173384516954575,
      "grad_norm": 1.9646694660186768,
      "learning_rate": 5e-07,
      "loss": 0.2999,
      "step": 511
    },
    {
      "epoch": 0.0818937939859245,
      "grad_norm": 2.1445326805114746,
      "learning_rate": 5e-07,
      "loss": 0.297,
      "step": 512
    },
    {
      "epoch": 0.08205374280230326,
      "grad_norm": 2.640528678894043,
      "learning_rate": 5e-07,
      "loss": 0.302,
      "step": 513
    },
    {
      "epoch": 0.08221369161868203,
      "grad_norm": 2.575798273086548,
      "learning_rate": 5e-07,
      "loss": 0.3017,
      "step": 514
    },
    {
      "epoch": 0.08237364043506078,
      "grad_norm": 2.292562961578369,
      "learning_rate": 5e-07,
      "loss": 0.3035,
      "step": 515
    },
    {
      "epoch": 0.08253358925143954,
      "grad_norm": 2.0730903148651123,
      "learning_rate": 5e-07,
      "loss": 0.2989,
      "step": 516
    },
    {
      "epoch": 0.0826935380678183,
      "grad_norm": 2.109712600708008,
      "learning_rate": 5e-07,
      "loss": 0.2956,
      "step": 517
    },
    {
      "epoch": 0.08285348688419705,
      "grad_norm": 2.316025495529175,
      "learning_rate": 5e-07,
      "loss": 0.3011,
      "step": 518
    },
    {
      "epoch": 0.08301343570057582,
      "grad_norm": 2.358921527862549,
      "learning_rate": 5e-07,
      "loss": 0.3013,
      "step": 519
    },
    {
      "epoch": 0.08317338451695458,
      "grad_norm": 1.8863067626953125,
      "learning_rate": 5e-07,
      "loss": 0.2981,
      "step": 520
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 2.0931413173675537,
      "learning_rate": 5e-07,
      "loss": 0.3066,
      "step": 521
    },
    {
      "epoch": 0.08349328214971209,
      "grad_norm": 2.00759220123291,
      "learning_rate": 5e-07,
      "loss": 0.3011,
      "step": 522
    },
    {
      "epoch": 0.08365323096609086,
      "grad_norm": 2.4419023990631104,
      "learning_rate": 5e-07,
      "loss": 0.298,
      "step": 523
    },
    {
      "epoch": 0.0838131797824696,
      "grad_norm": 2.0745930671691895,
      "learning_rate": 5e-07,
      "loss": 0.2979,
      "step": 524
    },
    {
      "epoch": 0.08397312859884837,
      "grad_norm": 2.6544034481048584,
      "learning_rate": 5e-07,
      "loss": 0.3036,
      "step": 525
    },
    {
      "epoch": 0.08413307741522713,
      "grad_norm": 1.7681156396865845,
      "learning_rate": 5e-07,
      "loss": 0.3016,
      "step": 526
    },
    {
      "epoch": 0.08429302623160588,
      "grad_norm": 2.422144651412964,
      "learning_rate": 5e-07,
      "loss": 0.3018,
      "step": 527
    },
    {
      "epoch": 0.08445297504798464,
      "grad_norm": 2.240990400314331,
      "learning_rate": 5e-07,
      "loss": 0.2968,
      "step": 528
    },
    {
      "epoch": 0.0846129238643634,
      "grad_norm": 2.4061439037323,
      "learning_rate": 5e-07,
      "loss": 0.2977,
      "step": 529
    },
    {
      "epoch": 0.08477287268074216,
      "grad_norm": 1.9882800579071045,
      "learning_rate": 5e-07,
      "loss": 0.2981,
      "step": 530
    },
    {
      "epoch": 0.08493282149712092,
      "grad_norm": 1.952721357345581,
      "learning_rate": 5e-07,
      "loss": 0.3013,
      "step": 531
    },
    {
      "epoch": 0.08509277031349968,
      "grad_norm": 1.9362037181854248,
      "learning_rate": 5e-07,
      "loss": 0.2965,
      "step": 532
    },
    {
      "epoch": 0.08525271912987843,
      "grad_norm": 2.1452527046203613,
      "learning_rate": 5e-07,
      "loss": 0.2983,
      "step": 533
    },
    {
      "epoch": 0.0854126679462572,
      "grad_norm": 2.0399348735809326,
      "learning_rate": 5e-07,
      "loss": 0.3022,
      "step": 534
    },
    {
      "epoch": 0.08557261676263596,
      "grad_norm": 2.636587142944336,
      "learning_rate": 5e-07,
      "loss": 0.3016,
      "step": 535
    },
    {
      "epoch": 0.08573256557901472,
      "grad_norm": 2.0649971961975098,
      "learning_rate": 5e-07,
      "loss": 0.3025,
      "step": 536
    },
    {
      "epoch": 0.08589251439539347,
      "grad_norm": 1.8769205808639526,
      "learning_rate": 5e-07,
      "loss": 0.2985,
      "step": 537
    },
    {
      "epoch": 0.08605246321177223,
      "grad_norm": 2.2696924209594727,
      "learning_rate": 5e-07,
      "loss": 0.299,
      "step": 538
    },
    {
      "epoch": 0.086212412028151,
      "grad_norm": 2.219849109649658,
      "learning_rate": 5e-07,
      "loss": 0.298,
      "step": 539
    },
    {
      "epoch": 0.08637236084452975,
      "grad_norm": 1.7998337745666504,
      "learning_rate": 5e-07,
      "loss": 0.2946,
      "step": 540
    },
    {
      "epoch": 0.08653230966090851,
      "grad_norm": 2.306370735168457,
      "learning_rate": 5e-07,
      "loss": 0.298,
      "step": 541
    },
    {
      "epoch": 0.08669225847728727,
      "grad_norm": 2.213541030883789,
      "learning_rate": 5e-07,
      "loss": 0.2972,
      "step": 542
    },
    {
      "epoch": 0.08685220729366602,
      "grad_norm": 2.0970141887664795,
      "learning_rate": 5e-07,
      "loss": 0.2956,
      "step": 543
    },
    {
      "epoch": 0.08701215611004479,
      "grad_norm": 2.4972970485687256,
      "learning_rate": 5e-07,
      "loss": 0.3029,
      "step": 544
    },
    {
      "epoch": 0.08717210492642355,
      "grad_norm": 2.0092804431915283,
      "learning_rate": 5e-07,
      "loss": 0.3012,
      "step": 545
    },
    {
      "epoch": 0.0873320537428023,
      "grad_norm": 2.0072975158691406,
      "learning_rate": 5e-07,
      "loss": 0.2911,
      "step": 546
    },
    {
      "epoch": 0.08749200255918106,
      "grad_norm": 2.0259361267089844,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 547
    },
    {
      "epoch": 0.08765195137555983,
      "grad_norm": 1.8803236484527588,
      "learning_rate": 5e-07,
      "loss": 0.2979,
      "step": 548
    },
    {
      "epoch": 0.08781190019193857,
      "grad_norm": 2.0889766216278076,
      "learning_rate": 5e-07,
      "loss": 0.2972,
      "step": 549
    },
    {
      "epoch": 0.08797184900831734,
      "grad_norm": 2.4227771759033203,
      "learning_rate": 5e-07,
      "loss": 0.3003,
      "step": 550
    },
    {
      "epoch": 0.0881317978246961,
      "grad_norm": 1.9293891191482544,
      "learning_rate": 5e-07,
      "loss": 0.2982,
      "step": 551
    },
    {
      "epoch": 0.08829174664107485,
      "grad_norm": 2.0617027282714844,
      "learning_rate": 5e-07,
      "loss": 0.2983,
      "step": 552
    },
    {
      "epoch": 0.08845169545745361,
      "grad_norm": 2.0640885829925537,
      "learning_rate": 5e-07,
      "loss": 0.2972,
      "step": 553
    },
    {
      "epoch": 0.08861164427383238,
      "grad_norm": 2.066222667694092,
      "learning_rate": 5e-07,
      "loss": 0.2986,
      "step": 554
    },
    {
      "epoch": 0.08877159309021113,
      "grad_norm": 2.1301841735839844,
      "learning_rate": 5e-07,
      "loss": 0.2938,
      "step": 555
    },
    {
      "epoch": 0.08893154190658989,
      "grad_norm": 2.127002477645874,
      "learning_rate": 5e-07,
      "loss": 0.2969,
      "step": 556
    },
    {
      "epoch": 0.08909149072296865,
      "grad_norm": 2.1427435874938965,
      "learning_rate": 5e-07,
      "loss": 0.2964,
      "step": 557
    },
    {
      "epoch": 0.0892514395393474,
      "grad_norm": 2.0680084228515625,
      "learning_rate": 5e-07,
      "loss": 0.3013,
      "step": 558
    },
    {
      "epoch": 0.08941138835572617,
      "grad_norm": 2.206005811691284,
      "learning_rate": 5e-07,
      "loss": 0.2992,
      "step": 559
    },
    {
      "epoch": 0.08957133717210493,
      "grad_norm": 2.0527656078338623,
      "learning_rate": 5e-07,
      "loss": 0.301,
      "step": 560
    },
    {
      "epoch": 0.08973128598848369,
      "grad_norm": 2.055856466293335,
      "learning_rate": 5e-07,
      "loss": 0.2962,
      "step": 561
    },
    {
      "epoch": 0.08989123480486244,
      "grad_norm": 2.0453052520751953,
      "learning_rate": 5e-07,
      "loss": 0.2972,
      "step": 562
    },
    {
      "epoch": 0.0900511836212412,
      "grad_norm": 2.3228089809417725,
      "learning_rate": 5e-07,
      "loss": 0.2978,
      "step": 563
    },
    {
      "epoch": 0.09021113243761997,
      "grad_norm": 2.705530881881714,
      "learning_rate": 5e-07,
      "loss": 0.3004,
      "step": 564
    },
    {
      "epoch": 0.09037108125399872,
      "grad_norm": 2.300804376602173,
      "learning_rate": 5e-07,
      "loss": 0.2995,
      "step": 565
    },
    {
      "epoch": 0.09053103007037748,
      "grad_norm": 2.6101512908935547,
      "learning_rate": 5e-07,
      "loss": 0.302,
      "step": 566
    },
    {
      "epoch": 0.09069097888675624,
      "grad_norm": 2.517805814743042,
      "learning_rate": 5e-07,
      "loss": 0.2999,
      "step": 567
    },
    {
      "epoch": 0.09085092770313499,
      "grad_norm": 2.334296703338623,
      "learning_rate": 5e-07,
      "loss": 0.2967,
      "step": 568
    },
    {
      "epoch": 0.09101087651951376,
      "grad_norm": 2.27532696723938,
      "learning_rate": 5e-07,
      "loss": 0.2958,
      "step": 569
    },
    {
      "epoch": 0.09117082533589252,
      "grad_norm": 2.3063292503356934,
      "learning_rate": 5e-07,
      "loss": 0.2951,
      "step": 570
    },
    {
      "epoch": 0.09133077415227127,
      "grad_norm": 2.18499493598938,
      "learning_rate": 5e-07,
      "loss": 0.299,
      "step": 571
    },
    {
      "epoch": 0.09149072296865003,
      "grad_norm": 2.904787302017212,
      "learning_rate": 5e-07,
      "loss": 0.297,
      "step": 572
    },
    {
      "epoch": 0.0916506717850288,
      "grad_norm": 2.9132115840911865,
      "learning_rate": 5e-07,
      "loss": 0.2986,
      "step": 573
    },
    {
      "epoch": 0.09181062060140754,
      "grad_norm": 2.856121778488159,
      "learning_rate": 5e-07,
      "loss": 0.3,
      "step": 574
    },
    {
      "epoch": 0.09197056941778631,
      "grad_norm": 2.424741506576538,
      "learning_rate": 5e-07,
      "loss": 0.2921,
      "step": 575
    },
    {
      "epoch": 0.09213051823416507,
      "grad_norm": 2.0509724617004395,
      "learning_rate": 5e-07,
      "loss": 0.2962,
      "step": 576
    },
    {
      "epoch": 0.09229046705054382,
      "grad_norm": 2.322720527648926,
      "learning_rate": 5e-07,
      "loss": 0.2986,
      "step": 577
    },
    {
      "epoch": 0.09245041586692258,
      "grad_norm": 2.9838321208953857,
      "learning_rate": 5e-07,
      "loss": 0.2929,
      "step": 578
    },
    {
      "epoch": 0.09261036468330135,
      "grad_norm": 2.306154727935791,
      "learning_rate": 5e-07,
      "loss": 0.2969,
      "step": 579
    },
    {
      "epoch": 0.0927703134996801,
      "grad_norm": 2.1040611267089844,
      "learning_rate": 5e-07,
      "loss": 0.2988,
      "step": 580
    },
    {
      "epoch": 0.09293026231605886,
      "grad_norm": 2.202340841293335,
      "learning_rate": 5e-07,
      "loss": 0.3006,
      "step": 581
    },
    {
      "epoch": 0.09309021113243762,
      "grad_norm": 2.0678932666778564,
      "learning_rate": 5e-07,
      "loss": 0.2959,
      "step": 582
    },
    {
      "epoch": 0.09325015994881637,
      "grad_norm": 2.72558331489563,
      "learning_rate": 5e-07,
      "loss": 0.3008,
      "step": 583
    },
    {
      "epoch": 0.09341010876519514,
      "grad_norm": 2.7548153400421143,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 584
    },
    {
      "epoch": 0.0935700575815739,
      "grad_norm": 2.3645150661468506,
      "learning_rate": 5e-07,
      "loss": 0.2985,
      "step": 585
    },
    {
      "epoch": 0.09373000639795266,
      "grad_norm": 1.8730493783950806,
      "learning_rate": 5e-07,
      "loss": 0.2928,
      "step": 586
    },
    {
      "epoch": 0.09388995521433141,
      "grad_norm": 2.1847734451293945,
      "learning_rate": 5e-07,
      "loss": 0.2987,
      "step": 587
    },
    {
      "epoch": 0.09404990403071017,
      "grad_norm": 2.3782007694244385,
      "learning_rate": 5e-07,
      "loss": 0.3005,
      "step": 588
    },
    {
      "epoch": 0.09420985284708894,
      "grad_norm": 2.0748815536499023,
      "learning_rate": 5e-07,
      "loss": 0.294,
      "step": 589
    },
    {
      "epoch": 0.09436980166346769,
      "grad_norm": 2.024181365966797,
      "learning_rate": 5e-07,
      "loss": 0.2953,
      "step": 590
    },
    {
      "epoch": 0.09452975047984645,
      "grad_norm": 2.3696048259735107,
      "learning_rate": 5e-07,
      "loss": 0.2991,
      "step": 591
    },
    {
      "epoch": 0.09468969929622521,
      "grad_norm": 1.8759169578552246,
      "learning_rate": 5e-07,
      "loss": 0.2938,
      "step": 592
    },
    {
      "epoch": 0.09484964811260396,
      "grad_norm": 2.1167683601379395,
      "learning_rate": 5e-07,
      "loss": 0.2978,
      "step": 593
    },
    {
      "epoch": 0.09500959692898273,
      "grad_norm": 2.5799152851104736,
      "learning_rate": 5e-07,
      "loss": 0.2939,
      "step": 594
    },
    {
      "epoch": 0.09516954574536149,
      "grad_norm": 3.827061653137207,
      "learning_rate": 5e-07,
      "loss": 0.2936,
      "step": 595
    },
    {
      "epoch": 0.09532949456174024,
      "grad_norm": 3.3104844093322754,
      "learning_rate": 5e-07,
      "loss": 0.2993,
      "step": 596
    },
    {
      "epoch": 0.095489443378119,
      "grad_norm": 2.691298484802246,
      "learning_rate": 5e-07,
      "loss": 0.2978,
      "step": 597
    },
    {
      "epoch": 0.09564939219449776,
      "grad_norm": 2.5745275020599365,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 598
    },
    {
      "epoch": 0.09580934101087651,
      "grad_norm": 1.9688578844070435,
      "learning_rate": 5e-07,
      "loss": 0.2984,
      "step": 599
    },
    {
      "epoch": 0.09596928982725528,
      "grad_norm": 1.9514329433441162,
      "learning_rate": 5e-07,
      "loss": 0.296,
      "step": 600
    },
    {
      "epoch": 0.09612923864363404,
      "grad_norm": 2.1478962898254395,
      "learning_rate": 5e-07,
      "loss": 0.2928,
      "step": 601
    },
    {
      "epoch": 0.09628918746001279,
      "grad_norm": 1.9028514623641968,
      "learning_rate": 5e-07,
      "loss": 0.2951,
      "step": 602
    },
    {
      "epoch": 0.09644913627639155,
      "grad_norm": 2.0126380920410156,
      "learning_rate": 5e-07,
      "loss": 0.2951,
      "step": 603
    },
    {
      "epoch": 0.09660908509277032,
      "grad_norm": 2.2252697944641113,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 604
    },
    {
      "epoch": 0.09676903390914907,
      "grad_norm": 2.086616277694702,
      "learning_rate": 5e-07,
      "loss": 0.2964,
      "step": 605
    },
    {
      "epoch": 0.09692898272552783,
      "grad_norm": 2.071639060974121,
      "learning_rate": 5e-07,
      "loss": 0.2913,
      "step": 606
    },
    {
      "epoch": 0.09708893154190659,
      "grad_norm": 2.130629539489746,
      "learning_rate": 5e-07,
      "loss": 0.2948,
      "step": 607
    },
    {
      "epoch": 0.09724888035828536,
      "grad_norm": 2.1400868892669678,
      "learning_rate": 5e-07,
      "loss": 0.2973,
      "step": 608
    },
    {
      "epoch": 0.0974088291746641,
      "grad_norm": 2.1602537631988525,
      "learning_rate": 5e-07,
      "loss": 0.2942,
      "step": 609
    },
    {
      "epoch": 0.09756877799104287,
      "grad_norm": 2.050330877304077,
      "learning_rate": 5e-07,
      "loss": 0.2974,
      "step": 610
    },
    {
      "epoch": 0.09772872680742163,
      "grad_norm": 2.216928720474243,
      "learning_rate": 5e-07,
      "loss": 0.2914,
      "step": 611
    },
    {
      "epoch": 0.09788867562380038,
      "grad_norm": 1.9430956840515137,
      "learning_rate": 5e-07,
      "loss": 0.2902,
      "step": 612
    },
    {
      "epoch": 0.09804862444017914,
      "grad_norm": 2.070120096206665,
      "learning_rate": 5e-07,
      "loss": 0.2927,
      "step": 613
    },
    {
      "epoch": 0.09820857325655791,
      "grad_norm": 2.3340554237365723,
      "learning_rate": 5e-07,
      "loss": 0.295,
      "step": 614
    },
    {
      "epoch": 0.09836852207293666,
      "grad_norm": 3.0190725326538086,
      "learning_rate": 5e-07,
      "loss": 0.297,
      "step": 615
    },
    {
      "epoch": 0.09852847088931542,
      "grad_norm": 2.5514557361602783,
      "learning_rate": 5e-07,
      "loss": 0.2944,
      "step": 616
    },
    {
      "epoch": 0.09868841970569418,
      "grad_norm": 2.276150941848755,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 617
    },
    {
      "epoch": 0.09884836852207293,
      "grad_norm": 2.3965375423431396,
      "learning_rate": 5e-07,
      "loss": 0.2919,
      "step": 618
    },
    {
      "epoch": 0.0990083173384517,
      "grad_norm": 2.102421522140503,
      "learning_rate": 5e-07,
      "loss": 0.2944,
      "step": 619
    },
    {
      "epoch": 0.09916826615483046,
      "grad_norm": 2.2764840126037598,
      "learning_rate": 5e-07,
      "loss": 0.2929,
      "step": 620
    },
    {
      "epoch": 0.09932821497120921,
      "grad_norm": 2.014390468597412,
      "learning_rate": 5e-07,
      "loss": 0.2928,
      "step": 621
    },
    {
      "epoch": 0.09948816378758797,
      "grad_norm": 2.2870540618896484,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 622
    },
    {
      "epoch": 0.09964811260396673,
      "grad_norm": 2.1711654663085938,
      "learning_rate": 5e-07,
      "loss": 0.2976,
      "step": 623
    },
    {
      "epoch": 0.09980806142034548,
      "grad_norm": 2.1136951446533203,
      "learning_rate": 5e-07,
      "loss": 0.294,
      "step": 624
    },
    {
      "epoch": 0.09996801023672425,
      "grad_norm": 2.4821255207061768,
      "learning_rate": 5e-07,
      "loss": 0.3027,
      "step": 625
    },
    {
      "epoch": 0.10012795905310301,
      "grad_norm": 1.9737217426300049,
      "learning_rate": 5e-07,
      "loss": 0.2958,
      "step": 626
    },
    {
      "epoch": 0.10028790786948176,
      "grad_norm": 2.0804312229156494,
      "learning_rate": 5e-07,
      "loss": 0.2917,
      "step": 627
    },
    {
      "epoch": 0.10044785668586052,
      "grad_norm": 2.1211390495300293,
      "learning_rate": 5e-07,
      "loss": 0.296,
      "step": 628
    },
    {
      "epoch": 0.10060780550223929,
      "grad_norm": 2.2141053676605225,
      "learning_rate": 5e-07,
      "loss": 0.2924,
      "step": 629
    },
    {
      "epoch": 0.10076775431861804,
      "grad_norm": 2.3723983764648438,
      "learning_rate": 5e-07,
      "loss": 0.2928,
      "step": 630
    },
    {
      "epoch": 0.1009277031349968,
      "grad_norm": 2.4645466804504395,
      "learning_rate": 5e-07,
      "loss": 0.299,
      "step": 631
    },
    {
      "epoch": 0.10108765195137556,
      "grad_norm": 2.469618082046509,
      "learning_rate": 5e-07,
      "loss": 0.2965,
      "step": 632
    },
    {
      "epoch": 0.10124760076775433,
      "grad_norm": 2.2725234031677246,
      "learning_rate": 5e-07,
      "loss": 0.2987,
      "step": 633
    },
    {
      "epoch": 0.10140754958413307,
      "grad_norm": 2.09824275970459,
      "learning_rate": 5e-07,
      "loss": 0.2957,
      "step": 634
    },
    {
      "epoch": 0.10156749840051184,
      "grad_norm": 2.204941987991333,
      "learning_rate": 5e-07,
      "loss": 0.2926,
      "step": 635
    },
    {
      "epoch": 0.1017274472168906,
      "grad_norm": 2.0380430221557617,
      "learning_rate": 5e-07,
      "loss": 0.2956,
      "step": 636
    },
    {
      "epoch": 0.10188739603326935,
      "grad_norm": 2.4474265575408936,
      "learning_rate": 5e-07,
      "loss": 0.2953,
      "step": 637
    },
    {
      "epoch": 0.10204734484964811,
      "grad_norm": 2.1177217960357666,
      "learning_rate": 5e-07,
      "loss": 0.2982,
      "step": 638
    },
    {
      "epoch": 0.10220729366602688,
      "grad_norm": 1.9962352514266968,
      "learning_rate": 5e-07,
      "loss": 0.2943,
      "step": 639
    },
    {
      "epoch": 0.10236724248240563,
      "grad_norm": 2.125455856323242,
      "learning_rate": 5e-07,
      "loss": 0.2905,
      "step": 640
    },
    {
      "epoch": 0.10252719129878439,
      "grad_norm": 2.2129974365234375,
      "learning_rate": 5e-07,
      "loss": 0.2982,
      "step": 641
    },
    {
      "epoch": 0.10268714011516315,
      "grad_norm": 2.5060842037200928,
      "learning_rate": 5e-07,
      "loss": 0.2863,
      "step": 642
    },
    {
      "epoch": 0.1028470889315419,
      "grad_norm": 2.0770833492279053,
      "learning_rate": 5e-07,
      "loss": 0.2962,
      "step": 643
    },
    {
      "epoch": 0.10300703774792067,
      "grad_norm": 2.204725742340088,
      "learning_rate": 5e-07,
      "loss": 0.2922,
      "step": 644
    },
    {
      "epoch": 0.10316698656429943,
      "grad_norm": 2.320613145828247,
      "learning_rate": 5e-07,
      "loss": 0.296,
      "step": 645
    },
    {
      "epoch": 0.10332693538067818,
      "grad_norm": 2.2892258167266846,
      "learning_rate": 5e-07,
      "loss": 0.2906,
      "step": 646
    },
    {
      "epoch": 0.10348688419705694,
      "grad_norm": 1.9209755659103394,
      "learning_rate": 5e-07,
      "loss": 0.2881,
      "step": 647
    },
    {
      "epoch": 0.1036468330134357,
      "grad_norm": 1.951879620552063,
      "learning_rate": 5e-07,
      "loss": 0.2926,
      "step": 648
    },
    {
      "epoch": 0.10380678182981445,
      "grad_norm": 2.2393598556518555,
      "learning_rate": 5e-07,
      "loss": 0.2919,
      "step": 649
    },
    {
      "epoch": 0.10396673064619322,
      "grad_norm": 2.2339913845062256,
      "learning_rate": 5e-07,
      "loss": 0.2951,
      "step": 650
    },
    {
      "epoch": 0.10412667946257198,
      "grad_norm": 2.1053690910339355,
      "learning_rate": 5e-07,
      "loss": 0.296,
      "step": 651
    },
    {
      "epoch": 0.10428662827895073,
      "grad_norm": 2.507866382598877,
      "learning_rate": 5e-07,
      "loss": 0.2934,
      "step": 652
    },
    {
      "epoch": 0.1044465770953295,
      "grad_norm": 2.095170736312866,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 653
    },
    {
      "epoch": 0.10460652591170826,
      "grad_norm": 2.128347635269165,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 654
    },
    {
      "epoch": 0.104766474728087,
      "grad_norm": 2.125044345855713,
      "learning_rate": 5e-07,
      "loss": 0.2943,
      "step": 655
    },
    {
      "epoch": 0.10492642354446577,
      "grad_norm": 2.5087568759918213,
      "learning_rate": 5e-07,
      "loss": 0.2955,
      "step": 656
    },
    {
      "epoch": 0.10508637236084453,
      "grad_norm": 2.0455572605133057,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 657
    },
    {
      "epoch": 0.1052463211772233,
      "grad_norm": 2.2853477001190186,
      "learning_rate": 5e-07,
      "loss": 0.2949,
      "step": 658
    },
    {
      "epoch": 0.10540626999360204,
      "grad_norm": 2.6547036170959473,
      "learning_rate": 5e-07,
      "loss": 0.2986,
      "step": 659
    },
    {
      "epoch": 0.10556621880998081,
      "grad_norm": 2.0461323261260986,
      "learning_rate": 5e-07,
      "loss": 0.2921,
      "step": 660
    },
    {
      "epoch": 0.10572616762635957,
      "grad_norm": 2.0468857288360596,
      "learning_rate": 5e-07,
      "loss": 0.2918,
      "step": 661
    },
    {
      "epoch": 0.10588611644273832,
      "grad_norm": 2.096952199935913,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 662
    },
    {
      "epoch": 0.10604606525911708,
      "grad_norm": 3.391824722290039,
      "learning_rate": 5e-07,
      "loss": 0.29,
      "step": 663
    },
    {
      "epoch": 0.10620601407549585,
      "grad_norm": 2.529731273651123,
      "learning_rate": 5e-07,
      "loss": 0.2917,
      "step": 664
    },
    {
      "epoch": 0.1063659628918746,
      "grad_norm": 2.2772088050842285,
      "learning_rate": 5e-07,
      "loss": 0.2935,
      "step": 665
    },
    {
      "epoch": 0.10652591170825336,
      "grad_norm": 2.219475746154785,
      "learning_rate": 5e-07,
      "loss": 0.2956,
      "step": 666
    },
    {
      "epoch": 0.10668586052463212,
      "grad_norm": 2.049891948699951,
      "learning_rate": 5e-07,
      "loss": 0.2905,
      "step": 667
    },
    {
      "epoch": 0.10684580934101087,
      "grad_norm": 2.3565211296081543,
      "learning_rate": 5e-07,
      "loss": 0.2897,
      "step": 668
    },
    {
      "epoch": 0.10700575815738964,
      "grad_norm": 2.0928502082824707,
      "learning_rate": 5e-07,
      "loss": 0.2935,
      "step": 669
    },
    {
      "epoch": 0.1071657069737684,
      "grad_norm": 2.317538261413574,
      "learning_rate": 5e-07,
      "loss": 0.2893,
      "step": 670
    },
    {
      "epoch": 0.10732565579014715,
      "grad_norm": 2.173978090286255,
      "learning_rate": 5e-07,
      "loss": 0.2908,
      "step": 671
    },
    {
      "epoch": 0.10748560460652591,
      "grad_norm": 2.3013086318969727,
      "learning_rate": 5e-07,
      "loss": 0.2951,
      "step": 672
    },
    {
      "epoch": 0.10764555342290467,
      "grad_norm": 2.477156400680542,
      "learning_rate": 5e-07,
      "loss": 0.2902,
      "step": 673
    },
    {
      "epoch": 0.10780550223928342,
      "grad_norm": 2.527416467666626,
      "learning_rate": 5e-07,
      "loss": 0.2933,
      "step": 674
    },
    {
      "epoch": 0.10796545105566219,
      "grad_norm": 2.375101327896118,
      "learning_rate": 5e-07,
      "loss": 0.294,
      "step": 675
    },
    {
      "epoch": 0.10812539987204095,
      "grad_norm": 2.260948896408081,
      "learning_rate": 5e-07,
      "loss": 0.299,
      "step": 676
    },
    {
      "epoch": 0.1082853486884197,
      "grad_norm": 2.0052993297576904,
      "learning_rate": 5e-07,
      "loss": 0.2933,
      "step": 677
    },
    {
      "epoch": 0.10844529750479846,
      "grad_norm": 2.2509055137634277,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 678
    },
    {
      "epoch": 0.10860524632117723,
      "grad_norm": 1.8963544368743896,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 679
    },
    {
      "epoch": 0.10876519513755598,
      "grad_norm": 2.3250551223754883,
      "learning_rate": 5e-07,
      "loss": 0.2892,
      "step": 680
    },
    {
      "epoch": 0.10892514395393474,
      "grad_norm": 1.9284321069717407,
      "learning_rate": 5e-07,
      "loss": 0.2935,
      "step": 681
    },
    {
      "epoch": 0.1090850927703135,
      "grad_norm": 2.2422382831573486,
      "learning_rate": 5e-07,
      "loss": 0.2932,
      "step": 682
    },
    {
      "epoch": 0.10924504158669227,
      "grad_norm": 2.419151782989502,
      "learning_rate": 5e-07,
      "loss": 0.2908,
      "step": 683
    },
    {
      "epoch": 0.10940499040307101,
      "grad_norm": 2.3535642623901367,
      "learning_rate": 5e-07,
      "loss": 0.2915,
      "step": 684
    },
    {
      "epoch": 0.10956493921944978,
      "grad_norm": 2.5304839611053467,
      "learning_rate": 5e-07,
      "loss": 0.293,
      "step": 685
    },
    {
      "epoch": 0.10972488803582854,
      "grad_norm": 2.057827949523926,
      "learning_rate": 5e-07,
      "loss": 0.2876,
      "step": 686
    },
    {
      "epoch": 0.10988483685220729,
      "grad_norm": 2.9646430015563965,
      "learning_rate": 5e-07,
      "loss": 0.2915,
      "step": 687
    },
    {
      "epoch": 0.11004478566858605,
      "grad_norm": 2.0805468559265137,
      "learning_rate": 5e-07,
      "loss": 0.2893,
      "step": 688
    },
    {
      "epoch": 0.11020473448496482,
      "grad_norm": 2.1064491271972656,
      "learning_rate": 5e-07,
      "loss": 0.2893,
      "step": 689
    },
    {
      "epoch": 0.11036468330134357,
      "grad_norm": 2.538243293762207,
      "learning_rate": 5e-07,
      "loss": 0.2944,
      "step": 690
    },
    {
      "epoch": 0.11052463211772233,
      "grad_norm": 2.4092624187469482,
      "learning_rate": 5e-07,
      "loss": 0.294,
      "step": 691
    },
    {
      "epoch": 0.11068458093410109,
      "grad_norm": 2.1646673679351807,
      "learning_rate": 5e-07,
      "loss": 0.2916,
      "step": 692
    },
    {
      "epoch": 0.11084452975047984,
      "grad_norm": 2.0641708374023438,
      "learning_rate": 5e-07,
      "loss": 0.292,
      "step": 693
    },
    {
      "epoch": 0.1110044785668586,
      "grad_norm": 2.1856565475463867,
      "learning_rate": 5e-07,
      "loss": 0.2898,
      "step": 694
    },
    {
      "epoch": 0.11116442738323737,
      "grad_norm": 1.872738003730774,
      "learning_rate": 5e-07,
      "loss": 0.2874,
      "step": 695
    },
    {
      "epoch": 0.11132437619961612,
      "grad_norm": 2.3472440242767334,
      "learning_rate": 5e-07,
      "loss": 0.2912,
      "step": 696
    },
    {
      "epoch": 0.11148432501599488,
      "grad_norm": 2.3039164543151855,
      "learning_rate": 5e-07,
      "loss": 0.2909,
      "step": 697
    },
    {
      "epoch": 0.11164427383237364,
      "grad_norm": 2.2446606159210205,
      "learning_rate": 5e-07,
      "loss": 0.2926,
      "step": 698
    },
    {
      "epoch": 0.1118042226487524,
      "grad_norm": 2.143815279006958,
      "learning_rate": 5e-07,
      "loss": 0.2916,
      "step": 699
    },
    {
      "epoch": 0.11196417146513116,
      "grad_norm": 3.1797685623168945,
      "learning_rate": 5e-07,
      "loss": 0.2871,
      "step": 700
    },
    {
      "epoch": 0.11212412028150992,
      "grad_norm": 2.559300184249878,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 701
    },
    {
      "epoch": 0.11228406909788867,
      "grad_norm": 2.1931591033935547,
      "learning_rate": 5e-07,
      "loss": 0.2891,
      "step": 702
    },
    {
      "epoch": 0.11244401791426743,
      "grad_norm": 2.119765281677246,
      "learning_rate": 5e-07,
      "loss": 0.2895,
      "step": 703
    },
    {
      "epoch": 0.1126039667306462,
      "grad_norm": 2.0671398639678955,
      "learning_rate": 5e-07,
      "loss": 0.2864,
      "step": 704
    },
    {
      "epoch": 0.11276391554702495,
      "grad_norm": 2.153956413269043,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 705
    },
    {
      "epoch": 0.11292386436340371,
      "grad_norm": 2.508535861968994,
      "learning_rate": 5e-07,
      "loss": 0.2932,
      "step": 706
    },
    {
      "epoch": 0.11308381317978247,
      "grad_norm": 3.640026569366455,
      "learning_rate": 5e-07,
      "loss": 0.2969,
      "step": 707
    },
    {
      "epoch": 0.11324376199616124,
      "grad_norm": 2.5151870250701904,
      "learning_rate": 5e-07,
      "loss": 0.2943,
      "step": 708
    },
    {
      "epoch": 0.11340371081253998,
      "grad_norm": 2.463190793991089,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 709
    },
    {
      "epoch": 0.11356365962891875,
      "grad_norm": 2.040827989578247,
      "learning_rate": 5e-07,
      "loss": 0.2911,
      "step": 710
    },
    {
      "epoch": 0.11372360844529751,
      "grad_norm": 2.122887372970581,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 711
    },
    {
      "epoch": 0.11388355726167626,
      "grad_norm": 2.186458110809326,
      "learning_rate": 5e-07,
      "loss": 0.2922,
      "step": 712
    },
    {
      "epoch": 0.11404350607805502,
      "grad_norm": 1.9210150241851807,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 713
    },
    {
      "epoch": 0.11420345489443379,
      "grad_norm": 1.8921452760696411,
      "learning_rate": 5e-07,
      "loss": 0.2959,
      "step": 714
    },
    {
      "epoch": 0.11436340371081254,
      "grad_norm": 2.318842887878418,
      "learning_rate": 5e-07,
      "loss": 0.2945,
      "step": 715
    },
    {
      "epoch": 0.1145233525271913,
      "grad_norm": 2.004920244216919,
      "learning_rate": 5e-07,
      "loss": 0.2929,
      "step": 716
    },
    {
      "epoch": 0.11468330134357006,
      "grad_norm": 3.0746092796325684,
      "learning_rate": 5e-07,
      "loss": 0.2937,
      "step": 717
    },
    {
      "epoch": 0.11484325015994881,
      "grad_norm": 2.080559015274048,
      "learning_rate": 5e-07,
      "loss": 0.2911,
      "step": 718
    },
    {
      "epoch": 0.11500319897632758,
      "grad_norm": 2.022589921951294,
      "learning_rate": 5e-07,
      "loss": 0.2902,
      "step": 719
    },
    {
      "epoch": 0.11516314779270634,
      "grad_norm": 2.7423384189605713,
      "learning_rate": 5e-07,
      "loss": 0.293,
      "step": 720
    },
    {
      "epoch": 0.11532309660908509,
      "grad_norm": 2.187969446182251,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 721
    },
    {
      "epoch": 0.11548304542546385,
      "grad_norm": 2.832850217819214,
      "learning_rate": 5e-07,
      "loss": 0.2916,
      "step": 722
    },
    {
      "epoch": 0.11564299424184261,
      "grad_norm": 3.3419463634490967,
      "learning_rate": 5e-07,
      "loss": 0.2922,
      "step": 723
    },
    {
      "epoch": 0.11580294305822136,
      "grad_norm": 2.481130838394165,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 724
    },
    {
      "epoch": 0.11596289187460013,
      "grad_norm": 2.5113730430603027,
      "learning_rate": 5e-07,
      "loss": 0.2858,
      "step": 725
    },
    {
      "epoch": 0.11612284069097889,
      "grad_norm": 2.9052278995513916,
      "learning_rate": 5e-07,
      "loss": 0.2947,
      "step": 726
    },
    {
      "epoch": 0.11628278950735764,
      "grad_norm": 2.3703925609588623,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 727
    },
    {
      "epoch": 0.1164427383237364,
      "grad_norm": 2.1708056926727295,
      "learning_rate": 5e-07,
      "loss": 0.2894,
      "step": 728
    },
    {
      "epoch": 0.11660268714011517,
      "grad_norm": 2.2688000202178955,
      "learning_rate": 5e-07,
      "loss": 0.2858,
      "step": 729
    },
    {
      "epoch": 0.11676263595649392,
      "grad_norm": 2.3224546909332275,
      "learning_rate": 5e-07,
      "loss": 0.2938,
      "step": 730
    },
    {
      "epoch": 0.11692258477287268,
      "grad_norm": 1.7535808086395264,
      "learning_rate": 5e-07,
      "loss": 0.2881,
      "step": 731
    },
    {
      "epoch": 0.11708253358925144,
      "grad_norm": 2.0325958728790283,
      "learning_rate": 5e-07,
      "loss": 0.2905,
      "step": 732
    },
    {
      "epoch": 0.1172424824056302,
      "grad_norm": 2.0386464595794678,
      "learning_rate": 5e-07,
      "loss": 0.2901,
      "step": 733
    },
    {
      "epoch": 0.11740243122200895,
      "grad_norm": 2.021578073501587,
      "learning_rate": 5e-07,
      "loss": 0.2903,
      "step": 734
    },
    {
      "epoch": 0.11756238003838772,
      "grad_norm": 2.078115463256836,
      "learning_rate": 5e-07,
      "loss": 0.293,
      "step": 735
    },
    {
      "epoch": 0.11772232885476648,
      "grad_norm": 2.146959066390991,
      "learning_rate": 5e-07,
      "loss": 0.2922,
      "step": 736
    },
    {
      "epoch": 0.11788227767114523,
      "grad_norm": 2.3964345455169678,
      "learning_rate": 5e-07,
      "loss": 0.2957,
      "step": 737
    },
    {
      "epoch": 0.118042226487524,
      "grad_norm": 2.125582456588745,
      "learning_rate": 5e-07,
      "loss": 0.2914,
      "step": 738
    },
    {
      "epoch": 0.11820217530390276,
      "grad_norm": 2.377830743789673,
      "learning_rate": 5e-07,
      "loss": 0.29,
      "step": 739
    },
    {
      "epoch": 0.1183621241202815,
      "grad_norm": 2.0057618618011475,
      "learning_rate": 5e-07,
      "loss": 0.286,
      "step": 740
    },
    {
      "epoch": 0.11852207293666027,
      "grad_norm": 1.9879865646362305,
      "learning_rate": 5e-07,
      "loss": 0.2884,
      "step": 741
    },
    {
      "epoch": 0.11868202175303903,
      "grad_norm": 2.383697986602783,
      "learning_rate": 5e-07,
      "loss": 0.2968,
      "step": 742
    },
    {
      "epoch": 0.11884197056941778,
      "grad_norm": 2.116818904876709,
      "learning_rate": 5e-07,
      "loss": 0.2897,
      "step": 743
    },
    {
      "epoch": 0.11900191938579655,
      "grad_norm": 2.121868848800659,
      "learning_rate": 5e-07,
      "loss": 0.2906,
      "step": 744
    },
    {
      "epoch": 0.11916186820217531,
      "grad_norm": 2.104745864868164,
      "learning_rate": 5e-07,
      "loss": 0.2909,
      "step": 745
    },
    {
      "epoch": 0.11932181701855406,
      "grad_norm": 1.913248062133789,
      "learning_rate": 5e-07,
      "loss": 0.2875,
      "step": 746
    },
    {
      "epoch": 0.11948176583493282,
      "grad_norm": 1.9472912549972534,
      "learning_rate": 5e-07,
      "loss": 0.2896,
      "step": 747
    },
    {
      "epoch": 0.11964171465131158,
      "grad_norm": 2.1096208095550537,
      "learning_rate": 5e-07,
      "loss": 0.2933,
      "step": 748
    },
    {
      "epoch": 0.11980166346769033,
      "grad_norm": 2.1035945415496826,
      "learning_rate": 5e-07,
      "loss": 0.2918,
      "step": 749
    },
    {
      "epoch": 0.1199616122840691,
      "grad_norm": 2.0401129722595215,
      "learning_rate": 5e-07,
      "loss": 0.2887,
      "step": 750
    },
    {
      "epoch": 0.12012156110044786,
      "grad_norm": 2.144218921661377,
      "learning_rate": 5e-07,
      "loss": 0.2941,
      "step": 751
    },
    {
      "epoch": 0.12028150991682661,
      "grad_norm": 2.1348989009857178,
      "learning_rate": 5e-07,
      "loss": 0.2885,
      "step": 752
    },
    {
      "epoch": 0.12044145873320537,
      "grad_norm": 2.0020055770874023,
      "learning_rate": 5e-07,
      "loss": 0.2897,
      "step": 753
    },
    {
      "epoch": 0.12060140754958414,
      "grad_norm": 2.096161365509033,
      "learning_rate": 5e-07,
      "loss": 0.2854,
      "step": 754
    },
    {
      "epoch": 0.12076135636596289,
      "grad_norm": 2.1786842346191406,
      "learning_rate": 5e-07,
      "loss": 0.2911,
      "step": 755
    },
    {
      "epoch": 0.12092130518234165,
      "grad_norm": 2.0962960720062256,
      "learning_rate": 5e-07,
      "loss": 0.2864,
      "step": 756
    },
    {
      "epoch": 0.12108125399872041,
      "grad_norm": 2.412912607192993,
      "learning_rate": 5e-07,
      "loss": 0.2889,
      "step": 757
    },
    {
      "epoch": 0.12124120281509917,
      "grad_norm": 3.621971368789673,
      "learning_rate": 5e-07,
      "loss": 0.3003,
      "step": 758
    },
    {
      "epoch": 0.12140115163147792,
      "grad_norm": 2.4020957946777344,
      "learning_rate": 5e-07,
      "loss": 0.2914,
      "step": 759
    },
    {
      "epoch": 0.12156110044785669,
      "grad_norm": 2.1789543628692627,
      "learning_rate": 5e-07,
      "loss": 0.2924,
      "step": 760
    },
    {
      "epoch": 0.12172104926423545,
      "grad_norm": 2.2928357124328613,
      "learning_rate": 5e-07,
      "loss": 0.2909,
      "step": 761
    },
    {
      "epoch": 0.1218809980806142,
      "grad_norm": 2.7908663749694824,
      "learning_rate": 5e-07,
      "loss": 0.2891,
      "step": 762
    },
    {
      "epoch": 0.12204094689699296,
      "grad_norm": 2.9415738582611084,
      "learning_rate": 5e-07,
      "loss": 0.2949,
      "step": 763
    },
    {
      "epoch": 0.12220089571337173,
      "grad_norm": 2.0967977046966553,
      "learning_rate": 5e-07,
      "loss": 0.2871,
      "step": 764
    },
    {
      "epoch": 0.12236084452975048,
      "grad_norm": 2.108581066131592,
      "learning_rate": 5e-07,
      "loss": 0.2897,
      "step": 765
    },
    {
      "epoch": 0.12252079334612924,
      "grad_norm": 2.2976701259613037,
      "learning_rate": 5e-07,
      "loss": 0.2902,
      "step": 766
    },
    {
      "epoch": 0.122680742162508,
      "grad_norm": 3.305284023284912,
      "learning_rate": 5e-07,
      "loss": 0.289,
      "step": 767
    },
    {
      "epoch": 0.12284069097888675,
      "grad_norm": 2.362365961074829,
      "learning_rate": 5e-07,
      "loss": 0.2878,
      "step": 768
    },
    {
      "epoch": 0.12300063979526552,
      "grad_norm": 2.2981152534484863,
      "learning_rate": 5e-07,
      "loss": 0.2887,
      "step": 769
    },
    {
      "epoch": 0.12316058861164428,
      "grad_norm": 2.084822177886963,
      "learning_rate": 5e-07,
      "loss": 0.29,
      "step": 770
    },
    {
      "epoch": 0.12332053742802303,
      "grad_norm": 2.312007188796997,
      "learning_rate": 5e-07,
      "loss": 0.2887,
      "step": 771
    },
    {
      "epoch": 0.12348048624440179,
      "grad_norm": 2.442906379699707,
      "learning_rate": 5e-07,
      "loss": 0.2921,
      "step": 772
    },
    {
      "epoch": 0.12364043506078055,
      "grad_norm": 2.0632565021514893,
      "learning_rate": 5e-07,
      "loss": 0.2879,
      "step": 773
    },
    {
      "epoch": 0.1238003838771593,
      "grad_norm": 2.5304291248321533,
      "learning_rate": 5e-07,
      "loss": 0.2909,
      "step": 774
    },
    {
      "epoch": 0.12396033269353807,
      "grad_norm": 3.164818286895752,
      "learning_rate": 5e-07,
      "loss": 0.2928,
      "step": 775
    },
    {
      "epoch": 0.12412028150991683,
      "grad_norm": 2.226083517074585,
      "learning_rate": 5e-07,
      "loss": 0.2844,
      "step": 776
    },
    {
      "epoch": 0.12428023032629558,
      "grad_norm": 2.2824063301086426,
      "learning_rate": 5e-07,
      "loss": 0.2935,
      "step": 777
    },
    {
      "epoch": 0.12444017914267434,
      "grad_norm": 2.362271785736084,
      "learning_rate": 5e-07,
      "loss": 0.285,
      "step": 778
    },
    {
      "epoch": 0.1246001279590531,
      "grad_norm": 2.3398802280426025,
      "learning_rate": 5e-07,
      "loss": 0.2879,
      "step": 779
    },
    {
      "epoch": 0.12476007677543186,
      "grad_norm": 2.432457447052002,
      "learning_rate": 5e-07,
      "loss": 0.2899,
      "step": 780
    },
    {
      "epoch": 0.12492002559181062,
      "grad_norm": 2.023766279220581,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 781
    },
    {
      "epoch": 0.12507997440818938,
      "grad_norm": 2.540433645248413,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 782
    },
    {
      "epoch": 0.12523992322456814,
      "grad_norm": 2.454549551010132,
      "learning_rate": 5e-07,
      "loss": 0.2887,
      "step": 783
    },
    {
      "epoch": 0.1253998720409469,
      "grad_norm": 2.380664587020874,
      "learning_rate": 5e-07,
      "loss": 0.2867,
      "step": 784
    },
    {
      "epoch": 0.12555982085732564,
      "grad_norm": 2.4377827644348145,
      "learning_rate": 5e-07,
      "loss": 0.2867,
      "step": 785
    },
    {
      "epoch": 0.1257197696737044,
      "grad_norm": 2.425447463989258,
      "learning_rate": 5e-07,
      "loss": 0.2927,
      "step": 786
    },
    {
      "epoch": 0.12587971849008317,
      "grad_norm": 2.4903910160064697,
      "learning_rate": 5e-07,
      "loss": 0.2935,
      "step": 787
    },
    {
      "epoch": 0.12603966730646193,
      "grad_norm": 2.208796977996826,
      "learning_rate": 5e-07,
      "loss": 0.2848,
      "step": 788
    },
    {
      "epoch": 0.1261996161228407,
      "grad_norm": 2.1949288845062256,
      "learning_rate": 5e-07,
      "loss": 0.2904,
      "step": 789
    },
    {
      "epoch": 0.12635956493921946,
      "grad_norm": 1.9043128490447998,
      "learning_rate": 5e-07,
      "loss": 0.2867,
      "step": 790
    },
    {
      "epoch": 0.1265195137555982,
      "grad_norm": 2.147242307662964,
      "learning_rate": 5e-07,
      "loss": 0.2854,
      "step": 791
    },
    {
      "epoch": 0.12667946257197696,
      "grad_norm": 2.2930243015289307,
      "learning_rate": 5e-07,
      "loss": 0.2878,
      "step": 792
    },
    {
      "epoch": 0.12683941138835572,
      "grad_norm": 2.1402766704559326,
      "learning_rate": 5e-07,
      "loss": 0.286,
      "step": 793
    },
    {
      "epoch": 0.12699936020473448,
      "grad_norm": 2.312798023223877,
      "learning_rate": 5e-07,
      "loss": 0.2866,
      "step": 794
    },
    {
      "epoch": 0.12715930902111325,
      "grad_norm": 2.394354820251465,
      "learning_rate": 5e-07,
      "loss": 0.2915,
      "step": 795
    },
    {
      "epoch": 0.127319257837492,
      "grad_norm": 2.2150654792785645,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 796
    },
    {
      "epoch": 0.12747920665387077,
      "grad_norm": 2.3086040019989014,
      "learning_rate": 5e-07,
      "loss": 0.2904,
      "step": 797
    },
    {
      "epoch": 0.1276391554702495,
      "grad_norm": 2.315091848373413,
      "learning_rate": 5e-07,
      "loss": 0.2939,
      "step": 798
    },
    {
      "epoch": 0.12779910428662827,
      "grad_norm": 2.0894763469696045,
      "learning_rate": 5e-07,
      "loss": 0.2881,
      "step": 799
    },
    {
      "epoch": 0.12795905310300704,
      "grad_norm": 2.032816171646118,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 800
    },
    {
      "epoch": 0.1281190019193858,
      "grad_norm": 2.337707042694092,
      "learning_rate": 5e-07,
      "loss": 0.2851,
      "step": 801
    },
    {
      "epoch": 0.12827895073576456,
      "grad_norm": 1.9623011350631714,
      "learning_rate": 5e-07,
      "loss": 0.2912,
      "step": 802
    },
    {
      "epoch": 0.12843889955214333,
      "grad_norm": 1.909118890762329,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 803
    },
    {
      "epoch": 0.12859884836852206,
      "grad_norm": 2.1129322052001953,
      "learning_rate": 5e-07,
      "loss": 0.2913,
      "step": 804
    },
    {
      "epoch": 0.12875879718490083,
      "grad_norm": 2.109769344329834,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 805
    },
    {
      "epoch": 0.1289187460012796,
      "grad_norm": 2.046140193939209,
      "learning_rate": 5e-07,
      "loss": 0.2886,
      "step": 806
    },
    {
      "epoch": 0.12907869481765835,
      "grad_norm": 1.981803059577942,
      "learning_rate": 5e-07,
      "loss": 0.288,
      "step": 807
    },
    {
      "epoch": 0.12923864363403711,
      "grad_norm": 2.453352928161621,
      "learning_rate": 5e-07,
      "loss": 0.2885,
      "step": 808
    },
    {
      "epoch": 0.12939859245041588,
      "grad_norm": 2.322143077850342,
      "learning_rate": 5e-07,
      "loss": 0.2877,
      "step": 809
    },
    {
      "epoch": 0.1295585412667946,
      "grad_norm": 2.269240617752075,
      "learning_rate": 5e-07,
      "loss": 0.2859,
      "step": 810
    },
    {
      "epoch": 0.12971849008317338,
      "grad_norm": 2.537752628326416,
      "learning_rate": 5e-07,
      "loss": 0.2898,
      "step": 811
    },
    {
      "epoch": 0.12987843889955214,
      "grad_norm": 2.5842158794403076,
      "learning_rate": 5e-07,
      "loss": 0.2863,
      "step": 812
    },
    {
      "epoch": 0.1300383877159309,
      "grad_norm": 2.196384906768799,
      "learning_rate": 5e-07,
      "loss": 0.2885,
      "step": 813
    },
    {
      "epoch": 0.13019833653230967,
      "grad_norm": 2.362445831298828,
      "learning_rate": 5e-07,
      "loss": 0.29,
      "step": 814
    },
    {
      "epoch": 0.13035828534868843,
      "grad_norm": 2.2541956901550293,
      "learning_rate": 5e-07,
      "loss": 0.2894,
      "step": 815
    },
    {
      "epoch": 0.13051823416506717,
      "grad_norm": 2.3793601989746094,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 816
    },
    {
      "epoch": 0.13067818298144593,
      "grad_norm": 2.046945095062256,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 817
    },
    {
      "epoch": 0.1308381317978247,
      "grad_norm": 2.2271761894226074,
      "learning_rate": 5e-07,
      "loss": 0.2896,
      "step": 818
    },
    {
      "epoch": 0.13099808061420345,
      "grad_norm": 3.112032175064087,
      "learning_rate": 5e-07,
      "loss": 0.284,
      "step": 819
    },
    {
      "epoch": 0.13115802943058222,
      "grad_norm": 2.161010503768921,
      "learning_rate": 5e-07,
      "loss": 0.288,
      "step": 820
    },
    {
      "epoch": 0.13131797824696098,
      "grad_norm": 2.1570682525634766,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 821
    },
    {
      "epoch": 0.13147792706333974,
      "grad_norm": 2.5290307998657227,
      "learning_rate": 5e-07,
      "loss": 0.2856,
      "step": 822
    },
    {
      "epoch": 0.13163787587971848,
      "grad_norm": 2.254000425338745,
      "learning_rate": 5e-07,
      "loss": 0.288,
      "step": 823
    },
    {
      "epoch": 0.13179782469609724,
      "grad_norm": 2.536482095718384,
      "learning_rate": 5e-07,
      "loss": 0.2939,
      "step": 824
    },
    {
      "epoch": 0.131957773512476,
      "grad_norm": 2.0605525970458984,
      "learning_rate": 5e-07,
      "loss": 0.2885,
      "step": 825
    },
    {
      "epoch": 0.13211772232885477,
      "grad_norm": 2.4083504676818848,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 826
    },
    {
      "epoch": 0.13227767114523353,
      "grad_norm": 2.112175941467285,
      "learning_rate": 5e-07,
      "loss": 0.2863,
      "step": 827
    },
    {
      "epoch": 0.1324376199616123,
      "grad_norm": 2.7569408416748047,
      "learning_rate": 5e-07,
      "loss": 0.2877,
      "step": 828
    },
    {
      "epoch": 0.13259756877799103,
      "grad_norm": 2.0979506969451904,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 829
    },
    {
      "epoch": 0.1327575175943698,
      "grad_norm": 2.302370071411133,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 830
    },
    {
      "epoch": 0.13291746641074856,
      "grad_norm": 2.2017993927001953,
      "learning_rate": 5e-07,
      "loss": 0.283,
      "step": 831
    },
    {
      "epoch": 0.13307741522712732,
      "grad_norm": 2.4054861068725586,
      "learning_rate": 5e-07,
      "loss": 0.289,
      "step": 832
    },
    {
      "epoch": 0.13323736404350608,
      "grad_norm": 2.291158676147461,
      "learning_rate": 5e-07,
      "loss": 0.2868,
      "step": 833
    },
    {
      "epoch": 0.13339731285988485,
      "grad_norm": 2.5322868824005127,
      "learning_rate": 5e-07,
      "loss": 0.2859,
      "step": 834
    },
    {
      "epoch": 0.13355726167626358,
      "grad_norm": 3.840153694152832,
      "learning_rate": 5e-07,
      "loss": 0.2865,
      "step": 835
    },
    {
      "epoch": 0.13371721049264235,
      "grad_norm": 2.131769895553589,
      "learning_rate": 5e-07,
      "loss": 0.289,
      "step": 836
    },
    {
      "epoch": 0.1338771593090211,
      "grad_norm": 2.1190450191497803,
      "learning_rate": 5e-07,
      "loss": 0.2877,
      "step": 837
    },
    {
      "epoch": 0.13403710812539987,
      "grad_norm": 2.4917800426483154,
      "learning_rate": 5e-07,
      "loss": 0.2932,
      "step": 838
    },
    {
      "epoch": 0.13419705694177864,
      "grad_norm": 2.024273633956909,
      "learning_rate": 5e-07,
      "loss": 0.2857,
      "step": 839
    },
    {
      "epoch": 0.1343570057581574,
      "grad_norm": 2.2119126319885254,
      "learning_rate": 5e-07,
      "loss": 0.2878,
      "step": 840
    },
    {
      "epoch": 0.13451695457453614,
      "grad_norm": 2.022425651550293,
      "learning_rate": 5e-07,
      "loss": 0.2849,
      "step": 841
    },
    {
      "epoch": 0.1346769033909149,
      "grad_norm": 2.165745496749878,
      "learning_rate": 5e-07,
      "loss": 0.2863,
      "step": 842
    },
    {
      "epoch": 0.13483685220729366,
      "grad_norm": 2.3421342372894287,
      "learning_rate": 5e-07,
      "loss": 0.2849,
      "step": 843
    },
    {
      "epoch": 0.13499680102367242,
      "grad_norm": 2.509493827819824,
      "learning_rate": 5e-07,
      "loss": 0.2921,
      "step": 844
    },
    {
      "epoch": 0.1351567498400512,
      "grad_norm": 2.445225477218628,
      "learning_rate": 5e-07,
      "loss": 0.2885,
      "step": 845
    },
    {
      "epoch": 0.13531669865642995,
      "grad_norm": 2.5020673274993896,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 846
    },
    {
      "epoch": 0.13547664747280871,
      "grad_norm": 3.176396608352661,
      "learning_rate": 5e-07,
      "loss": 0.2919,
      "step": 847
    },
    {
      "epoch": 0.13563659628918745,
      "grad_norm": 2.2096755504608154,
      "learning_rate": 5e-07,
      "loss": 0.285,
      "step": 848
    },
    {
      "epoch": 0.1357965451055662,
      "grad_norm": 2.813411235809326,
      "learning_rate": 5e-07,
      "loss": 0.2881,
      "step": 849
    },
    {
      "epoch": 0.13595649392194498,
      "grad_norm": 2.585411310195923,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 850
    },
    {
      "epoch": 0.13611644273832374,
      "grad_norm": 2.2846665382385254,
      "learning_rate": 5e-07,
      "loss": 0.2864,
      "step": 851
    },
    {
      "epoch": 0.1362763915547025,
      "grad_norm": 2.258723258972168,
      "learning_rate": 5e-07,
      "loss": 0.2855,
      "step": 852
    },
    {
      "epoch": 0.13643634037108127,
      "grad_norm": 2.220062732696533,
      "learning_rate": 5e-07,
      "loss": 0.2894,
      "step": 853
    },
    {
      "epoch": 0.13659628918746,
      "grad_norm": 2.178428888320923,
      "learning_rate": 5e-07,
      "loss": 0.2886,
      "step": 854
    },
    {
      "epoch": 0.13675623800383876,
      "grad_norm": 2.3317105770111084,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 855
    },
    {
      "epoch": 0.13691618682021753,
      "grad_norm": 2.2067787647247314,
      "learning_rate": 5e-07,
      "loss": 0.2898,
      "step": 856
    },
    {
      "epoch": 0.1370761356365963,
      "grad_norm": 2.0226705074310303,
      "learning_rate": 5e-07,
      "loss": 0.2824,
      "step": 857
    },
    {
      "epoch": 0.13723608445297505,
      "grad_norm": 1.9526798725128174,
      "learning_rate": 5e-07,
      "loss": 0.2873,
      "step": 858
    },
    {
      "epoch": 0.13739603326935382,
      "grad_norm": 2.1082048416137695,
      "learning_rate": 5e-07,
      "loss": 0.286,
      "step": 859
    },
    {
      "epoch": 0.13755598208573255,
      "grad_norm": 2.2957944869995117,
      "learning_rate": 5e-07,
      "loss": 0.2861,
      "step": 860
    },
    {
      "epoch": 0.13771593090211132,
      "grad_norm": 2.0484814643859863,
      "learning_rate": 5e-07,
      "loss": 0.2822,
      "step": 861
    },
    {
      "epoch": 0.13787587971849008,
      "grad_norm": 2.3938944339752197,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 862
    },
    {
      "epoch": 0.13803582853486884,
      "grad_norm": 2.890296459197998,
      "learning_rate": 5e-07,
      "loss": 0.2865,
      "step": 863
    },
    {
      "epoch": 0.1381957773512476,
      "grad_norm": 3.186800479888916,
      "learning_rate": 5e-07,
      "loss": 0.2904,
      "step": 864
    },
    {
      "epoch": 0.13835572616762637,
      "grad_norm": 2.474536418914795,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 865
    },
    {
      "epoch": 0.1385156749840051,
      "grad_norm": 2.2641119956970215,
      "learning_rate": 5e-07,
      "loss": 0.2924,
      "step": 866
    },
    {
      "epoch": 0.13867562380038387,
      "grad_norm": 2.264965534210205,
      "learning_rate": 5e-07,
      "loss": 0.2855,
      "step": 867
    },
    {
      "epoch": 0.13883557261676263,
      "grad_norm": 2.0280356407165527,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 868
    },
    {
      "epoch": 0.1389955214331414,
      "grad_norm": 2.1066126823425293,
      "learning_rate": 5e-07,
      "loss": 0.2825,
      "step": 869
    },
    {
      "epoch": 0.13915547024952016,
      "grad_norm": 2.0690412521362305,
      "learning_rate": 5e-07,
      "loss": 0.2871,
      "step": 870
    },
    {
      "epoch": 0.13931541906589892,
      "grad_norm": 2.1364498138427734,
      "learning_rate": 5e-07,
      "loss": 0.2866,
      "step": 871
    },
    {
      "epoch": 0.13947536788227768,
      "grad_norm": 2.0517899990081787,
      "learning_rate": 5e-07,
      "loss": 0.2854,
      "step": 872
    },
    {
      "epoch": 0.13963531669865642,
      "grad_norm": 2.0560190677642822,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 873
    },
    {
      "epoch": 0.13979526551503518,
      "grad_norm": 2.2454419136047363,
      "learning_rate": 5e-07,
      "loss": 0.2825,
      "step": 874
    },
    {
      "epoch": 0.13995521433141395,
      "grad_norm": 1.947559118270874,
      "learning_rate": 5e-07,
      "loss": 0.2843,
      "step": 875
    },
    {
      "epoch": 0.1401151631477927,
      "grad_norm": 2.3020477294921875,
      "learning_rate": 5e-07,
      "loss": 0.287,
      "step": 876
    },
    {
      "epoch": 0.14027511196417147,
      "grad_norm": 2.2434589862823486,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 877
    },
    {
      "epoch": 0.14043506078055024,
      "grad_norm": 2.346243143081665,
      "learning_rate": 5e-07,
      "loss": 0.283,
      "step": 878
    },
    {
      "epoch": 0.14059500959692897,
      "grad_norm": 2.4968578815460205,
      "learning_rate": 5e-07,
      "loss": 0.2872,
      "step": 879
    },
    {
      "epoch": 0.14075495841330773,
      "grad_norm": 2.264925479888916,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 880
    },
    {
      "epoch": 0.1409149072296865,
      "grad_norm": 2.3160834312438965,
      "learning_rate": 5e-07,
      "loss": 0.2848,
      "step": 881
    },
    {
      "epoch": 0.14107485604606526,
      "grad_norm": 1.9293601512908936,
      "learning_rate": 5e-07,
      "loss": 0.2851,
      "step": 882
    },
    {
      "epoch": 0.14123480486244402,
      "grad_norm": 2.014646291732788,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 883
    },
    {
      "epoch": 0.1413947536788228,
      "grad_norm": 2.1241140365600586,
      "learning_rate": 5e-07,
      "loss": 0.2883,
      "step": 884
    },
    {
      "epoch": 0.14155470249520152,
      "grad_norm": 2.7171897888183594,
      "learning_rate": 5e-07,
      "loss": 0.2877,
      "step": 885
    },
    {
      "epoch": 0.1417146513115803,
      "grad_norm": 2.0214083194732666,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 886
    },
    {
      "epoch": 0.14187460012795905,
      "grad_norm": 2.302591562271118,
      "learning_rate": 5e-07,
      "loss": 0.2878,
      "step": 887
    },
    {
      "epoch": 0.1420345489443378,
      "grad_norm": 2.0947744846343994,
      "learning_rate": 5e-07,
      "loss": 0.2879,
      "step": 888
    },
    {
      "epoch": 0.14219449776071658,
      "grad_norm": 2.1650216579437256,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 889
    },
    {
      "epoch": 0.14235444657709534,
      "grad_norm": 2.2955386638641357,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 890
    },
    {
      "epoch": 0.14251439539347407,
      "grad_norm": 2.3709919452667236,
      "learning_rate": 5e-07,
      "loss": 0.2843,
      "step": 891
    },
    {
      "epoch": 0.14267434420985284,
      "grad_norm": 2.71557879447937,
      "learning_rate": 5e-07,
      "loss": 0.2876,
      "step": 892
    },
    {
      "epoch": 0.1428342930262316,
      "grad_norm": 2.172563314437866,
      "learning_rate": 5e-07,
      "loss": 0.284,
      "step": 893
    },
    {
      "epoch": 0.14299424184261036,
      "grad_norm": 2.318800926208496,
      "learning_rate": 5e-07,
      "loss": 0.2821,
      "step": 894
    },
    {
      "epoch": 0.14315419065898913,
      "grad_norm": 2.371894121170044,
      "learning_rate": 5e-07,
      "loss": 0.2905,
      "step": 895
    },
    {
      "epoch": 0.1433141394753679,
      "grad_norm": 2.345533847808838,
      "learning_rate": 5e-07,
      "loss": 0.29,
      "step": 896
    },
    {
      "epoch": 0.14347408829174665,
      "grad_norm": 2.7295048236846924,
      "learning_rate": 5e-07,
      "loss": 0.2838,
      "step": 897
    },
    {
      "epoch": 0.1436340371081254,
      "grad_norm": 2.6620430946350098,
      "learning_rate": 5e-07,
      "loss": 0.2916,
      "step": 898
    },
    {
      "epoch": 0.14379398592450415,
      "grad_norm": 2.0456132888793945,
      "learning_rate": 5e-07,
      "loss": 0.2858,
      "step": 899
    },
    {
      "epoch": 0.14395393474088292,
      "grad_norm": 1.8028481006622314,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 900
    },
    {
      "epoch": 0.14411388355726168,
      "grad_norm": 2.294127941131592,
      "learning_rate": 5e-07,
      "loss": 0.2868,
      "step": 901
    },
    {
      "epoch": 0.14427383237364044,
      "grad_norm": 2.2371997833251953,
      "learning_rate": 5e-07,
      "loss": 0.2873,
      "step": 902
    },
    {
      "epoch": 0.1444337811900192,
      "grad_norm": 2.692798376083374,
      "learning_rate": 5e-07,
      "loss": 0.2845,
      "step": 903
    },
    {
      "epoch": 0.14459373000639794,
      "grad_norm": 2.149278163909912,
      "learning_rate": 5e-07,
      "loss": 0.2837,
      "step": 904
    },
    {
      "epoch": 0.1447536788227767,
      "grad_norm": 2.136861562728882,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 905
    },
    {
      "epoch": 0.14491362763915547,
      "grad_norm": 2.1974117755889893,
      "learning_rate": 5e-07,
      "loss": 0.2858,
      "step": 906
    },
    {
      "epoch": 0.14507357645553423,
      "grad_norm": 2.025660753250122,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 907
    },
    {
      "epoch": 0.145233525271913,
      "grad_norm": 2.327932596206665,
      "learning_rate": 5e-07,
      "loss": 0.2878,
      "step": 908
    },
    {
      "epoch": 0.14539347408829176,
      "grad_norm": 2.358452796936035,
      "learning_rate": 5e-07,
      "loss": 0.2856,
      "step": 909
    },
    {
      "epoch": 0.1455534229046705,
      "grad_norm": 2.5144309997558594,
      "learning_rate": 5e-07,
      "loss": 0.2875,
      "step": 910
    },
    {
      "epoch": 0.14571337172104926,
      "grad_norm": 2.262629985809326,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 911
    },
    {
      "epoch": 0.14587332053742802,
      "grad_norm": 2.192290782928467,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 912
    },
    {
      "epoch": 0.14603326935380678,
      "grad_norm": 2.1276278495788574,
      "learning_rate": 5e-07,
      "loss": 0.2855,
      "step": 913
    },
    {
      "epoch": 0.14619321817018555,
      "grad_norm": 2.050126552581787,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 914
    },
    {
      "epoch": 0.1463531669865643,
      "grad_norm": 2.0114057064056396,
      "learning_rate": 5e-07,
      "loss": 0.2849,
      "step": 915
    },
    {
      "epoch": 0.14651311580294304,
      "grad_norm": 2.1365787982940674,
      "learning_rate": 5e-07,
      "loss": 0.2877,
      "step": 916
    },
    {
      "epoch": 0.1466730646193218,
      "grad_norm": 2.4346652030944824,
      "learning_rate": 5e-07,
      "loss": 0.2857,
      "step": 917
    },
    {
      "epoch": 0.14683301343570057,
      "grad_norm": 2.0647871494293213,
      "learning_rate": 5e-07,
      "loss": 0.2861,
      "step": 918
    },
    {
      "epoch": 0.14699296225207933,
      "grad_norm": 2.166142225265503,
      "learning_rate": 5e-07,
      "loss": 0.2855,
      "step": 919
    },
    {
      "epoch": 0.1471529110684581,
      "grad_norm": 2.0217623710632324,
      "learning_rate": 5e-07,
      "loss": 0.2817,
      "step": 920
    },
    {
      "epoch": 0.14731285988483686,
      "grad_norm": 1.944722294807434,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 921
    },
    {
      "epoch": 0.14747280870121562,
      "grad_norm": 2.170616388320923,
      "learning_rate": 5e-07,
      "loss": 0.2868,
      "step": 922
    },
    {
      "epoch": 0.14763275751759436,
      "grad_norm": 2.189183235168457,
      "learning_rate": 5e-07,
      "loss": 0.2822,
      "step": 923
    },
    {
      "epoch": 0.14779270633397312,
      "grad_norm": 2.175652503967285,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 924
    },
    {
      "epoch": 0.14795265515035189,
      "grad_norm": 2.4282500743865967,
      "learning_rate": 5e-07,
      "loss": 0.2855,
      "step": 925
    },
    {
      "epoch": 0.14811260396673065,
      "grad_norm": 2.6664786338806152,
      "learning_rate": 5e-07,
      "loss": 0.2861,
      "step": 926
    },
    {
      "epoch": 0.1482725527831094,
      "grad_norm": 2.1469733715057373,
      "learning_rate": 5e-07,
      "loss": 0.2817,
      "step": 927
    },
    {
      "epoch": 0.14843250159948818,
      "grad_norm": 2.219787359237671,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 928
    },
    {
      "epoch": 0.1485924504158669,
      "grad_norm": 2.3658111095428467,
      "learning_rate": 5e-07,
      "loss": 0.2869,
      "step": 929
    },
    {
      "epoch": 0.14875239923224567,
      "grad_norm": 2.1506834030151367,
      "learning_rate": 5e-07,
      "loss": 0.2841,
      "step": 930
    },
    {
      "epoch": 0.14891234804862444,
      "grad_norm": 2.145918846130371,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 931
    },
    {
      "epoch": 0.1490722968650032,
      "grad_norm": 1.8995954990386963,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 932
    },
    {
      "epoch": 0.14923224568138196,
      "grad_norm": 2.2692294120788574,
      "learning_rate": 5e-07,
      "loss": 0.2843,
      "step": 933
    },
    {
      "epoch": 0.14939219449776073,
      "grad_norm": 2.2226431369781494,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 934
    },
    {
      "epoch": 0.14955214331413946,
      "grad_norm": 2.29300856590271,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 935
    },
    {
      "epoch": 0.14971209213051823,
      "grad_norm": 1.9363332986831665,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 936
    },
    {
      "epoch": 0.149872040946897,
      "grad_norm": 2.4666600227355957,
      "learning_rate": 5e-07,
      "loss": 0.2842,
      "step": 937
    },
    {
      "epoch": 0.15003198976327575,
      "grad_norm": 2.115114688873291,
      "learning_rate": 5e-07,
      "loss": 0.2874,
      "step": 938
    },
    {
      "epoch": 0.15019193857965452,
      "grad_norm": 2.0842833518981934,
      "learning_rate": 5e-07,
      "loss": 0.2872,
      "step": 939
    },
    {
      "epoch": 0.15035188739603328,
      "grad_norm": 2.0446934700012207,
      "learning_rate": 5e-07,
      "loss": 0.287,
      "step": 940
    },
    {
      "epoch": 0.15051183621241201,
      "grad_norm": 1.9974682331085205,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 941
    },
    {
      "epoch": 0.15067178502879078,
      "grad_norm": 2.111598014831543,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 942
    },
    {
      "epoch": 0.15083173384516954,
      "grad_norm": 2.0500619411468506,
      "learning_rate": 5e-07,
      "loss": 0.2868,
      "step": 943
    },
    {
      "epoch": 0.1509916826615483,
      "grad_norm": 1.9938859939575195,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 944
    },
    {
      "epoch": 0.15115163147792707,
      "grad_norm": 2.0228919982910156,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 945
    },
    {
      "epoch": 0.15131158029430583,
      "grad_norm": 2.2004892826080322,
      "learning_rate": 5e-07,
      "loss": 0.2873,
      "step": 946
    },
    {
      "epoch": 0.1514715291106846,
      "grad_norm": 2.168684959411621,
      "learning_rate": 5e-07,
      "loss": 0.2818,
      "step": 947
    },
    {
      "epoch": 0.15163147792706333,
      "grad_norm": 2.4007387161254883,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 948
    },
    {
      "epoch": 0.1517914267434421,
      "grad_norm": 2.263861656188965,
      "learning_rate": 5e-07,
      "loss": 0.2846,
      "step": 949
    },
    {
      "epoch": 0.15195137555982086,
      "grad_norm": 2.2669830322265625,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 950
    },
    {
      "epoch": 0.15211132437619962,
      "grad_norm": 2.193504571914673,
      "learning_rate": 5e-07,
      "loss": 0.2842,
      "step": 951
    },
    {
      "epoch": 0.15227127319257838,
      "grad_norm": 1.972203016281128,
      "learning_rate": 5e-07,
      "loss": 0.2796,
      "step": 952
    },
    {
      "epoch": 0.15243122200895715,
      "grad_norm": 2.137535810470581,
      "learning_rate": 5e-07,
      "loss": 0.2811,
      "step": 953
    },
    {
      "epoch": 0.15259117082533588,
      "grad_norm": 2.016143321990967,
      "learning_rate": 5e-07,
      "loss": 0.2808,
      "step": 954
    },
    {
      "epoch": 0.15275111964171464,
      "grad_norm": 2.164206027984619,
      "learning_rate": 5e-07,
      "loss": 0.2856,
      "step": 955
    },
    {
      "epoch": 0.1529110684580934,
      "grad_norm": 2.143383264541626,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 956
    },
    {
      "epoch": 0.15307101727447217,
      "grad_norm": 2.0277764797210693,
      "learning_rate": 5e-07,
      "loss": 0.2832,
      "step": 957
    },
    {
      "epoch": 0.15323096609085093,
      "grad_norm": 2.107137441635132,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 958
    },
    {
      "epoch": 0.1533909149072297,
      "grad_norm": 2.241518259048462,
      "learning_rate": 5e-07,
      "loss": 0.2844,
      "step": 959
    },
    {
      "epoch": 0.15355086372360843,
      "grad_norm": 2.1030447483062744,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 960
    },
    {
      "epoch": 0.1537108125399872,
      "grad_norm": 2.0894975662231445,
      "learning_rate": 5e-07,
      "loss": 0.2801,
      "step": 961
    },
    {
      "epoch": 0.15387076135636596,
      "grad_norm": 2.0528969764709473,
      "learning_rate": 5e-07,
      "loss": 0.2873,
      "step": 962
    },
    {
      "epoch": 0.15403071017274472,
      "grad_norm": 2.418013334274292,
      "learning_rate": 5e-07,
      "loss": 0.284,
      "step": 963
    },
    {
      "epoch": 0.15419065898912349,
      "grad_norm": 2.0949177742004395,
      "learning_rate": 5e-07,
      "loss": 0.2825,
      "step": 964
    },
    {
      "epoch": 0.15435060780550225,
      "grad_norm": 2.534982919692993,
      "learning_rate": 5e-07,
      "loss": 0.2846,
      "step": 965
    },
    {
      "epoch": 0.15451055662188098,
      "grad_norm": 2.5447700023651123,
      "learning_rate": 5e-07,
      "loss": 0.2788,
      "step": 966
    },
    {
      "epoch": 0.15467050543825975,
      "grad_norm": 2.128469228744507,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 967
    },
    {
      "epoch": 0.1548304542546385,
      "grad_norm": 2.47912859916687,
      "learning_rate": 5e-07,
      "loss": 0.2869,
      "step": 968
    },
    {
      "epoch": 0.15499040307101727,
      "grad_norm": 2.490039825439453,
      "learning_rate": 5e-07,
      "loss": 0.284,
      "step": 969
    },
    {
      "epoch": 0.15515035188739604,
      "grad_norm": 2.6697113513946533,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 970
    },
    {
      "epoch": 0.1553103007037748,
      "grad_norm": 2.1055150032043457,
      "learning_rate": 5e-07,
      "loss": 0.2796,
      "step": 971
    },
    {
      "epoch": 0.15547024952015356,
      "grad_norm": 2.1619455814361572,
      "learning_rate": 5e-07,
      "loss": 0.2861,
      "step": 972
    },
    {
      "epoch": 0.1556301983365323,
      "grad_norm": 2.167290449142456,
      "learning_rate": 5e-07,
      "loss": 0.2832,
      "step": 973
    },
    {
      "epoch": 0.15579014715291106,
      "grad_norm": 2.290971279144287,
      "learning_rate": 5e-07,
      "loss": 0.2853,
      "step": 974
    },
    {
      "epoch": 0.15595009596928983,
      "grad_norm": 2.057548999786377,
      "learning_rate": 5e-07,
      "loss": 0.2853,
      "step": 975
    },
    {
      "epoch": 0.1561100447856686,
      "grad_norm": 2.1330745220184326,
      "learning_rate": 5e-07,
      "loss": 0.2827,
      "step": 976
    },
    {
      "epoch": 0.15626999360204735,
      "grad_norm": 2.0719408988952637,
      "learning_rate": 5e-07,
      "loss": 0.2846,
      "step": 977
    },
    {
      "epoch": 0.15642994241842612,
      "grad_norm": 1.8554903268814087,
      "learning_rate": 5e-07,
      "loss": 0.2842,
      "step": 978
    },
    {
      "epoch": 0.15658989123480485,
      "grad_norm": 2.012988805770874,
      "learning_rate": 5e-07,
      "loss": 0.2869,
      "step": 979
    },
    {
      "epoch": 0.15674984005118361,
      "grad_norm": 1.95858895778656,
      "learning_rate": 5e-07,
      "loss": 0.2841,
      "step": 980
    },
    {
      "epoch": 0.15690978886756238,
      "grad_norm": 2.0810883045196533,
      "learning_rate": 5e-07,
      "loss": 0.2856,
      "step": 981
    },
    {
      "epoch": 0.15706973768394114,
      "grad_norm": 2.3018219470977783,
      "learning_rate": 5e-07,
      "loss": 0.2882,
      "step": 982
    },
    {
      "epoch": 0.1572296865003199,
      "grad_norm": 2.0442886352539062,
      "learning_rate": 5e-07,
      "loss": 0.2828,
      "step": 983
    },
    {
      "epoch": 0.15738963531669867,
      "grad_norm": 2.007483959197998,
      "learning_rate": 5e-07,
      "loss": 0.2837,
      "step": 984
    },
    {
      "epoch": 0.1575495841330774,
      "grad_norm": 2.2245535850524902,
      "learning_rate": 5e-07,
      "loss": 0.2804,
      "step": 985
    },
    {
      "epoch": 0.15770953294945617,
      "grad_norm": 2.5161116123199463,
      "learning_rate": 5e-07,
      "loss": 0.2864,
      "step": 986
    },
    {
      "epoch": 0.15786948176583493,
      "grad_norm": 2.5670857429504395,
      "learning_rate": 5e-07,
      "loss": 0.2851,
      "step": 987
    },
    {
      "epoch": 0.1580294305822137,
      "grad_norm": 1.962586760520935,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 988
    },
    {
      "epoch": 0.15818937939859246,
      "grad_norm": 2.209223985671997,
      "learning_rate": 5e-07,
      "loss": 0.2849,
      "step": 989
    },
    {
      "epoch": 0.15834932821497122,
      "grad_norm": 2.1032183170318604,
      "learning_rate": 5e-07,
      "loss": 0.2824,
      "step": 990
    },
    {
      "epoch": 0.15850927703134995,
      "grad_norm": 2.116776943206787,
      "learning_rate": 5e-07,
      "loss": 0.2828,
      "step": 991
    },
    {
      "epoch": 0.15866922584772872,
      "grad_norm": 2.3876683712005615,
      "learning_rate": 5e-07,
      "loss": 0.2852,
      "step": 992
    },
    {
      "epoch": 0.15882917466410748,
      "grad_norm": 2.1136319637298584,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 993
    },
    {
      "epoch": 0.15898912348048624,
      "grad_norm": 2.1828136444091797,
      "learning_rate": 5e-07,
      "loss": 0.2789,
      "step": 994
    },
    {
      "epoch": 0.159149072296865,
      "grad_norm": 2.0937604904174805,
      "learning_rate": 5e-07,
      "loss": 0.2808,
      "step": 995
    },
    {
      "epoch": 0.15930902111324377,
      "grad_norm": 2.2318437099456787,
      "learning_rate": 5e-07,
      "loss": 0.2859,
      "step": 996
    },
    {
      "epoch": 0.15946896992962253,
      "grad_norm": 2.22709321975708,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 997
    },
    {
      "epoch": 0.15962891874600127,
      "grad_norm": 2.2539172172546387,
      "learning_rate": 5e-07,
      "loss": 0.2827,
      "step": 998
    },
    {
      "epoch": 0.15978886756238003,
      "grad_norm": 2.187100648880005,
      "learning_rate": 5e-07,
      "loss": 0.283,
      "step": 999
    },
    {
      "epoch": 0.1599488163787588,
      "grad_norm": 2.520738363265991,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 1000
    },
    {
      "epoch": 0.16010876519513756,
      "grad_norm": 1.8016867637634277,
      "learning_rate": 5e-07,
      "loss": 0.2804,
      "step": 1001
    },
    {
      "epoch": 0.16026871401151632,
      "grad_norm": 1.8751243352890015,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 1002
    },
    {
      "epoch": 0.16042866282789509,
      "grad_norm": 2.108745813369751,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 1003
    },
    {
      "epoch": 0.16058861164427382,
      "grad_norm": 2.019270658493042,
      "learning_rate": 5e-07,
      "loss": 0.2841,
      "step": 1004
    },
    {
      "epoch": 0.16074856046065258,
      "grad_norm": 2.2320706844329834,
      "learning_rate": 5e-07,
      "loss": 0.2814,
      "step": 1005
    },
    {
      "epoch": 0.16090850927703135,
      "grad_norm": 2.6414878368377686,
      "learning_rate": 5e-07,
      "loss": 0.2842,
      "step": 1006
    },
    {
      "epoch": 0.1610684580934101,
      "grad_norm": 1.9714926481246948,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1007
    },
    {
      "epoch": 0.16122840690978887,
      "grad_norm": 2.2601871490478516,
      "learning_rate": 5e-07,
      "loss": 0.2893,
      "step": 1008
    },
    {
      "epoch": 0.16138835572616764,
      "grad_norm": 2.0452511310577393,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1009
    },
    {
      "epoch": 0.16154830454254637,
      "grad_norm": 2.2059948444366455,
      "learning_rate": 5e-07,
      "loss": 0.2835,
      "step": 1010
    },
    {
      "epoch": 0.16170825335892514,
      "grad_norm": 2.216414213180542,
      "learning_rate": 5e-07,
      "loss": 0.2788,
      "step": 1011
    },
    {
      "epoch": 0.1618682021753039,
      "grad_norm": 2.0655901432037354,
      "learning_rate": 5e-07,
      "loss": 0.2821,
      "step": 1012
    },
    {
      "epoch": 0.16202815099168266,
      "grad_norm": 2.0393664836883545,
      "learning_rate": 5e-07,
      "loss": 0.2821,
      "step": 1013
    },
    {
      "epoch": 0.16218809980806143,
      "grad_norm": 2.2775187492370605,
      "learning_rate": 5e-07,
      "loss": 0.2838,
      "step": 1014
    },
    {
      "epoch": 0.1623480486244402,
      "grad_norm": 2.062669515609741,
      "learning_rate": 5e-07,
      "loss": 0.2798,
      "step": 1015
    },
    {
      "epoch": 0.16250799744081892,
      "grad_norm": 2.154078960418701,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1016
    },
    {
      "epoch": 0.1626679462571977,
      "grad_norm": 2.3647098541259766,
      "learning_rate": 5e-07,
      "loss": 0.2833,
      "step": 1017
    },
    {
      "epoch": 0.16282789507357645,
      "grad_norm": 2.016545057296753,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 1018
    },
    {
      "epoch": 0.16298784388995521,
      "grad_norm": 2.2044646739959717,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1019
    },
    {
      "epoch": 0.16314779270633398,
      "grad_norm": 2.06260347366333,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1020
    },
    {
      "epoch": 0.16330774152271274,
      "grad_norm": 2.134575128555298,
      "learning_rate": 5e-07,
      "loss": 0.2835,
      "step": 1021
    },
    {
      "epoch": 0.1634676903390915,
      "grad_norm": 2.2910778522491455,
      "learning_rate": 5e-07,
      "loss": 0.2799,
      "step": 1022
    },
    {
      "epoch": 0.16362763915547024,
      "grad_norm": 1.9763245582580566,
      "learning_rate": 5e-07,
      "loss": 0.2833,
      "step": 1023
    },
    {
      "epoch": 0.163787587971849,
      "grad_norm": 2.2950363159179688,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1024
    },
    {
      "epoch": 0.16394753678822777,
      "grad_norm": 2.007066011428833,
      "learning_rate": 5e-07,
      "loss": 0.2808,
      "step": 1025
    },
    {
      "epoch": 0.16410748560460653,
      "grad_norm": 2.35955548286438,
      "learning_rate": 5e-07,
      "loss": 0.281,
      "step": 1026
    },
    {
      "epoch": 0.1642674344209853,
      "grad_norm": 2.4434216022491455,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1027
    },
    {
      "epoch": 0.16442738323736406,
      "grad_norm": 2.204136371612549,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 1028
    },
    {
      "epoch": 0.1645873320537428,
      "grad_norm": 2.3050265312194824,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 1029
    },
    {
      "epoch": 0.16474728087012155,
      "grad_norm": 2.5445094108581543,
      "learning_rate": 5e-07,
      "loss": 0.2816,
      "step": 1030
    },
    {
      "epoch": 0.16490722968650032,
      "grad_norm": 2.2386770248413086,
      "learning_rate": 5e-07,
      "loss": 0.2807,
      "step": 1031
    },
    {
      "epoch": 0.16506717850287908,
      "grad_norm": 2.199892520904541,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1032
    },
    {
      "epoch": 0.16522712731925784,
      "grad_norm": 2.4726109504699707,
      "learning_rate": 5e-07,
      "loss": 0.2851,
      "step": 1033
    },
    {
      "epoch": 0.1653870761356366,
      "grad_norm": 2.2100777626037598,
      "learning_rate": 5e-07,
      "loss": 0.2873,
      "step": 1034
    },
    {
      "epoch": 0.16554702495201534,
      "grad_norm": 2.425795078277588,
      "learning_rate": 5e-07,
      "loss": 0.2816,
      "step": 1035
    },
    {
      "epoch": 0.1657069737683941,
      "grad_norm": 2.2773311138153076,
      "learning_rate": 5e-07,
      "loss": 0.2833,
      "step": 1036
    },
    {
      "epoch": 0.16586692258477287,
      "grad_norm": 2.0631844997406006,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 1037
    },
    {
      "epoch": 0.16602687140115163,
      "grad_norm": 2.063364028930664,
      "learning_rate": 5e-07,
      "loss": 0.2815,
      "step": 1038
    },
    {
      "epoch": 0.1661868202175304,
      "grad_norm": 2.213979721069336,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 1039
    },
    {
      "epoch": 0.16634676903390916,
      "grad_norm": 2.167617082595825,
      "learning_rate": 5e-07,
      "loss": 0.282,
      "step": 1040
    },
    {
      "epoch": 0.1665067178502879,
      "grad_norm": 2.169990062713623,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1041
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 2.3384037017822266,
      "learning_rate": 5e-07,
      "loss": 0.2827,
      "step": 1042
    },
    {
      "epoch": 0.16682661548304542,
      "grad_norm": 2.3404178619384766,
      "learning_rate": 5e-07,
      "loss": 0.2805,
      "step": 1043
    },
    {
      "epoch": 0.16698656429942418,
      "grad_norm": 2.618645191192627,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 1044
    },
    {
      "epoch": 0.16714651311580295,
      "grad_norm": 2.8406221866607666,
      "learning_rate": 5e-07,
      "loss": 0.2844,
      "step": 1045
    },
    {
      "epoch": 0.1673064619321817,
      "grad_norm": 3.065626382827759,
      "learning_rate": 5e-07,
      "loss": 0.2952,
      "step": 1046
    },
    {
      "epoch": 0.16746641074856047,
      "grad_norm": 2.2689359188079834,
      "learning_rate": 5e-07,
      "loss": 0.2847,
      "step": 1047
    },
    {
      "epoch": 0.1676263595649392,
      "grad_norm": 2.320646047592163,
      "learning_rate": 5e-07,
      "loss": 0.2802,
      "step": 1048
    },
    {
      "epoch": 0.16778630838131797,
      "grad_norm": 1.9656955003738403,
      "learning_rate": 5e-07,
      "loss": 0.2796,
      "step": 1049
    },
    {
      "epoch": 0.16794625719769674,
      "grad_norm": 2.011713981628418,
      "learning_rate": 5e-07,
      "loss": 0.2821,
      "step": 1050
    },
    {
      "epoch": 0.1681062060140755,
      "grad_norm": 2.0542829036712646,
      "learning_rate": 5e-07,
      "loss": 0.2799,
      "step": 1051
    },
    {
      "epoch": 0.16826615483045426,
      "grad_norm": 2.153005599975586,
      "learning_rate": 5e-07,
      "loss": 0.2786,
      "step": 1052
    },
    {
      "epoch": 0.16842610364683303,
      "grad_norm": 2.036761522293091,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1053
    },
    {
      "epoch": 0.16858605246321176,
      "grad_norm": 1.9815237522125244,
      "learning_rate": 5e-07,
      "loss": 0.2768,
      "step": 1054
    },
    {
      "epoch": 0.16874600127959052,
      "grad_norm": 2.1734800338745117,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 1055
    },
    {
      "epoch": 0.1689059500959693,
      "grad_norm": 2.242091655731201,
      "learning_rate": 5e-07,
      "loss": 0.2824,
      "step": 1056
    },
    {
      "epoch": 0.16906589891234805,
      "grad_norm": 2.5646963119506836,
      "learning_rate": 5e-07,
      "loss": 0.2832,
      "step": 1057
    },
    {
      "epoch": 0.1692258477287268,
      "grad_norm": 2.0095877647399902,
      "learning_rate": 5e-07,
      "loss": 0.2783,
      "step": 1058
    },
    {
      "epoch": 0.16938579654510558,
      "grad_norm": 2.1558358669281006,
      "learning_rate": 5e-07,
      "loss": 0.2805,
      "step": 1059
    },
    {
      "epoch": 0.1695457453614843,
      "grad_norm": 2.272195816040039,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1060
    },
    {
      "epoch": 0.16970569417786308,
      "grad_norm": 2.127931833267212,
      "learning_rate": 5e-07,
      "loss": 0.2786,
      "step": 1061
    },
    {
      "epoch": 0.16986564299424184,
      "grad_norm": 1.9822020530700684,
      "learning_rate": 5e-07,
      "loss": 0.2752,
      "step": 1062
    },
    {
      "epoch": 0.1700255918106206,
      "grad_norm": 2.5384814739227295,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1063
    },
    {
      "epoch": 0.17018554062699937,
      "grad_norm": 2.2740209102630615,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 1064
    },
    {
      "epoch": 0.17034548944337813,
      "grad_norm": 2.1107397079467773,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1065
    },
    {
      "epoch": 0.17050543825975686,
      "grad_norm": 2.2749881744384766,
      "learning_rate": 5e-07,
      "loss": 0.282,
      "step": 1066
    },
    {
      "epoch": 0.17066538707613563,
      "grad_norm": 2.261751174926758,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1067
    },
    {
      "epoch": 0.1708253358925144,
      "grad_norm": 2.1294844150543213,
      "learning_rate": 5e-07,
      "loss": 0.2796,
      "step": 1068
    },
    {
      "epoch": 0.17098528470889315,
      "grad_norm": 2.0514345169067383,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 1069
    },
    {
      "epoch": 0.17114523352527192,
      "grad_norm": 2.3235297203063965,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1070
    },
    {
      "epoch": 0.17130518234165068,
      "grad_norm": 1.9700993299484253,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 1071
    },
    {
      "epoch": 0.17146513115802944,
      "grad_norm": 2.1061205863952637,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1072
    },
    {
      "epoch": 0.17162507997440818,
      "grad_norm": 2.1497933864593506,
      "learning_rate": 5e-07,
      "loss": 0.2828,
      "step": 1073
    },
    {
      "epoch": 0.17178502879078694,
      "grad_norm": 2.5862717628479004,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1074
    },
    {
      "epoch": 0.1719449776071657,
      "grad_norm": 2.111243963241577,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1075
    },
    {
      "epoch": 0.17210492642354447,
      "grad_norm": 2.1236963272094727,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 1076
    },
    {
      "epoch": 0.17226487523992323,
      "grad_norm": 1.9526424407958984,
      "learning_rate": 5e-07,
      "loss": 0.2779,
      "step": 1077
    },
    {
      "epoch": 0.172424824056302,
      "grad_norm": 2.245537519454956,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1078
    },
    {
      "epoch": 0.17258477287268073,
      "grad_norm": 2.0815629959106445,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 1079
    },
    {
      "epoch": 0.1727447216890595,
      "grad_norm": 2.3462629318237305,
      "learning_rate": 5e-07,
      "loss": 0.2845,
      "step": 1080
    },
    {
      "epoch": 0.17290467050543826,
      "grad_norm": 2.338941812515259,
      "learning_rate": 5e-07,
      "loss": 0.2804,
      "step": 1081
    },
    {
      "epoch": 0.17306461932181702,
      "grad_norm": 2.161257743835449,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 1082
    },
    {
      "epoch": 0.17322456813819578,
      "grad_norm": 2.0860300064086914,
      "learning_rate": 5e-07,
      "loss": 0.2829,
      "step": 1083
    },
    {
      "epoch": 0.17338451695457455,
      "grad_norm": 2.2022933959960938,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1084
    },
    {
      "epoch": 0.17354446577095328,
      "grad_norm": 2.263197183609009,
      "learning_rate": 5e-07,
      "loss": 0.2822,
      "step": 1085
    },
    {
      "epoch": 0.17370441458733205,
      "grad_norm": 2.228515625,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1086
    },
    {
      "epoch": 0.1738643634037108,
      "grad_norm": 1.988722562789917,
      "learning_rate": 5e-07,
      "loss": 0.2795,
      "step": 1087
    },
    {
      "epoch": 0.17402431222008957,
      "grad_norm": 2.2034592628479004,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 1088
    },
    {
      "epoch": 0.17418426103646834,
      "grad_norm": 2.4103853702545166,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1089
    },
    {
      "epoch": 0.1743442098528471,
      "grad_norm": 2.1691718101501465,
      "learning_rate": 5e-07,
      "loss": 0.2798,
      "step": 1090
    },
    {
      "epoch": 0.17450415866922583,
      "grad_norm": 1.9529426097869873,
      "learning_rate": 5e-07,
      "loss": 0.2848,
      "step": 1091
    },
    {
      "epoch": 0.1746641074856046,
      "grad_norm": 2.16914963722229,
      "learning_rate": 5e-07,
      "loss": 0.2811,
      "step": 1092
    },
    {
      "epoch": 0.17482405630198336,
      "grad_norm": 2.5284993648529053,
      "learning_rate": 5e-07,
      "loss": 0.2862,
      "step": 1093
    },
    {
      "epoch": 0.17498400511836212,
      "grad_norm": 2.244147300720215,
      "learning_rate": 5e-07,
      "loss": 0.2776,
      "step": 1094
    },
    {
      "epoch": 0.1751439539347409,
      "grad_norm": 2.1633214950561523,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1095
    },
    {
      "epoch": 0.17530390275111965,
      "grad_norm": 2.002614736557007,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1096
    },
    {
      "epoch": 0.1754638515674984,
      "grad_norm": 1.9707372188568115,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1097
    },
    {
      "epoch": 0.17562380038387715,
      "grad_norm": 2.1209521293640137,
      "learning_rate": 5e-07,
      "loss": 0.2784,
      "step": 1098
    },
    {
      "epoch": 0.1757837492002559,
      "grad_norm": 2.1234054565429688,
      "learning_rate": 5e-07,
      "loss": 0.2782,
      "step": 1099
    },
    {
      "epoch": 0.17594369801663468,
      "grad_norm": 2.2864999771118164,
      "learning_rate": 5e-07,
      "loss": 0.2801,
      "step": 1100
    },
    {
      "epoch": 0.17610364683301344,
      "grad_norm": 2.3650357723236084,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1101
    },
    {
      "epoch": 0.1762635956493922,
      "grad_norm": 2.8670549392700195,
      "learning_rate": 5e-07,
      "loss": 0.281,
      "step": 1102
    },
    {
      "epoch": 0.17642354446577097,
      "grad_norm": 2.745161533355713,
      "learning_rate": 5e-07,
      "loss": 0.282,
      "step": 1103
    },
    {
      "epoch": 0.1765834932821497,
      "grad_norm": 2.4640748500823975,
      "learning_rate": 5e-07,
      "loss": 0.2786,
      "step": 1104
    },
    {
      "epoch": 0.17674344209852846,
      "grad_norm": 2.2681522369384766,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1105
    },
    {
      "epoch": 0.17690339091490723,
      "grad_norm": 2.1836202144622803,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1106
    },
    {
      "epoch": 0.177063339731286,
      "grad_norm": 2.1823017597198486,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1107
    },
    {
      "epoch": 0.17722328854766475,
      "grad_norm": 2.288724184036255,
      "learning_rate": 5e-07,
      "loss": 0.2795,
      "step": 1108
    },
    {
      "epoch": 0.17738323736404352,
      "grad_norm": 2.1370599269866943,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1109
    },
    {
      "epoch": 0.17754318618042225,
      "grad_norm": 2.0750553607940674,
      "learning_rate": 5e-07,
      "loss": 0.2782,
      "step": 1110
    },
    {
      "epoch": 0.17770313499680102,
      "grad_norm": 2.119169235229492,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1111
    },
    {
      "epoch": 0.17786308381317978,
      "grad_norm": 1.951507806777954,
      "learning_rate": 5e-07,
      "loss": 0.2789,
      "step": 1112
    },
    {
      "epoch": 0.17802303262955854,
      "grad_norm": 2.1265242099761963,
      "learning_rate": 5e-07,
      "loss": 0.278,
      "step": 1113
    },
    {
      "epoch": 0.1781829814459373,
      "grad_norm": 2.2813515663146973,
      "learning_rate": 5e-07,
      "loss": 0.2835,
      "step": 1114
    },
    {
      "epoch": 0.17834293026231607,
      "grad_norm": 2.2619528770446777,
      "learning_rate": 5e-07,
      "loss": 0.2834,
      "step": 1115
    },
    {
      "epoch": 0.1785028790786948,
      "grad_norm": 2.276538133621216,
      "learning_rate": 5e-07,
      "loss": 0.2835,
      "step": 1116
    },
    {
      "epoch": 0.17866282789507357,
      "grad_norm": 2.319350242614746,
      "learning_rate": 5e-07,
      "loss": 0.2825,
      "step": 1117
    },
    {
      "epoch": 0.17882277671145233,
      "grad_norm": 2.280404567718506,
      "learning_rate": 5e-07,
      "loss": 0.2792,
      "step": 1118
    },
    {
      "epoch": 0.1789827255278311,
      "grad_norm": 2.4490246772766113,
      "learning_rate": 5e-07,
      "loss": 0.2856,
      "step": 1119
    },
    {
      "epoch": 0.17914267434420986,
      "grad_norm": 2.0542731285095215,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 1120
    },
    {
      "epoch": 0.17930262316058862,
      "grad_norm": 2.007744312286377,
      "learning_rate": 5e-07,
      "loss": 0.2837,
      "step": 1121
    },
    {
      "epoch": 0.17946257197696738,
      "grad_norm": 1.9910547733306885,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1122
    },
    {
      "epoch": 0.17962252079334612,
      "grad_norm": 1.9149301052093506,
      "learning_rate": 5e-07,
      "loss": 0.2784,
      "step": 1123
    },
    {
      "epoch": 0.17978246960972488,
      "grad_norm": 1.9227123260498047,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1124
    },
    {
      "epoch": 0.17994241842610365,
      "grad_norm": 2.076314687728882,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1125
    },
    {
      "epoch": 0.1801023672424824,
      "grad_norm": 1.9494738578796387,
      "learning_rate": 5e-07,
      "loss": 0.2804,
      "step": 1126
    },
    {
      "epoch": 0.18026231605886117,
      "grad_norm": 1.990785002708435,
      "learning_rate": 5e-07,
      "loss": 0.2783,
      "step": 1127
    },
    {
      "epoch": 0.18042226487523993,
      "grad_norm": 2.1941897869110107,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 1128
    },
    {
      "epoch": 0.18058221369161867,
      "grad_norm": 2.2687268257141113,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1129
    },
    {
      "epoch": 0.18074216250799743,
      "grad_norm": 1.8774521350860596,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1130
    },
    {
      "epoch": 0.1809021113243762,
      "grad_norm": 2.0584371089935303,
      "learning_rate": 5e-07,
      "loss": 0.2757,
      "step": 1131
    },
    {
      "epoch": 0.18106206014075496,
      "grad_norm": 2.5238900184631348,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1132
    },
    {
      "epoch": 0.18122200895713372,
      "grad_norm": 2.270035982131958,
      "learning_rate": 5e-07,
      "loss": 0.2839,
      "step": 1133
    },
    {
      "epoch": 0.1813819577735125,
      "grad_norm": 2.2409112453460693,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1134
    },
    {
      "epoch": 0.18154190658989122,
      "grad_norm": 2.075080394744873,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 1135
    },
    {
      "epoch": 0.18170185540626999,
      "grad_norm": 2.1264376640319824,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1136
    },
    {
      "epoch": 0.18186180422264875,
      "grad_norm": 2.1336159706115723,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1137
    },
    {
      "epoch": 0.1820217530390275,
      "grad_norm": 1.9770327806472778,
      "learning_rate": 5e-07,
      "loss": 0.2823,
      "step": 1138
    },
    {
      "epoch": 0.18218170185540628,
      "grad_norm": 2.085400342941284,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1139
    },
    {
      "epoch": 0.18234165067178504,
      "grad_norm": 2.037381410598755,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1140
    },
    {
      "epoch": 0.18250159948816377,
      "grad_norm": 2.442274570465088,
      "learning_rate": 5e-07,
      "loss": 0.2821,
      "step": 1141
    },
    {
      "epoch": 0.18266154830454254,
      "grad_norm": 2.0435874462127686,
      "learning_rate": 5e-07,
      "loss": 0.2769,
      "step": 1142
    },
    {
      "epoch": 0.1828214971209213,
      "grad_norm": 1.9895685911178589,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1143
    },
    {
      "epoch": 0.18298144593730006,
      "grad_norm": 2.0693578720092773,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1144
    },
    {
      "epoch": 0.18314139475367883,
      "grad_norm": 1.941757321357727,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1145
    },
    {
      "epoch": 0.1833013435700576,
      "grad_norm": 2.312563419342041,
      "learning_rate": 5e-07,
      "loss": 0.2828,
      "step": 1146
    },
    {
      "epoch": 0.18346129238643635,
      "grad_norm": 2.1168782711029053,
      "learning_rate": 5e-07,
      "loss": 0.2789,
      "step": 1147
    },
    {
      "epoch": 0.1836212412028151,
      "grad_norm": 2.0361406803131104,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1148
    },
    {
      "epoch": 0.18378119001919385,
      "grad_norm": 2.454634428024292,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 1149
    },
    {
      "epoch": 0.18394113883557262,
      "grad_norm": 2.1009161472320557,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 1150
    },
    {
      "epoch": 0.18410108765195138,
      "grad_norm": 2.3228096961975098,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1151
    },
    {
      "epoch": 0.18426103646833014,
      "grad_norm": 2.1882293224334717,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1152
    },
    {
      "epoch": 0.1844209852847089,
      "grad_norm": 2.1636457443237305,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 1153
    },
    {
      "epoch": 0.18458093410108764,
      "grad_norm": 2.0522801876068115,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1154
    },
    {
      "epoch": 0.1847408829174664,
      "grad_norm": 2.1020326614379883,
      "learning_rate": 5e-07,
      "loss": 0.283,
      "step": 1155
    },
    {
      "epoch": 0.18490083173384517,
      "grad_norm": 2.320998430252075,
      "learning_rate": 5e-07,
      "loss": 0.2814,
      "step": 1156
    },
    {
      "epoch": 0.18506078055022393,
      "grad_norm": 2.023892879486084,
      "learning_rate": 5e-07,
      "loss": 0.2807,
      "step": 1157
    },
    {
      "epoch": 0.1852207293666027,
      "grad_norm": 1.8456511497497559,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1158
    },
    {
      "epoch": 0.18538067818298146,
      "grad_norm": 2.103024482727051,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1159
    },
    {
      "epoch": 0.1855406269993602,
      "grad_norm": 2.081080436706543,
      "learning_rate": 5e-07,
      "loss": 0.2784,
      "step": 1160
    },
    {
      "epoch": 0.18570057581573896,
      "grad_norm": 2.1704013347625732,
      "learning_rate": 5e-07,
      "loss": 0.2818,
      "step": 1161
    },
    {
      "epoch": 0.18586052463211772,
      "grad_norm": 2.299403190612793,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 1162
    },
    {
      "epoch": 0.18602047344849648,
      "grad_norm": 2.2365236282348633,
      "learning_rate": 5e-07,
      "loss": 0.281,
      "step": 1163
    },
    {
      "epoch": 0.18618042226487524,
      "grad_norm": 2.064819097518921,
      "learning_rate": 5e-07,
      "loss": 0.275,
      "step": 1164
    },
    {
      "epoch": 0.186340371081254,
      "grad_norm": 2.0887019634246826,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1165
    },
    {
      "epoch": 0.18650031989763274,
      "grad_norm": 2.256978750228882,
      "learning_rate": 5e-07,
      "loss": 0.2768,
      "step": 1166
    },
    {
      "epoch": 0.1866602687140115,
      "grad_norm": 2.162107229232788,
      "learning_rate": 5e-07,
      "loss": 0.2746,
      "step": 1167
    },
    {
      "epoch": 0.18682021753039027,
      "grad_norm": 2.034467935562134,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1168
    },
    {
      "epoch": 0.18698016634676903,
      "grad_norm": 2.1535959243774414,
      "learning_rate": 5e-07,
      "loss": 0.2777,
      "step": 1169
    },
    {
      "epoch": 0.1871401151631478,
      "grad_norm": 2.272524356842041,
      "learning_rate": 5e-07,
      "loss": 0.2826,
      "step": 1170
    },
    {
      "epoch": 0.18730006397952656,
      "grad_norm": 2.518937826156616,
      "learning_rate": 5e-07,
      "loss": 0.2819,
      "step": 1171
    },
    {
      "epoch": 0.18746001279590532,
      "grad_norm": 3.1497676372528076,
      "learning_rate": 5e-07,
      "loss": 0.288,
      "step": 1172
    },
    {
      "epoch": 0.18761996161228406,
      "grad_norm": 2.0510830879211426,
      "learning_rate": 5e-07,
      "loss": 0.281,
      "step": 1173
    },
    {
      "epoch": 0.18777991042866282,
      "grad_norm": 2.057645320892334,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1174
    },
    {
      "epoch": 0.18793985924504159,
      "grad_norm": 2.109875440597534,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1175
    },
    {
      "epoch": 0.18809980806142035,
      "grad_norm": 2.1289913654327393,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1176
    },
    {
      "epoch": 0.1882597568777991,
      "grad_norm": 1.9965418577194214,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1177
    },
    {
      "epoch": 0.18841970569417787,
      "grad_norm": 2.001757860183716,
      "learning_rate": 5e-07,
      "loss": 0.2804,
      "step": 1178
    },
    {
      "epoch": 0.1885796545105566,
      "grad_norm": 2.099383592605591,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1179
    },
    {
      "epoch": 0.18873960332693537,
      "grad_norm": 2.075899362564087,
      "learning_rate": 5e-07,
      "loss": 0.2769,
      "step": 1180
    },
    {
      "epoch": 0.18889955214331414,
      "grad_norm": 2.3324551582336426,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1181
    },
    {
      "epoch": 0.1890595009596929,
      "grad_norm": 2.0978171825408936,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1182
    },
    {
      "epoch": 0.18921944977607166,
      "grad_norm": 2.1495425701141357,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1183
    },
    {
      "epoch": 0.18937939859245043,
      "grad_norm": 2.1799585819244385,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1184
    },
    {
      "epoch": 0.18953934740882916,
      "grad_norm": 2.1233859062194824,
      "learning_rate": 5e-07,
      "loss": 0.2745,
      "step": 1185
    },
    {
      "epoch": 0.18969929622520793,
      "grad_norm": 2.0377113819122314,
      "learning_rate": 5e-07,
      "loss": 0.2801,
      "step": 1186
    },
    {
      "epoch": 0.1898592450415867,
      "grad_norm": 1.974300742149353,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1187
    },
    {
      "epoch": 0.19001919385796545,
      "grad_norm": 2.242016315460205,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1188
    },
    {
      "epoch": 0.19017914267434421,
      "grad_norm": 2.2699997425079346,
      "learning_rate": 5e-07,
      "loss": 0.2841,
      "step": 1189
    },
    {
      "epoch": 0.19033909149072298,
      "grad_norm": 2.256789445877075,
      "learning_rate": 5e-07,
      "loss": 0.2783,
      "step": 1190
    },
    {
      "epoch": 0.19049904030710174,
      "grad_norm": 2.1021628379821777,
      "learning_rate": 5e-07,
      "loss": 0.2801,
      "step": 1191
    },
    {
      "epoch": 0.19065898912348048,
      "grad_norm": 2.047956943511963,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1192
    },
    {
      "epoch": 0.19081893793985924,
      "grad_norm": 2.0060341358184814,
      "learning_rate": 5e-07,
      "loss": 0.2759,
      "step": 1193
    },
    {
      "epoch": 0.190978886756238,
      "grad_norm": 2.1673500537872314,
      "learning_rate": 5e-07,
      "loss": 0.2815,
      "step": 1194
    },
    {
      "epoch": 0.19113883557261677,
      "grad_norm": 2.2485475540161133,
      "learning_rate": 5e-07,
      "loss": 0.2779,
      "step": 1195
    },
    {
      "epoch": 0.19129878438899553,
      "grad_norm": 1.9495713710784912,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1196
    },
    {
      "epoch": 0.1914587332053743,
      "grad_norm": 2.174077272415161,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1197
    },
    {
      "epoch": 0.19161868202175303,
      "grad_norm": 1.8637346029281616,
      "learning_rate": 5e-07,
      "loss": 0.2758,
      "step": 1198
    },
    {
      "epoch": 0.1917786308381318,
      "grad_norm": 2.1776485443115234,
      "learning_rate": 5e-07,
      "loss": 0.2776,
      "step": 1199
    },
    {
      "epoch": 0.19193857965451055,
      "grad_norm": 2.1537258625030518,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1200
    },
    {
      "epoch": 0.19209852847088932,
      "grad_norm": 2.2339060306549072,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1201
    },
    {
      "epoch": 0.19225847728726808,
      "grad_norm": 2.4781997203826904,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 1202
    },
    {
      "epoch": 0.19241842610364684,
      "grad_norm": 2.1785693168640137,
      "learning_rate": 5e-07,
      "loss": 0.2801,
      "step": 1203
    },
    {
      "epoch": 0.19257837492002558,
      "grad_norm": 2.358945846557617,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1204
    },
    {
      "epoch": 0.19273832373640434,
      "grad_norm": 2.0084588527679443,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1205
    },
    {
      "epoch": 0.1928982725527831,
      "grad_norm": 2.3030688762664795,
      "learning_rate": 5e-07,
      "loss": 0.2817,
      "step": 1206
    },
    {
      "epoch": 0.19305822136916187,
      "grad_norm": 2.0633461475372314,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1207
    },
    {
      "epoch": 0.19321817018554063,
      "grad_norm": 2.627718448638916,
      "learning_rate": 5e-07,
      "loss": 0.2802,
      "step": 1208
    },
    {
      "epoch": 0.1933781190019194,
      "grad_norm": 2.134610176086426,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1209
    },
    {
      "epoch": 0.19353806781829813,
      "grad_norm": 1.9990665912628174,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1210
    },
    {
      "epoch": 0.1936980166346769,
      "grad_norm": 2.0619704723358154,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 1211
    },
    {
      "epoch": 0.19385796545105566,
      "grad_norm": 2.188202142715454,
      "learning_rate": 5e-07,
      "loss": 0.2811,
      "step": 1212
    },
    {
      "epoch": 0.19401791426743442,
      "grad_norm": 1.9138144254684448,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1213
    },
    {
      "epoch": 0.19417786308381318,
      "grad_norm": 2.0462381839752197,
      "learning_rate": 5e-07,
      "loss": 0.2816,
      "step": 1214
    },
    {
      "epoch": 0.19433781190019195,
      "grad_norm": 2.2228312492370605,
      "learning_rate": 5e-07,
      "loss": 0.2769,
      "step": 1215
    },
    {
      "epoch": 0.1944977607165707,
      "grad_norm": 1.9889947175979614,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1216
    },
    {
      "epoch": 0.19465770953294945,
      "grad_norm": 2.2868940830230713,
      "learning_rate": 5e-07,
      "loss": 0.2788,
      "step": 1217
    },
    {
      "epoch": 0.1948176583493282,
      "grad_norm": 2.2923953533172607,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1218
    },
    {
      "epoch": 0.19497760716570697,
      "grad_norm": 2.302793502807617,
      "learning_rate": 5e-07,
      "loss": 0.2815,
      "step": 1219
    },
    {
      "epoch": 0.19513755598208574,
      "grad_norm": 2.5461747646331787,
      "learning_rate": 5e-07,
      "loss": 0.2799,
      "step": 1220
    },
    {
      "epoch": 0.1952975047984645,
      "grad_norm": 2.467754364013672,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1221
    },
    {
      "epoch": 0.19545745361484326,
      "grad_norm": 2.4142801761627197,
      "learning_rate": 5e-07,
      "loss": 0.2795,
      "step": 1222
    },
    {
      "epoch": 0.195617402431222,
      "grad_norm": 2.359276294708252,
      "learning_rate": 5e-07,
      "loss": 0.2802,
      "step": 1223
    },
    {
      "epoch": 0.19577735124760076,
      "grad_norm": 1.9826220273971558,
      "learning_rate": 5e-07,
      "loss": 0.278,
      "step": 1224
    },
    {
      "epoch": 0.19593730006397952,
      "grad_norm": 2.339149236679077,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1225
    },
    {
      "epoch": 0.1960972488803583,
      "grad_norm": 2.0966479778289795,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1226
    },
    {
      "epoch": 0.19625719769673705,
      "grad_norm": 2.1242294311523438,
      "learning_rate": 5e-07,
      "loss": 0.2811,
      "step": 1227
    },
    {
      "epoch": 0.19641714651311581,
      "grad_norm": 2.1864514350891113,
      "learning_rate": 5e-07,
      "loss": 0.2817,
      "step": 1228
    },
    {
      "epoch": 0.19657709532949455,
      "grad_norm": 2.1061840057373047,
      "learning_rate": 5e-07,
      "loss": 0.2818,
      "step": 1229
    },
    {
      "epoch": 0.1967370441458733,
      "grad_norm": 1.935241937637329,
      "learning_rate": 5e-07,
      "loss": 0.275,
      "step": 1230
    },
    {
      "epoch": 0.19689699296225208,
      "grad_norm": 2.668074131011963,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1231
    },
    {
      "epoch": 0.19705694177863084,
      "grad_norm": 2.299788475036621,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1232
    },
    {
      "epoch": 0.1972168905950096,
      "grad_norm": 2.1710822582244873,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1233
    },
    {
      "epoch": 0.19737683941138837,
      "grad_norm": 2.258164167404175,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1234
    },
    {
      "epoch": 0.1975367882277671,
      "grad_norm": 1.9999257326126099,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1235
    },
    {
      "epoch": 0.19769673704414586,
      "grad_norm": 2.2556493282318115,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1236
    },
    {
      "epoch": 0.19785668586052463,
      "grad_norm": 2.209651231765747,
      "learning_rate": 5e-07,
      "loss": 0.2779,
      "step": 1237
    },
    {
      "epoch": 0.1980166346769034,
      "grad_norm": 2.719449520111084,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1238
    },
    {
      "epoch": 0.19817658349328215,
      "grad_norm": 2.4619197845458984,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1239
    },
    {
      "epoch": 0.19833653230966092,
      "grad_norm": 2.142204999923706,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1240
    },
    {
      "epoch": 0.19849648112603968,
      "grad_norm": 2.1811296939849854,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1241
    },
    {
      "epoch": 0.19865642994241842,
      "grad_norm": 1.9387744665145874,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1242
    },
    {
      "epoch": 0.19881637875879718,
      "grad_norm": 2.0826189517974854,
      "learning_rate": 5e-07,
      "loss": 0.2812,
      "step": 1243
    },
    {
      "epoch": 0.19897632757517594,
      "grad_norm": 2.1117968559265137,
      "learning_rate": 5e-07,
      "loss": 0.2789,
      "step": 1244
    },
    {
      "epoch": 0.1991362763915547,
      "grad_norm": 2.0873005390167236,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1245
    },
    {
      "epoch": 0.19929622520793347,
      "grad_norm": 2.0427350997924805,
      "learning_rate": 5e-07,
      "loss": 0.2759,
      "step": 1246
    },
    {
      "epoch": 0.19945617402431223,
      "grad_norm": 2.018974542617798,
      "learning_rate": 5e-07,
      "loss": 0.2784,
      "step": 1247
    },
    {
      "epoch": 0.19961612284069097,
      "grad_norm": 2.718358278274536,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 1248
    },
    {
      "epoch": 0.19977607165706973,
      "grad_norm": 2.1923322677612305,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1249
    },
    {
      "epoch": 0.1999360204734485,
      "grad_norm": 2.213866710662842,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1250
    },
    {
      "epoch": 0.20009596928982726,
      "grad_norm": 2.0977225303649902,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1251
    },
    {
      "epoch": 0.20025591810620602,
      "grad_norm": 2.333277702331543,
      "learning_rate": 5e-07,
      "loss": 0.2777,
      "step": 1252
    },
    {
      "epoch": 0.20041586692258478,
      "grad_norm": 2.431800603866577,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1253
    },
    {
      "epoch": 0.20057581573896352,
      "grad_norm": 2.072208881378174,
      "learning_rate": 5e-07,
      "loss": 0.2747,
      "step": 1254
    },
    {
      "epoch": 0.20073576455534228,
      "grad_norm": 2.310344696044922,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1255
    },
    {
      "epoch": 0.20089571337172105,
      "grad_norm": 2.290229558944702,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1256
    },
    {
      "epoch": 0.2010556621880998,
      "grad_norm": 2.3812923431396484,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1257
    },
    {
      "epoch": 0.20121561100447857,
      "grad_norm": 1.949182391166687,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1258
    },
    {
      "epoch": 0.20137555982085734,
      "grad_norm": 2.0045974254608154,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1259
    },
    {
      "epoch": 0.20153550863723607,
      "grad_norm": 2.308262348175049,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1260
    },
    {
      "epoch": 0.20169545745361483,
      "grad_norm": 2.1500744819641113,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1261
    },
    {
      "epoch": 0.2018554062699936,
      "grad_norm": 2.2178215980529785,
      "learning_rate": 5e-07,
      "loss": 0.279,
      "step": 1262
    },
    {
      "epoch": 0.20201535508637236,
      "grad_norm": 2.0985772609710693,
      "learning_rate": 5e-07,
      "loss": 0.2836,
      "step": 1263
    },
    {
      "epoch": 0.20217530390275112,
      "grad_norm": 1.8882343769073486,
      "learning_rate": 5e-07,
      "loss": 0.2768,
      "step": 1264
    },
    {
      "epoch": 0.2023352527191299,
      "grad_norm": 2.0607876777648926,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1265
    },
    {
      "epoch": 0.20249520153550865,
      "grad_norm": 2.1450624465942383,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1266
    },
    {
      "epoch": 0.2026551503518874,
      "grad_norm": 1.9921761751174927,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1267
    },
    {
      "epoch": 0.20281509916826615,
      "grad_norm": 2.2772133350372314,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1268
    },
    {
      "epoch": 0.2029750479846449,
      "grad_norm": 2.404527425765991,
      "learning_rate": 5e-07,
      "loss": 0.2805,
      "step": 1269
    },
    {
      "epoch": 0.20313499680102368,
      "grad_norm": 3.5393080711364746,
      "learning_rate": 5e-07,
      "loss": 0.2817,
      "step": 1270
    },
    {
      "epoch": 0.20329494561740244,
      "grad_norm": 2.4232053756713867,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1271
    },
    {
      "epoch": 0.2034548944337812,
      "grad_norm": 2.1432747840881348,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1272
    },
    {
      "epoch": 0.20361484325015994,
      "grad_norm": 2.033916711807251,
      "learning_rate": 5e-07,
      "loss": 0.2786,
      "step": 1273
    },
    {
      "epoch": 0.2037747920665387,
      "grad_norm": 2.2331035137176514,
      "learning_rate": 5e-07,
      "loss": 0.2792,
      "step": 1274
    },
    {
      "epoch": 0.20393474088291746,
      "grad_norm": 2.1119489669799805,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1275
    },
    {
      "epoch": 0.20409468969929623,
      "grad_norm": 2.0199694633483887,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1276
    },
    {
      "epoch": 0.204254638515675,
      "grad_norm": 2.1423003673553467,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1277
    },
    {
      "epoch": 0.20441458733205375,
      "grad_norm": 2.206538200378418,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1278
    },
    {
      "epoch": 0.2045745361484325,
      "grad_norm": 2.1209301948547363,
      "learning_rate": 5e-07,
      "loss": 0.2757,
      "step": 1279
    },
    {
      "epoch": 0.20473448496481125,
      "grad_norm": 2.2296764850616455,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1280
    },
    {
      "epoch": 0.20489443378119002,
      "grad_norm": 2.36979341506958,
      "learning_rate": 5e-07,
      "loss": 0.2799,
      "step": 1281
    },
    {
      "epoch": 0.20505438259756878,
      "grad_norm": 2.877722978591919,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1282
    },
    {
      "epoch": 0.20521433141394754,
      "grad_norm": 1.9705525636672974,
      "learning_rate": 5e-07,
      "loss": 0.2752,
      "step": 1283
    },
    {
      "epoch": 0.2053742802303263,
      "grad_norm": 2.0449771881103516,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1284
    },
    {
      "epoch": 0.20553422904670504,
      "grad_norm": 2.095658540725708,
      "learning_rate": 5e-07,
      "loss": 0.2757,
      "step": 1285
    },
    {
      "epoch": 0.2056941778630838,
      "grad_norm": 2.1407482624053955,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1286
    },
    {
      "epoch": 0.20585412667946257,
      "grad_norm": 2.27009916305542,
      "learning_rate": 5e-07,
      "loss": 0.2828,
      "step": 1287
    },
    {
      "epoch": 0.20601407549584133,
      "grad_norm": 2.098512649536133,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1288
    },
    {
      "epoch": 0.2061740243122201,
      "grad_norm": 2.250690221786499,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1289
    },
    {
      "epoch": 0.20633397312859886,
      "grad_norm": 2.0579898357391357,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1290
    },
    {
      "epoch": 0.20649392194497762,
      "grad_norm": 2.189948558807373,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1291
    },
    {
      "epoch": 0.20665387076135636,
      "grad_norm": 2.103363275527954,
      "learning_rate": 5e-07,
      "loss": 0.278,
      "step": 1292
    },
    {
      "epoch": 0.20681381957773512,
      "grad_norm": 2.310391664505005,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1293
    },
    {
      "epoch": 0.20697376839411388,
      "grad_norm": 2.135998487472534,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1294
    },
    {
      "epoch": 0.20713371721049265,
      "grad_norm": 2.109246253967285,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1295
    },
    {
      "epoch": 0.2072936660268714,
      "grad_norm": 2.2285022735595703,
      "learning_rate": 5e-07,
      "loss": 0.2797,
      "step": 1296
    },
    {
      "epoch": 0.20745361484325017,
      "grad_norm": 2.3730382919311523,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1297
    },
    {
      "epoch": 0.2076135636596289,
      "grad_norm": 2.1008970737457275,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1298
    },
    {
      "epoch": 0.20777351247600767,
      "grad_norm": 1.9322818517684937,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1299
    },
    {
      "epoch": 0.20793346129238643,
      "grad_norm": 2.106896162033081,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1300
    },
    {
      "epoch": 0.2080934101087652,
      "grad_norm": 2.1110806465148926,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1301
    },
    {
      "epoch": 0.20825335892514396,
      "grad_norm": 1.98395836353302,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1302
    },
    {
      "epoch": 0.20841330774152272,
      "grad_norm": 2.292759895324707,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1303
    },
    {
      "epoch": 0.20857325655790146,
      "grad_norm": 2.06599760055542,
      "learning_rate": 5e-07,
      "loss": 0.2803,
      "step": 1304
    },
    {
      "epoch": 0.20873320537428022,
      "grad_norm": 2.2310757637023926,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1305
    },
    {
      "epoch": 0.208893154190659,
      "grad_norm": 2.161998748779297,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1306
    },
    {
      "epoch": 0.20905310300703775,
      "grad_norm": 2.0602235794067383,
      "learning_rate": 5e-07,
      "loss": 0.2782,
      "step": 1307
    },
    {
      "epoch": 0.2092130518234165,
      "grad_norm": 1.8874733448028564,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1308
    },
    {
      "epoch": 0.20937300063979528,
      "grad_norm": 2.1004559993743896,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1309
    },
    {
      "epoch": 0.209532949456174,
      "grad_norm": 2.0464720726013184,
      "learning_rate": 5e-07,
      "loss": 0.2809,
      "step": 1310
    },
    {
      "epoch": 0.20969289827255277,
      "grad_norm": 2.3856287002563477,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1311
    },
    {
      "epoch": 0.20985284708893154,
      "grad_norm": 1.8879334926605225,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1312
    },
    {
      "epoch": 0.2100127959053103,
      "grad_norm": 2.005251884460449,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1313
    },
    {
      "epoch": 0.21017274472168906,
      "grad_norm": 2.0374255180358887,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1314
    },
    {
      "epoch": 0.21033269353806783,
      "grad_norm": 1.9984670877456665,
      "learning_rate": 5e-07,
      "loss": 0.2783,
      "step": 1315
    },
    {
      "epoch": 0.2104926423544466,
      "grad_norm": 2.020683526992798,
      "learning_rate": 5e-07,
      "loss": 0.2747,
      "step": 1316
    },
    {
      "epoch": 0.21065259117082533,
      "grad_norm": 2.0003879070281982,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1317
    },
    {
      "epoch": 0.2108125399872041,
      "grad_norm": 2.6688804626464844,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1318
    },
    {
      "epoch": 0.21097248880358285,
      "grad_norm": 1.9847825765609741,
      "learning_rate": 5e-07,
      "loss": 0.2746,
      "step": 1319
    },
    {
      "epoch": 0.21113243761996162,
      "grad_norm": 2.270435094833374,
      "learning_rate": 5e-07,
      "loss": 0.2756,
      "step": 1320
    },
    {
      "epoch": 0.21129238643634038,
      "grad_norm": 2.0885207653045654,
      "learning_rate": 5e-07,
      "loss": 0.2789,
      "step": 1321
    },
    {
      "epoch": 0.21145233525271914,
      "grad_norm": 2.3039331436157227,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1322
    },
    {
      "epoch": 0.21161228406909788,
      "grad_norm": 1.916935920715332,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1323
    },
    {
      "epoch": 0.21177223288547664,
      "grad_norm": 2.113442897796631,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1324
    },
    {
      "epoch": 0.2119321817018554,
      "grad_norm": 1.9753243923187256,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1325
    },
    {
      "epoch": 0.21209213051823417,
      "grad_norm": 1.955941915512085,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1326
    },
    {
      "epoch": 0.21225207933461293,
      "grad_norm": 2.023729085922241,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1327
    },
    {
      "epoch": 0.2124120281509917,
      "grad_norm": 2.1136856079101562,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1328
    },
    {
      "epoch": 0.21257197696737043,
      "grad_norm": 1.9944636821746826,
      "learning_rate": 5e-07,
      "loss": 0.2784,
      "step": 1329
    },
    {
      "epoch": 0.2127319257837492,
      "grad_norm": 2.049118757247925,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1330
    },
    {
      "epoch": 0.21289187460012796,
      "grad_norm": 1.9278974533081055,
      "learning_rate": 5e-07,
      "loss": 0.2781,
      "step": 1331
    },
    {
      "epoch": 0.21305182341650672,
      "grad_norm": 2.280073881149292,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1332
    },
    {
      "epoch": 0.21321177223288548,
      "grad_norm": 1.9050350189208984,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1333
    },
    {
      "epoch": 0.21337172104926425,
      "grad_norm": 2.039980173110962,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1334
    },
    {
      "epoch": 0.21353166986564298,
      "grad_norm": 2.0621495246887207,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1335
    },
    {
      "epoch": 0.21369161868202174,
      "grad_norm": 1.8198975324630737,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1336
    },
    {
      "epoch": 0.2138515674984005,
      "grad_norm": 1.926599144935608,
      "learning_rate": 5e-07,
      "loss": 0.2787,
      "step": 1337
    },
    {
      "epoch": 0.21401151631477927,
      "grad_norm": 1.8241040706634521,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1338
    },
    {
      "epoch": 0.21417146513115803,
      "grad_norm": 1.9041748046875,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1339
    },
    {
      "epoch": 0.2143314139475368,
      "grad_norm": 2.502920150756836,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1340
    },
    {
      "epoch": 0.21449136276391556,
      "grad_norm": 2.0001606941223145,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1341
    },
    {
      "epoch": 0.2146513115802943,
      "grad_norm": 2.039128303527832,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1342
    },
    {
      "epoch": 0.21481126039667306,
      "grad_norm": 2.2912487983703613,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1343
    },
    {
      "epoch": 0.21497120921305182,
      "grad_norm": 2.156975030899048,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1344
    },
    {
      "epoch": 0.21513115802943059,
      "grad_norm": 2.215073347091675,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1345
    },
    {
      "epoch": 0.21529110684580935,
      "grad_norm": 2.1755247116088867,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1346
    },
    {
      "epoch": 0.2154510556621881,
      "grad_norm": 2.2864418029785156,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1347
    },
    {
      "epoch": 0.21561100447856685,
      "grad_norm": 2.0634307861328125,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1348
    },
    {
      "epoch": 0.2157709532949456,
      "grad_norm": 2.570787191390991,
      "learning_rate": 5e-07,
      "loss": 0.2805,
      "step": 1349
    },
    {
      "epoch": 0.21593090211132437,
      "grad_norm": 1.9993287324905396,
      "learning_rate": 5e-07,
      "loss": 0.2752,
      "step": 1350
    },
    {
      "epoch": 0.21609085092770314,
      "grad_norm": 2.1299736499786377,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1351
    },
    {
      "epoch": 0.2162507997440819,
      "grad_norm": 1.975963830947876,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1352
    },
    {
      "epoch": 0.21641074856046066,
      "grad_norm": 2.009761095046997,
      "learning_rate": 5e-07,
      "loss": 0.2779,
      "step": 1353
    },
    {
      "epoch": 0.2165706973768394,
      "grad_norm": 2.2547292709350586,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1354
    },
    {
      "epoch": 0.21673064619321816,
      "grad_norm": 1.9857369661331177,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1355
    },
    {
      "epoch": 0.21689059500959693,
      "grad_norm": 2.035538911819458,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1356
    },
    {
      "epoch": 0.2170505438259757,
      "grad_norm": 1.9817959070205688,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1357
    },
    {
      "epoch": 0.21721049264235445,
      "grad_norm": 2.1236417293548584,
      "learning_rate": 5e-07,
      "loss": 0.2802,
      "step": 1358
    },
    {
      "epoch": 0.21737044145873322,
      "grad_norm": 2.000307321548462,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1359
    },
    {
      "epoch": 0.21753039027511195,
      "grad_norm": 2.36313796043396,
      "learning_rate": 5e-07,
      "loss": 0.2758,
      "step": 1360
    },
    {
      "epoch": 0.21769033909149071,
      "grad_norm": 1.986129641532898,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1361
    },
    {
      "epoch": 0.21785028790786948,
      "grad_norm": 2.1598286628723145,
      "learning_rate": 5e-07,
      "loss": 0.2756,
      "step": 1362
    },
    {
      "epoch": 0.21801023672424824,
      "grad_norm": 2.478930950164795,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1363
    },
    {
      "epoch": 0.218170185540627,
      "grad_norm": 1.9877161979675293,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1364
    },
    {
      "epoch": 0.21833013435700577,
      "grad_norm": 2.175640106201172,
      "learning_rate": 5e-07,
      "loss": 0.2791,
      "step": 1365
    },
    {
      "epoch": 0.21849008317338453,
      "grad_norm": 2.1129050254821777,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1366
    },
    {
      "epoch": 0.21865003198976327,
      "grad_norm": 2.328718900680542,
      "learning_rate": 5e-07,
      "loss": 0.2816,
      "step": 1367
    },
    {
      "epoch": 0.21880998080614203,
      "grad_norm": 1.8076578378677368,
      "learning_rate": 5e-07,
      "loss": 0.275,
      "step": 1368
    },
    {
      "epoch": 0.2189699296225208,
      "grad_norm": 2.055011510848999,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1369
    },
    {
      "epoch": 0.21912987843889956,
      "grad_norm": 2.1782991886138916,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1370
    },
    {
      "epoch": 0.21928982725527832,
      "grad_norm": 2.204969882965088,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1371
    },
    {
      "epoch": 0.21944977607165708,
      "grad_norm": 2.321286201477051,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1372
    },
    {
      "epoch": 0.21960972488803582,
      "grad_norm": 1.970575213432312,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1373
    },
    {
      "epoch": 0.21976967370441458,
      "grad_norm": 2.2686197757720947,
      "learning_rate": 5e-07,
      "loss": 0.2746,
      "step": 1374
    },
    {
      "epoch": 0.21992962252079334,
      "grad_norm": 2.6129961013793945,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1375
    },
    {
      "epoch": 0.2200895713371721,
      "grad_norm": 2.8017418384552,
      "learning_rate": 5e-07,
      "loss": 0.2785,
      "step": 1376
    },
    {
      "epoch": 0.22024952015355087,
      "grad_norm": 2.096142530441284,
      "learning_rate": 5e-07,
      "loss": 0.2731,
      "step": 1377
    },
    {
      "epoch": 0.22040946896992963,
      "grad_norm": 2.0398149490356445,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1378
    },
    {
      "epoch": 0.22056941778630837,
      "grad_norm": 2.0842366218566895,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1379
    },
    {
      "epoch": 0.22072936660268713,
      "grad_norm": 2.666485071182251,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1380
    },
    {
      "epoch": 0.2208893154190659,
      "grad_norm": 2.378908157348633,
      "learning_rate": 5e-07,
      "loss": 0.2757,
      "step": 1381
    },
    {
      "epoch": 0.22104926423544466,
      "grad_norm": 2.151644229888916,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1382
    },
    {
      "epoch": 0.22120921305182342,
      "grad_norm": 2.0015900135040283,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1383
    },
    {
      "epoch": 0.22136916186820219,
      "grad_norm": 2.126217842102051,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1384
    },
    {
      "epoch": 0.22152911068458092,
      "grad_norm": 2.088059425354004,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1385
    },
    {
      "epoch": 0.22168905950095968,
      "grad_norm": 2.092092275619507,
      "learning_rate": 5e-07,
      "loss": 0.275,
      "step": 1386
    },
    {
      "epoch": 0.22184900831733845,
      "grad_norm": 1.7708404064178467,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1387
    },
    {
      "epoch": 0.2220089571337172,
      "grad_norm": 2.0432240962982178,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1388
    },
    {
      "epoch": 0.22216890595009597,
      "grad_norm": 1.991536021232605,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1389
    },
    {
      "epoch": 0.22232885476647474,
      "grad_norm": 1.979095697402954,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1390
    },
    {
      "epoch": 0.2224888035828535,
      "grad_norm": 1.8567579984664917,
      "learning_rate": 5e-07,
      "loss": 0.2806,
      "step": 1391
    },
    {
      "epoch": 0.22264875239923224,
      "grad_norm": 2.016390562057495,
      "learning_rate": 5e-07,
      "loss": 0.2746,
      "step": 1392
    },
    {
      "epoch": 0.222808701215611,
      "grad_norm": 2.0717129707336426,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1393
    },
    {
      "epoch": 0.22296865003198976,
      "grad_norm": 2.075235605239868,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1394
    },
    {
      "epoch": 0.22312859884836853,
      "grad_norm": 1.975252389907837,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1395
    },
    {
      "epoch": 0.2232885476647473,
      "grad_norm": 2.155376434326172,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1396
    },
    {
      "epoch": 0.22344849648112605,
      "grad_norm": 1.9695119857788086,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1397
    },
    {
      "epoch": 0.2236084452975048,
      "grad_norm": 2.0662293434143066,
      "learning_rate": 5e-07,
      "loss": 0.2737,
      "step": 1398
    },
    {
      "epoch": 0.22376839411388355,
      "grad_norm": 2.177807569503784,
      "learning_rate": 5e-07,
      "loss": 0.2777,
      "step": 1399
    },
    {
      "epoch": 0.22392834293026231,
      "grad_norm": 2.3229944705963135,
      "learning_rate": 5e-07,
      "loss": 0.2756,
      "step": 1400
    },
    {
      "epoch": 0.22408829174664108,
      "grad_norm": 2.12930965423584,
      "learning_rate": 5e-07,
      "loss": 0.2796,
      "step": 1401
    },
    {
      "epoch": 0.22424824056301984,
      "grad_norm": 2.167240619659424,
      "learning_rate": 5e-07,
      "loss": 0.2795,
      "step": 1402
    },
    {
      "epoch": 0.2244081893793986,
      "grad_norm": 2.0251970291137695,
      "learning_rate": 5e-07,
      "loss": 0.2745,
      "step": 1403
    },
    {
      "epoch": 0.22456813819577734,
      "grad_norm": 1.9069567918777466,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1404
    },
    {
      "epoch": 0.2247280870121561,
      "grad_norm": 2.0192325115203857,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1405
    },
    {
      "epoch": 0.22488803582853487,
      "grad_norm": 1.8631103038787842,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1406
    },
    {
      "epoch": 0.22504798464491363,
      "grad_norm": 2.14969801902771,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1407
    },
    {
      "epoch": 0.2252079334612924,
      "grad_norm": 1.8954731225967407,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1408
    },
    {
      "epoch": 0.22536788227767116,
      "grad_norm": 1.9537843465805054,
      "learning_rate": 5e-07,
      "loss": 0.2757,
      "step": 1409
    },
    {
      "epoch": 0.2255278310940499,
      "grad_norm": 1.8223637342453003,
      "learning_rate": 5e-07,
      "loss": 0.2769,
      "step": 1410
    },
    {
      "epoch": 0.22568777991042865,
      "grad_norm": 2.330869674682617,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1411
    },
    {
      "epoch": 0.22584772872680742,
      "grad_norm": 1.8668445348739624,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1412
    },
    {
      "epoch": 0.22600767754318618,
      "grad_norm": 1.9738879203796387,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1413
    },
    {
      "epoch": 0.22616762635956494,
      "grad_norm": 2.2460708618164062,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1414
    },
    {
      "epoch": 0.2263275751759437,
      "grad_norm": 2.1903321743011475,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1415
    },
    {
      "epoch": 0.22648752399232247,
      "grad_norm": 2.407409906387329,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1416
    },
    {
      "epoch": 0.2266474728087012,
      "grad_norm": 2.397549629211426,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1417
    },
    {
      "epoch": 0.22680742162507997,
      "grad_norm": 2.2405295372009277,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1418
    },
    {
      "epoch": 0.22696737044145873,
      "grad_norm": 2.12396240234375,
      "learning_rate": 5e-07,
      "loss": 0.2756,
      "step": 1419
    },
    {
      "epoch": 0.2271273192578375,
      "grad_norm": 2.5001235008239746,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1420
    },
    {
      "epoch": 0.22728726807421626,
      "grad_norm": 2.098201274871826,
      "learning_rate": 5e-07,
      "loss": 0.2772,
      "step": 1421
    },
    {
      "epoch": 0.22744721689059502,
      "grad_norm": 2.0425360202789307,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1422
    },
    {
      "epoch": 0.22760716570697376,
      "grad_norm": 1.9751689434051514,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1423
    },
    {
      "epoch": 0.22776711452335252,
      "grad_norm": 2.2730963230133057,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1424
    },
    {
      "epoch": 0.22792706333973128,
      "grad_norm": 1.9652832746505737,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1425
    },
    {
      "epoch": 0.22808701215611005,
      "grad_norm": 1.8994842767715454,
      "learning_rate": 5e-07,
      "loss": 0.278,
      "step": 1426
    },
    {
      "epoch": 0.2282469609724888,
      "grad_norm": 1.9556405544281006,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1427
    },
    {
      "epoch": 0.22840690978886757,
      "grad_norm": 1.9804267883300781,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1428
    },
    {
      "epoch": 0.2285668586052463,
      "grad_norm": 1.9671584367752075,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1429
    },
    {
      "epoch": 0.22872680742162507,
      "grad_norm": 2.1077325344085693,
      "learning_rate": 5e-07,
      "loss": 0.2737,
      "step": 1430
    },
    {
      "epoch": 0.22888675623800384,
      "grad_norm": 2.0909252166748047,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1431
    },
    {
      "epoch": 0.2290467050543826,
      "grad_norm": 1.9890812635421753,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1432
    },
    {
      "epoch": 0.22920665387076136,
      "grad_norm": 1.9794104099273682,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1433
    },
    {
      "epoch": 0.22936660268714013,
      "grad_norm": 2.0120861530303955,
      "learning_rate": 5e-07,
      "loss": 0.2737,
      "step": 1434
    },
    {
      "epoch": 0.22952655150351886,
      "grad_norm": 2.045039176940918,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1435
    },
    {
      "epoch": 0.22968650031989762,
      "grad_norm": 2.376621723175049,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1436
    },
    {
      "epoch": 0.2298464491362764,
      "grad_norm": 2.0824942588806152,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1437
    },
    {
      "epoch": 0.23000639795265515,
      "grad_norm": 2.1842191219329834,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1438
    },
    {
      "epoch": 0.2301663467690339,
      "grad_norm": 2.0865628719329834,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1439
    },
    {
      "epoch": 0.23032629558541268,
      "grad_norm": 2.3530116081237793,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1440
    },
    {
      "epoch": 0.23048624440179144,
      "grad_norm": 2.2827489376068115,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1441
    },
    {
      "epoch": 0.23064619321817018,
      "grad_norm": 1.9781583547592163,
      "learning_rate": 5e-07,
      "loss": 0.2763,
      "step": 1442
    },
    {
      "epoch": 0.23080614203454894,
      "grad_norm": 2.4154579639434814,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1443
    },
    {
      "epoch": 0.2309660908509277,
      "grad_norm": 1.8215383291244507,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1444
    },
    {
      "epoch": 0.23112603966730647,
      "grad_norm": 1.8708218336105347,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1445
    },
    {
      "epoch": 0.23128598848368523,
      "grad_norm": 2.1592063903808594,
      "learning_rate": 5e-07,
      "loss": 0.2708,
      "step": 1446
    },
    {
      "epoch": 0.231445937300064,
      "grad_norm": 2.047182559967041,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1447
    },
    {
      "epoch": 0.23160588611644273,
      "grad_norm": 2.625872850418091,
      "learning_rate": 5e-07,
      "loss": 0.2818,
      "step": 1448
    },
    {
      "epoch": 0.2317658349328215,
      "grad_norm": 2.069589853286743,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1449
    },
    {
      "epoch": 0.23192578374920025,
      "grad_norm": 2.0400331020355225,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1450
    },
    {
      "epoch": 0.23208573256557902,
      "grad_norm": 2.066819429397583,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1451
    },
    {
      "epoch": 0.23224568138195778,
      "grad_norm": 2.0729146003723145,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1452
    },
    {
      "epoch": 0.23240563019833654,
      "grad_norm": 2.0593507289886475,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1453
    },
    {
      "epoch": 0.23256557901471528,
      "grad_norm": 1.8808716535568237,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1454
    },
    {
      "epoch": 0.23272552783109404,
      "grad_norm": 1.937730312347412,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1455
    },
    {
      "epoch": 0.2328854766474728,
      "grad_norm": 1.9456146955490112,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1456
    },
    {
      "epoch": 0.23304542546385157,
      "grad_norm": 2.068547248840332,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1457
    },
    {
      "epoch": 0.23320537428023033,
      "grad_norm": 1.9679062366485596,
      "learning_rate": 5e-07,
      "loss": 0.2743,
      "step": 1458
    },
    {
      "epoch": 0.2333653230966091,
      "grad_norm": 2.1800498962402344,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1459
    },
    {
      "epoch": 0.23352527191298783,
      "grad_norm": 2.0307960510253906,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1460
    },
    {
      "epoch": 0.2336852207293666,
      "grad_norm": 1.9567227363586426,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1461
    },
    {
      "epoch": 0.23384516954574536,
      "grad_norm": 2.059705972671509,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1462
    },
    {
      "epoch": 0.23400511836212412,
      "grad_norm": 2.172628164291382,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1463
    },
    {
      "epoch": 0.23416506717850288,
      "grad_norm": 1.9688249826431274,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1464
    },
    {
      "epoch": 0.23432501599488165,
      "grad_norm": 2.0517640113830566,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1465
    },
    {
      "epoch": 0.2344849648112604,
      "grad_norm": 2.013984441757202,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1466
    },
    {
      "epoch": 0.23464491362763915,
      "grad_norm": 2.2153444290161133,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1467
    },
    {
      "epoch": 0.2348048624440179,
      "grad_norm": 2.038905620574951,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1468
    },
    {
      "epoch": 0.23496481126039667,
      "grad_norm": 2.0528433322906494,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1469
    },
    {
      "epoch": 0.23512476007677544,
      "grad_norm": 1.9880530834197998,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1470
    },
    {
      "epoch": 0.2352847088931542,
      "grad_norm": 1.8748096227645874,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1471
    },
    {
      "epoch": 0.23544465770953296,
      "grad_norm": 1.9306349754333496,
      "learning_rate": 5e-07,
      "loss": 0.2759,
      "step": 1472
    },
    {
      "epoch": 0.2356046065259117,
      "grad_norm": 1.9009166955947876,
      "learning_rate": 5e-07,
      "loss": 0.2745,
      "step": 1473
    },
    {
      "epoch": 0.23576455534229046,
      "grad_norm": 1.886937141418457,
      "learning_rate": 5e-07,
      "loss": 0.2731,
      "step": 1474
    },
    {
      "epoch": 0.23592450415866922,
      "grad_norm": 2.098233222961426,
      "learning_rate": 5e-07,
      "loss": 0.2745,
      "step": 1475
    },
    {
      "epoch": 0.236084452975048,
      "grad_norm": 2.1426620483398438,
      "learning_rate": 5e-07,
      "loss": 0.2794,
      "step": 1476
    },
    {
      "epoch": 0.23624440179142675,
      "grad_norm": 2.211162567138672,
      "learning_rate": 5e-07,
      "loss": 0.2781,
      "step": 1477
    },
    {
      "epoch": 0.2364043506078055,
      "grad_norm": 2.122802972793579,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1478
    },
    {
      "epoch": 0.23656429942418425,
      "grad_norm": 2.093703031539917,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1479
    },
    {
      "epoch": 0.236724248240563,
      "grad_norm": 2.0861504077911377,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1480
    },
    {
      "epoch": 0.23688419705694178,
      "grad_norm": 2.1330840587615967,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1481
    },
    {
      "epoch": 0.23704414587332054,
      "grad_norm": 2.118325710296631,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1482
    },
    {
      "epoch": 0.2372040946896993,
      "grad_norm": 2.2012338638305664,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1483
    },
    {
      "epoch": 0.23736404350607807,
      "grad_norm": 2.373258113861084,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1484
    },
    {
      "epoch": 0.2375239923224568,
      "grad_norm": 2.4673402309417725,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1485
    },
    {
      "epoch": 0.23768394113883556,
      "grad_norm": 2.2284858226776123,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1486
    },
    {
      "epoch": 0.23784388995521433,
      "grad_norm": 2.1788125038146973,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1487
    },
    {
      "epoch": 0.2380038387715931,
      "grad_norm": 2.5635464191436768,
      "learning_rate": 5e-07,
      "loss": 0.2813,
      "step": 1488
    },
    {
      "epoch": 0.23816378758797185,
      "grad_norm": 2.689484119415283,
      "learning_rate": 5e-07,
      "loss": 0.2754,
      "step": 1489
    },
    {
      "epoch": 0.23832373640435062,
      "grad_norm": 2.922361135482788,
      "learning_rate": 5e-07,
      "loss": 0.2805,
      "step": 1490
    },
    {
      "epoch": 0.23848368522072938,
      "grad_norm": 2.0770976543426514,
      "learning_rate": 5e-07,
      "loss": 0.2762,
      "step": 1491
    },
    {
      "epoch": 0.23864363403710812,
      "grad_norm": 1.8609302043914795,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1492
    },
    {
      "epoch": 0.23880358285348688,
      "grad_norm": 2.027761220932007,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1493
    },
    {
      "epoch": 0.23896353166986564,
      "grad_norm": 2.1825501918792725,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1494
    },
    {
      "epoch": 0.2391234804862444,
      "grad_norm": 1.9898592233657837,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1495
    },
    {
      "epoch": 0.23928342930262317,
      "grad_norm": 1.9970186948776245,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1496
    },
    {
      "epoch": 0.23944337811900193,
      "grad_norm": 2.0512194633483887,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1497
    },
    {
      "epoch": 0.23960332693538067,
      "grad_norm": 2.267082452774048,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1498
    },
    {
      "epoch": 0.23976327575175943,
      "grad_norm": 2.0113446712493896,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1499
    },
    {
      "epoch": 0.2399232245681382,
      "grad_norm": 2.1149539947509766,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1500
    },
    {
      "epoch": 0.24008317338451696,
      "grad_norm": 2.204659938812256,
      "learning_rate": 5e-07,
      "loss": 0.2766,
      "step": 1501
    },
    {
      "epoch": 0.24024312220089572,
      "grad_norm": 2.14076566696167,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1502
    },
    {
      "epoch": 0.24040307101727448,
      "grad_norm": 2.138972282409668,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1503
    },
    {
      "epoch": 0.24056301983365322,
      "grad_norm": 2.4867234230041504,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1504
    },
    {
      "epoch": 0.24072296865003198,
      "grad_norm": 2.1696157455444336,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1505
    },
    {
      "epoch": 0.24088291746641075,
      "grad_norm": 2.189784526824951,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1506
    },
    {
      "epoch": 0.2410428662827895,
      "grad_norm": 1.9190773963928223,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1507
    },
    {
      "epoch": 0.24120281509916827,
      "grad_norm": 1.8476474285125732,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1508
    },
    {
      "epoch": 0.24136276391554704,
      "grad_norm": 2.0535998344421387,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1509
    },
    {
      "epoch": 0.24152271273192577,
      "grad_norm": 1.7550921440124512,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1510
    },
    {
      "epoch": 0.24168266154830453,
      "grad_norm": 1.9232230186462402,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1511
    },
    {
      "epoch": 0.2418426103646833,
      "grad_norm": 1.879378318786621,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1512
    },
    {
      "epoch": 0.24200255918106206,
      "grad_norm": 2.105541467666626,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1513
    },
    {
      "epoch": 0.24216250799744082,
      "grad_norm": 2.081524133682251,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1514
    },
    {
      "epoch": 0.2423224568138196,
      "grad_norm": 2.1397695541381836,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1515
    },
    {
      "epoch": 0.24248240563019835,
      "grad_norm": 2.335500717163086,
      "learning_rate": 5e-07,
      "loss": 0.2743,
      "step": 1516
    },
    {
      "epoch": 0.24264235444657709,
      "grad_norm": 2.264310836791992,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1517
    },
    {
      "epoch": 0.24280230326295585,
      "grad_norm": 2.1164016723632812,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1518
    },
    {
      "epoch": 0.2429622520793346,
      "grad_norm": 2.0606560707092285,
      "learning_rate": 5e-07,
      "loss": 0.2677,
      "step": 1519
    },
    {
      "epoch": 0.24312220089571338,
      "grad_norm": 2.0723228454589844,
      "learning_rate": 5e-07,
      "loss": 0.2752,
      "step": 1520
    },
    {
      "epoch": 0.24328214971209214,
      "grad_norm": 2.0803732872009277,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1521
    },
    {
      "epoch": 0.2434420985284709,
      "grad_norm": 1.9743146896362305,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1522
    },
    {
      "epoch": 0.24360204734484964,
      "grad_norm": 2.1044561862945557,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1523
    },
    {
      "epoch": 0.2437619961612284,
      "grad_norm": 1.9150577783584595,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1524
    },
    {
      "epoch": 0.24392194497760716,
      "grad_norm": 1.9035274982452393,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1525
    },
    {
      "epoch": 0.24408189379398593,
      "grad_norm": 2.062110424041748,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1526
    },
    {
      "epoch": 0.2442418426103647,
      "grad_norm": 2.1459362506866455,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1527
    },
    {
      "epoch": 0.24440179142674345,
      "grad_norm": 1.908867359161377,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1528
    },
    {
      "epoch": 0.2445617402431222,
      "grad_norm": 2.1106820106506348,
      "learning_rate": 5e-07,
      "loss": 0.2758,
      "step": 1529
    },
    {
      "epoch": 0.24472168905950095,
      "grad_norm": 2.146761417388916,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1530
    },
    {
      "epoch": 0.24488163787587972,
      "grad_norm": 2.5384175777435303,
      "learning_rate": 5e-07,
      "loss": 0.275,
      "step": 1531
    },
    {
      "epoch": 0.24504158669225848,
      "grad_norm": 2.212280750274658,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1532
    },
    {
      "epoch": 0.24520153550863724,
      "grad_norm": 2.122971296310425,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1533
    },
    {
      "epoch": 0.245361484325016,
      "grad_norm": 2.0064523220062256,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1534
    },
    {
      "epoch": 0.24552143314139474,
      "grad_norm": 2.2031290531158447,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1535
    },
    {
      "epoch": 0.2456813819577735,
      "grad_norm": 2.3299646377563477,
      "learning_rate": 5e-07,
      "loss": 0.2752,
      "step": 1536
    },
    {
      "epoch": 0.24584133077415227,
      "grad_norm": 2.008207082748413,
      "learning_rate": 5e-07,
      "loss": 0.276,
      "step": 1537
    },
    {
      "epoch": 0.24600127959053103,
      "grad_norm": 2.1691880226135254,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1538
    },
    {
      "epoch": 0.2461612284069098,
      "grad_norm": 1.8685216903686523,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1539
    },
    {
      "epoch": 0.24632117722328856,
      "grad_norm": 1.814296841621399,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1540
    },
    {
      "epoch": 0.24648112603966732,
      "grad_norm": 1.9016040563583374,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1541
    },
    {
      "epoch": 0.24664107485604606,
      "grad_norm": 1.761398434638977,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1542
    },
    {
      "epoch": 0.24680102367242482,
      "grad_norm": 1.838627815246582,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1543
    },
    {
      "epoch": 0.24696097248880358,
      "grad_norm": 2.3336329460144043,
      "learning_rate": 5e-07,
      "loss": 0.2775,
      "step": 1544
    },
    {
      "epoch": 0.24712092130518235,
      "grad_norm": 2.638127565383911,
      "learning_rate": 5e-07,
      "loss": 0.2761,
      "step": 1545
    },
    {
      "epoch": 0.2472808701215611,
      "grad_norm": 2.353280782699585,
      "learning_rate": 5e-07,
      "loss": 0.2737,
      "step": 1546
    },
    {
      "epoch": 0.24744081893793987,
      "grad_norm": 1.9779460430145264,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1547
    },
    {
      "epoch": 0.2476007677543186,
      "grad_norm": 2.1572301387786865,
      "learning_rate": 5e-07,
      "loss": 0.2765,
      "step": 1548
    },
    {
      "epoch": 0.24776071657069737,
      "grad_norm": 2.2939395904541016,
      "learning_rate": 5e-07,
      "loss": 0.2753,
      "step": 1549
    },
    {
      "epoch": 0.24792066538707613,
      "grad_norm": 2.1060361862182617,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1550
    },
    {
      "epoch": 0.2480806142034549,
      "grad_norm": 2.0490190982818604,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1551
    },
    {
      "epoch": 0.24824056301983366,
      "grad_norm": 2.060319423675537,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1552
    },
    {
      "epoch": 0.24840051183621242,
      "grad_norm": 1.9300251007080078,
      "learning_rate": 5e-07,
      "loss": 0.2654,
      "step": 1553
    },
    {
      "epoch": 0.24856046065259116,
      "grad_norm": 1.9774365425109863,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1554
    },
    {
      "epoch": 0.24872040946896992,
      "grad_norm": 1.9890865087509155,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1555
    },
    {
      "epoch": 0.24888035828534869,
      "grad_norm": 1.9982119798660278,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1556
    },
    {
      "epoch": 0.24904030710172745,
      "grad_norm": 2.024839162826538,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1557
    },
    {
      "epoch": 0.2492002559181062,
      "grad_norm": 2.270812749862671,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1558
    },
    {
      "epoch": 0.24936020473448497,
      "grad_norm": 1.955858588218689,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1559
    },
    {
      "epoch": 0.2495201535508637,
      "grad_norm": 1.9874370098114014,
      "learning_rate": 5e-07,
      "loss": 0.2684,
      "step": 1560
    },
    {
      "epoch": 0.24968010236724247,
      "grad_norm": 2.082841396331787,
      "learning_rate": 5e-07,
      "loss": 0.2743,
      "step": 1561
    },
    {
      "epoch": 0.24984005118362124,
      "grad_norm": 2.1813387870788574,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1562
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.2137961387634277,
      "learning_rate": 5e-07,
      "loss": 0.2771,
      "step": 1563
    },
    {
      "epoch": 0.25015994881637876,
      "grad_norm": 2.1406917572021484,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1564
    },
    {
      "epoch": 0.2503198976327575,
      "grad_norm": 2.240485191345215,
      "learning_rate": 5e-07,
      "loss": 0.2764,
      "step": 1565
    },
    {
      "epoch": 0.2504798464491363,
      "grad_norm": 1.8201141357421875,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1566
    },
    {
      "epoch": 0.25063979526551505,
      "grad_norm": 1.8251314163208008,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1567
    },
    {
      "epoch": 0.2507997440818938,
      "grad_norm": 1.9405267238616943,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1568
    },
    {
      "epoch": 0.2509596928982726,
      "grad_norm": 2.062267303466797,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1569
    },
    {
      "epoch": 0.2511196417146513,
      "grad_norm": 2.391512155532837,
      "learning_rate": 5e-07,
      "loss": 0.2782,
      "step": 1570
    },
    {
      "epoch": 0.25127959053103005,
      "grad_norm": 2.201719045639038,
      "learning_rate": 5e-07,
      "loss": 0.2769,
      "step": 1571
    },
    {
      "epoch": 0.2514395393474088,
      "grad_norm": 2.1322622299194336,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1572
    },
    {
      "epoch": 0.2515994881637876,
      "grad_norm": 2.258291482925415,
      "learning_rate": 5e-07,
      "loss": 0.277,
      "step": 1573
    },
    {
      "epoch": 0.25175943698016634,
      "grad_norm": 2.3216969966888428,
      "learning_rate": 5e-07,
      "loss": 0.28,
      "step": 1574
    },
    {
      "epoch": 0.2519193857965451,
      "grad_norm": 2.1428937911987305,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1575
    },
    {
      "epoch": 0.25207933461292387,
      "grad_norm": 2.5061707496643066,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1576
    },
    {
      "epoch": 0.25223928342930263,
      "grad_norm": 2.2703745365142822,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1577
    },
    {
      "epoch": 0.2523992322456814,
      "grad_norm": 2.181673526763916,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1578
    },
    {
      "epoch": 0.25255918106206016,
      "grad_norm": 1.9592252969741821,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1579
    },
    {
      "epoch": 0.2527191298784389,
      "grad_norm": 1.9677658081054688,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1580
    },
    {
      "epoch": 0.2528790786948177,
      "grad_norm": 2.1240015029907227,
      "learning_rate": 5e-07,
      "loss": 0.2712,
      "step": 1581
    },
    {
      "epoch": 0.2530390275111964,
      "grad_norm": 1.9988585710525513,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1582
    },
    {
      "epoch": 0.25319897632757515,
      "grad_norm": 1.913569688796997,
      "learning_rate": 5e-07,
      "loss": 0.2679,
      "step": 1583
    },
    {
      "epoch": 0.2533589251439539,
      "grad_norm": 1.9167698621749878,
      "learning_rate": 5e-07,
      "loss": 0.2697,
      "step": 1584
    },
    {
      "epoch": 0.2535188739603327,
      "grad_norm": 2.801119565963745,
      "learning_rate": 5e-07,
      "loss": 0.2799,
      "step": 1585
    },
    {
      "epoch": 0.25367882277671144,
      "grad_norm": 2.1601710319519043,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1586
    },
    {
      "epoch": 0.2538387715930902,
      "grad_norm": 1.980426549911499,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1587
    },
    {
      "epoch": 0.25399872040946897,
      "grad_norm": 2.0627241134643555,
      "learning_rate": 5e-07,
      "loss": 0.2778,
      "step": 1588
    },
    {
      "epoch": 0.25415866922584773,
      "grad_norm": 1.8802556991577148,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1589
    },
    {
      "epoch": 0.2543186180422265,
      "grad_norm": 2.019564628601074,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1590
    },
    {
      "epoch": 0.25447856685860526,
      "grad_norm": 1.881209373474121,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1591
    },
    {
      "epoch": 0.254638515674984,
      "grad_norm": 1.9344804286956787,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1592
    },
    {
      "epoch": 0.2547984644913628,
      "grad_norm": 1.8890597820281982,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1593
    },
    {
      "epoch": 0.25495841330774155,
      "grad_norm": 2.1023201942443848,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1594
    },
    {
      "epoch": 0.25511836212412026,
      "grad_norm": 1.9122744798660278,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1595
    },
    {
      "epoch": 0.255278310940499,
      "grad_norm": 1.9829988479614258,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1596
    },
    {
      "epoch": 0.2554382597568778,
      "grad_norm": 2.1146624088287354,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1597
    },
    {
      "epoch": 0.25559820857325655,
      "grad_norm": 2.009658098220825,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1598
    },
    {
      "epoch": 0.2557581573896353,
      "grad_norm": 1.884354829788208,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1599
    },
    {
      "epoch": 0.2559181062060141,
      "grad_norm": 2.111860513687134,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1600
    },
    {
      "epoch": 0.25607805502239284,
      "grad_norm": 1.7418309450149536,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1601
    },
    {
      "epoch": 0.2562380038387716,
      "grad_norm": 1.8930176496505737,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1602
    },
    {
      "epoch": 0.25639795265515036,
      "grad_norm": 1.9919873476028442,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1603
    },
    {
      "epoch": 0.2565579014715291,
      "grad_norm": 1.984145998954773,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1604
    },
    {
      "epoch": 0.2567178502879079,
      "grad_norm": 1.921873688697815,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1605
    },
    {
      "epoch": 0.25687779910428665,
      "grad_norm": 2.048128843307495,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1606
    },
    {
      "epoch": 0.25703774792066536,
      "grad_norm": 1.874233365058899,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1607
    },
    {
      "epoch": 0.2571976967370441,
      "grad_norm": 1.9564199447631836,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1608
    },
    {
      "epoch": 0.2573576455534229,
      "grad_norm": 2.0028834342956543,
      "learning_rate": 5e-07,
      "loss": 0.2697,
      "step": 1609
    },
    {
      "epoch": 0.25751759436980165,
      "grad_norm": 1.8941566944122314,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1610
    },
    {
      "epoch": 0.2576775431861804,
      "grad_norm": 1.7367126941680908,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1611
    },
    {
      "epoch": 0.2578374920025592,
      "grad_norm": 2.0677356719970703,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1612
    },
    {
      "epoch": 0.25799744081893794,
      "grad_norm": 2.0048534870147705,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1613
    },
    {
      "epoch": 0.2581573896353167,
      "grad_norm": 2.099514961242676,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1614
    },
    {
      "epoch": 0.25831733845169547,
      "grad_norm": 1.7681008577346802,
      "learning_rate": 5e-07,
      "loss": 0.2682,
      "step": 1615
    },
    {
      "epoch": 0.25847728726807423,
      "grad_norm": 2.1012091636657715,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1616
    },
    {
      "epoch": 0.258637236084453,
      "grad_norm": 1.9513771533966064,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1617
    },
    {
      "epoch": 0.25879718490083176,
      "grad_norm": 1.9817416667938232,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1618
    },
    {
      "epoch": 0.2589571337172105,
      "grad_norm": 2.0208592414855957,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1619
    },
    {
      "epoch": 0.2591170825335892,
      "grad_norm": 1.7985725402832031,
      "learning_rate": 5e-07,
      "loss": 0.2684,
      "step": 1620
    },
    {
      "epoch": 0.259277031349968,
      "grad_norm": 1.980438470840454,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1621
    },
    {
      "epoch": 0.25943698016634675,
      "grad_norm": 1.9054352045059204,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1622
    },
    {
      "epoch": 0.2595969289827255,
      "grad_norm": 3.544401168823242,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1623
    },
    {
      "epoch": 0.2597568777991043,
      "grad_norm": 1.875747799873352,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1624
    },
    {
      "epoch": 0.25991682661548304,
      "grad_norm": 2.2826173305511475,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1625
    },
    {
      "epoch": 0.2600767754318618,
      "grad_norm": 2.035710573196411,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1626
    },
    {
      "epoch": 0.26023672424824057,
      "grad_norm": 2.0104241371154785,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1627
    },
    {
      "epoch": 0.26039667306461933,
      "grad_norm": 1.969045877456665,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1628
    },
    {
      "epoch": 0.2605566218809981,
      "grad_norm": 2.084446668624878,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1629
    },
    {
      "epoch": 0.26071657069737686,
      "grad_norm": 1.7541415691375732,
      "learning_rate": 5e-07,
      "loss": 0.2672,
      "step": 1630
    },
    {
      "epoch": 0.2608765195137556,
      "grad_norm": 2.4324724674224854,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1631
    },
    {
      "epoch": 0.26103646833013433,
      "grad_norm": 2.0307681560516357,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1632
    },
    {
      "epoch": 0.2611964171465131,
      "grad_norm": 2.133755683898926,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1633
    },
    {
      "epoch": 0.26135636596289186,
      "grad_norm": 1.8593454360961914,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1634
    },
    {
      "epoch": 0.2615163147792706,
      "grad_norm": 2.116084098815918,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1635
    },
    {
      "epoch": 0.2616762635956494,
      "grad_norm": 1.9155082702636719,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1636
    },
    {
      "epoch": 0.26183621241202815,
      "grad_norm": 1.8434871435165405,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1637
    },
    {
      "epoch": 0.2619961612284069,
      "grad_norm": 1.9227969646453857,
      "learning_rate": 5e-07,
      "loss": 0.2672,
      "step": 1638
    },
    {
      "epoch": 0.2621561100447857,
      "grad_norm": 2.044327974319458,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1639
    },
    {
      "epoch": 0.26231605886116444,
      "grad_norm": 1.9270395040512085,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1640
    },
    {
      "epoch": 0.2624760076775432,
      "grad_norm": 2.085284471511841,
      "learning_rate": 5e-07,
      "loss": 0.2777,
      "step": 1641
    },
    {
      "epoch": 0.26263595649392196,
      "grad_norm": 2.0360360145568848,
      "learning_rate": 5e-07,
      "loss": 0.2699,
      "step": 1642
    },
    {
      "epoch": 0.2627959053103007,
      "grad_norm": 2.3589160442352295,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1643
    },
    {
      "epoch": 0.2629558541266795,
      "grad_norm": 1.9358904361724854,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1644
    },
    {
      "epoch": 0.2631158029430582,
      "grad_norm": 2.121159315109253,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1645
    },
    {
      "epoch": 0.26327575175943696,
      "grad_norm": 2.374972343444824,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1646
    },
    {
      "epoch": 0.2634357005758157,
      "grad_norm": 1.9596081972122192,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1647
    },
    {
      "epoch": 0.2635956493921945,
      "grad_norm": 1.8355811834335327,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1648
    },
    {
      "epoch": 0.26375559820857325,
      "grad_norm": 1.806134819984436,
      "learning_rate": 5e-07,
      "loss": 0.2731,
      "step": 1649
    },
    {
      "epoch": 0.263915547024952,
      "grad_norm": 2.1049861907958984,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1650
    },
    {
      "epoch": 0.2640754958413308,
      "grad_norm": 2.1445956230163574,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1651
    },
    {
      "epoch": 0.26423544465770954,
      "grad_norm": 1.7594939470291138,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1652
    },
    {
      "epoch": 0.2643953934740883,
      "grad_norm": 2.106764793395996,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1653
    },
    {
      "epoch": 0.26455534229046707,
      "grad_norm": 2.244473934173584,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1654
    },
    {
      "epoch": 0.26471529110684583,
      "grad_norm": 1.8917717933654785,
      "learning_rate": 5e-07,
      "loss": 0.2712,
      "step": 1655
    },
    {
      "epoch": 0.2648752399232246,
      "grad_norm": 1.9142706394195557,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1656
    },
    {
      "epoch": 0.2650351887396033,
      "grad_norm": 1.8907235860824585,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1657
    },
    {
      "epoch": 0.26519513755598206,
      "grad_norm": 1.9521077871322632,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1658
    },
    {
      "epoch": 0.2653550863723608,
      "grad_norm": 1.8260979652404785,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1659
    },
    {
      "epoch": 0.2655150351887396,
      "grad_norm": 1.868152379989624,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1660
    },
    {
      "epoch": 0.26567498400511835,
      "grad_norm": 2.212219476699829,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1661
    },
    {
      "epoch": 0.2658349328214971,
      "grad_norm": 2.0340466499328613,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1662
    },
    {
      "epoch": 0.2659948816378759,
      "grad_norm": 2.0828335285186768,
      "learning_rate": 5e-07,
      "loss": 0.2755,
      "step": 1663
    },
    {
      "epoch": 0.26615483045425464,
      "grad_norm": 1.8684508800506592,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1664
    },
    {
      "epoch": 0.2663147792706334,
      "grad_norm": 1.940080165863037,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1665
    },
    {
      "epoch": 0.26647472808701217,
      "grad_norm": 1.8689970970153809,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1666
    },
    {
      "epoch": 0.26663467690339093,
      "grad_norm": 2.044438362121582,
      "learning_rate": 5e-07,
      "loss": 0.2773,
      "step": 1667
    },
    {
      "epoch": 0.2667946257197697,
      "grad_norm": 2.06034255027771,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1668
    },
    {
      "epoch": 0.26695457453614846,
      "grad_norm": 1.83315908908844,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1669
    },
    {
      "epoch": 0.26711452335252717,
      "grad_norm": 1.8964273929595947,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1670
    },
    {
      "epoch": 0.26727447216890593,
      "grad_norm": 2.1747331619262695,
      "learning_rate": 5e-07,
      "loss": 0.2756,
      "step": 1671
    },
    {
      "epoch": 0.2674344209852847,
      "grad_norm": 1.9493106603622437,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1672
    },
    {
      "epoch": 0.26759436980166346,
      "grad_norm": 1.9167784452438354,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1673
    },
    {
      "epoch": 0.2677543186180422,
      "grad_norm": 1.995289921760559,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1674
    },
    {
      "epoch": 0.267914267434421,
      "grad_norm": 1.910056710243225,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1675
    },
    {
      "epoch": 0.26807421625079975,
      "grad_norm": 1.9726938009262085,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1676
    },
    {
      "epoch": 0.2682341650671785,
      "grad_norm": 2.2249763011932373,
      "learning_rate": 5e-07,
      "loss": 0.2751,
      "step": 1677
    },
    {
      "epoch": 0.2683941138835573,
      "grad_norm": 2.0621471405029297,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1678
    },
    {
      "epoch": 0.26855406269993604,
      "grad_norm": 2.1078431606292725,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1679
    },
    {
      "epoch": 0.2687140115163148,
      "grad_norm": 2.0104174613952637,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1680
    },
    {
      "epoch": 0.26887396033269356,
      "grad_norm": 1.8200817108154297,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1681
    },
    {
      "epoch": 0.26903390914907227,
      "grad_norm": 1.7794740200042725,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1682
    },
    {
      "epoch": 0.26919385796545103,
      "grad_norm": 1.8425568342208862,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1683
    },
    {
      "epoch": 0.2693538067818298,
      "grad_norm": 1.9565845727920532,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1684
    },
    {
      "epoch": 0.26951375559820856,
      "grad_norm": 1.835649013519287,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1685
    },
    {
      "epoch": 0.2696737044145873,
      "grad_norm": 2.000467300415039,
      "learning_rate": 5e-07,
      "loss": 0.2712,
      "step": 1686
    },
    {
      "epoch": 0.2698336532309661,
      "grad_norm": 1.9592499732971191,
      "learning_rate": 5e-07,
      "loss": 0.2697,
      "step": 1687
    },
    {
      "epoch": 0.26999360204734485,
      "grad_norm": 2.006713628768921,
      "learning_rate": 5e-07,
      "loss": 0.2779,
      "step": 1688
    },
    {
      "epoch": 0.2701535508637236,
      "grad_norm": 1.9881107807159424,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1689
    },
    {
      "epoch": 0.2703134996801024,
      "grad_norm": 2.025890350341797,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1690
    },
    {
      "epoch": 0.27047344849648114,
      "grad_norm": 2.238541603088379,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1691
    },
    {
      "epoch": 0.2706333973128599,
      "grad_norm": 1.9477155208587646,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1692
    },
    {
      "epoch": 0.27079334612923867,
      "grad_norm": 2.07310152053833,
      "learning_rate": 5e-07,
      "loss": 0.2693,
      "step": 1693
    },
    {
      "epoch": 0.27095329494561743,
      "grad_norm": 2.3602898120880127,
      "learning_rate": 5e-07,
      "loss": 0.2748,
      "step": 1694
    },
    {
      "epoch": 0.27111324376199614,
      "grad_norm": 1.9265029430389404,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1695
    },
    {
      "epoch": 0.2712731925783749,
      "grad_norm": 2.854686975479126,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1696
    },
    {
      "epoch": 0.27143314139475366,
      "grad_norm": 2.089848756790161,
      "learning_rate": 5e-07,
      "loss": 0.2745,
      "step": 1697
    },
    {
      "epoch": 0.2715930902111324,
      "grad_norm": 2.045442819595337,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1698
    },
    {
      "epoch": 0.2717530390275112,
      "grad_norm": 1.8971251249313354,
      "learning_rate": 5e-07,
      "loss": 0.2655,
      "step": 1699
    },
    {
      "epoch": 0.27191298784388995,
      "grad_norm": 1.9172042608261108,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1700
    },
    {
      "epoch": 0.2720729366602687,
      "grad_norm": 1.8816509246826172,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1701
    },
    {
      "epoch": 0.2722328854766475,
      "grad_norm": 2.0171875953674316,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1702
    },
    {
      "epoch": 0.27239283429302624,
      "grad_norm": 1.9965746402740479,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1703
    },
    {
      "epoch": 0.272552783109405,
      "grad_norm": 1.8770718574523926,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1704
    },
    {
      "epoch": 0.27271273192578377,
      "grad_norm": 1.800014615058899,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1705
    },
    {
      "epoch": 0.27287268074216253,
      "grad_norm": 1.9722952842712402,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1706
    },
    {
      "epoch": 0.27303262955854124,
      "grad_norm": 1.9358608722686768,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1707
    },
    {
      "epoch": 0.27319257837492,
      "grad_norm": 2.1634862422943115,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1708
    },
    {
      "epoch": 0.27335252719129877,
      "grad_norm": 1.7732454538345337,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1709
    },
    {
      "epoch": 0.27351247600767753,
      "grad_norm": 1.8295583724975586,
      "learning_rate": 5e-07,
      "loss": 0.2708,
      "step": 1710
    },
    {
      "epoch": 0.2736724248240563,
      "grad_norm": 1.9385395050048828,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1711
    },
    {
      "epoch": 0.27383237364043506,
      "grad_norm": 1.906981348991394,
      "learning_rate": 5e-07,
      "loss": 0.2667,
      "step": 1712
    },
    {
      "epoch": 0.2739923224568138,
      "grad_norm": 2.121523857116699,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1713
    },
    {
      "epoch": 0.2741522712731926,
      "grad_norm": 2.2695677280426025,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1714
    },
    {
      "epoch": 0.27431222008957135,
      "grad_norm": 1.9765619039535522,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1715
    },
    {
      "epoch": 0.2744721689059501,
      "grad_norm": 2.1803297996520996,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1716
    },
    {
      "epoch": 0.2746321177223289,
      "grad_norm": 2.108931064605713,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1717
    },
    {
      "epoch": 0.27479206653870764,
      "grad_norm": 2.1394546031951904,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1718
    },
    {
      "epoch": 0.2749520153550864,
      "grad_norm": 2.0094857215881348,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1719
    },
    {
      "epoch": 0.2751119641714651,
      "grad_norm": 1.9287158250808716,
      "learning_rate": 5e-07,
      "loss": 0.2674,
      "step": 1720
    },
    {
      "epoch": 0.27527191298784387,
      "grad_norm": 1.923028826713562,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1721
    },
    {
      "epoch": 0.27543186180422263,
      "grad_norm": 2.004765510559082,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1722
    },
    {
      "epoch": 0.2755918106206014,
      "grad_norm": 1.817862629890442,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1723
    },
    {
      "epoch": 0.27575175943698016,
      "grad_norm": 1.8368148803710938,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1724
    },
    {
      "epoch": 0.2759117082533589,
      "grad_norm": 2.0815353393554688,
      "learning_rate": 5e-07,
      "loss": 0.2688,
      "step": 1725
    },
    {
      "epoch": 0.2760716570697377,
      "grad_norm": 1.7163336277008057,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1726
    },
    {
      "epoch": 0.27623160588611645,
      "grad_norm": 1.9108020067214966,
      "learning_rate": 5e-07,
      "loss": 0.2679,
      "step": 1727
    },
    {
      "epoch": 0.2763915547024952,
      "grad_norm": 1.97450852394104,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1728
    },
    {
      "epoch": 0.276551503518874,
      "grad_norm": 3.664989709854126,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1729
    },
    {
      "epoch": 0.27671145233525274,
      "grad_norm": 2.024005889892578,
      "learning_rate": 5e-07,
      "loss": 0.2684,
      "step": 1730
    },
    {
      "epoch": 0.2768714011516315,
      "grad_norm": 2.200910806655884,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1731
    },
    {
      "epoch": 0.2770313499680102,
      "grad_norm": 2.2537851333618164,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1732
    },
    {
      "epoch": 0.277191298784389,
      "grad_norm": 2.0056941509246826,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1733
    },
    {
      "epoch": 0.27735124760076774,
      "grad_norm": 2.242291212081909,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1734
    },
    {
      "epoch": 0.2775111964171465,
      "grad_norm": 1.8726063966751099,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1735
    },
    {
      "epoch": 0.27767114523352526,
      "grad_norm": 1.858237385749817,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1736
    },
    {
      "epoch": 0.277831094049904,
      "grad_norm": 2.702385187149048,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1737
    },
    {
      "epoch": 0.2779910428662828,
      "grad_norm": 2.163727283477783,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1738
    },
    {
      "epoch": 0.27815099168266155,
      "grad_norm": 1.895602822303772,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1739
    },
    {
      "epoch": 0.2783109404990403,
      "grad_norm": 1.7277904748916626,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1740
    },
    {
      "epoch": 0.2784708893154191,
      "grad_norm": 1.918855905532837,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1741
    },
    {
      "epoch": 0.27863083813179784,
      "grad_norm": 1.998194932937622,
      "learning_rate": 5e-07,
      "loss": 0.2744,
      "step": 1742
    },
    {
      "epoch": 0.2787907869481766,
      "grad_norm": 1.8371162414550781,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1743
    },
    {
      "epoch": 0.27895073576455537,
      "grad_norm": 1.812403917312622,
      "learning_rate": 5e-07,
      "loss": 0.2708,
      "step": 1744
    },
    {
      "epoch": 0.2791106845809341,
      "grad_norm": 2.0349557399749756,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1745
    },
    {
      "epoch": 0.27927063339731284,
      "grad_norm": 1.8004101514816284,
      "learning_rate": 5e-07,
      "loss": 0.2688,
      "step": 1746
    },
    {
      "epoch": 0.2794305822136916,
      "grad_norm": 2.101602792739868,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1747
    },
    {
      "epoch": 0.27959053103007037,
      "grad_norm": 2.0900261402130127,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1748
    },
    {
      "epoch": 0.27975047984644913,
      "grad_norm": 2.157825231552124,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1749
    },
    {
      "epoch": 0.2799104286628279,
      "grad_norm": 2.037541627883911,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1750
    },
    {
      "epoch": 0.28007037747920666,
      "grad_norm": 2.027137041091919,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1751
    },
    {
      "epoch": 0.2802303262955854,
      "grad_norm": 2.022184133529663,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1752
    },
    {
      "epoch": 0.2803902751119642,
      "grad_norm": 1.8442940711975098,
      "learning_rate": 5e-07,
      "loss": 0.2667,
      "step": 1753
    },
    {
      "epoch": 0.28055022392834295,
      "grad_norm": 2.634350299835205,
      "learning_rate": 5e-07,
      "loss": 0.2725,
      "step": 1754
    },
    {
      "epoch": 0.2807101727447217,
      "grad_norm": 1.9681283235549927,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1755
    },
    {
      "epoch": 0.28087012156110047,
      "grad_norm": 1.9755828380584717,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1756
    },
    {
      "epoch": 0.2810300703774792,
      "grad_norm": 2.0525782108306885,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1757
    },
    {
      "epoch": 0.28119001919385794,
      "grad_norm": 2.6285409927368164,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1758
    },
    {
      "epoch": 0.2813499680102367,
      "grad_norm": 1.873609185218811,
      "learning_rate": 5e-07,
      "loss": 0.265,
      "step": 1759
    },
    {
      "epoch": 0.28150991682661547,
      "grad_norm": 2.080366373062134,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1760
    },
    {
      "epoch": 0.28166986564299423,
      "grad_norm": 1.9470980167388916,
      "learning_rate": 5e-07,
      "loss": 0.2676,
      "step": 1761
    },
    {
      "epoch": 0.281829814459373,
      "grad_norm": 2.040250539779663,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1762
    },
    {
      "epoch": 0.28198976327575176,
      "grad_norm": 1.8845492601394653,
      "learning_rate": 5e-07,
      "loss": 0.2675,
      "step": 1763
    },
    {
      "epoch": 0.2821497120921305,
      "grad_norm": 2.313918352127075,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1764
    },
    {
      "epoch": 0.2823096609085093,
      "grad_norm": 2.052537202835083,
      "learning_rate": 5e-07,
      "loss": 0.2709,
      "step": 1765
    },
    {
      "epoch": 0.28246960972488805,
      "grad_norm": 2.0001301765441895,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1766
    },
    {
      "epoch": 0.2826295585412668,
      "grad_norm": 1.9176783561706543,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1767
    },
    {
      "epoch": 0.2827895073576456,
      "grad_norm": 2.083451271057129,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1768
    },
    {
      "epoch": 0.28294945617402434,
      "grad_norm": 1.9723972082138062,
      "learning_rate": 5e-07,
      "loss": 0.2688,
      "step": 1769
    },
    {
      "epoch": 0.28310940499040305,
      "grad_norm": 1.9191709756851196,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1770
    },
    {
      "epoch": 0.2832693538067818,
      "grad_norm": 1.9137948751449585,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1771
    },
    {
      "epoch": 0.2834293026231606,
      "grad_norm": 2.2685060501098633,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1772
    },
    {
      "epoch": 0.28358925143953934,
      "grad_norm": 1.9502073526382446,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1773
    },
    {
      "epoch": 0.2837492002559181,
      "grad_norm": 1.7999200820922852,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1774
    },
    {
      "epoch": 0.28390914907229686,
      "grad_norm": 1.8259291648864746,
      "learning_rate": 5e-07,
      "loss": 0.2733,
      "step": 1775
    },
    {
      "epoch": 0.2840690978886756,
      "grad_norm": 1.7884807586669922,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1776
    },
    {
      "epoch": 0.2842290467050544,
      "grad_norm": 2.4445197582244873,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1777
    },
    {
      "epoch": 0.28438899552143315,
      "grad_norm": 1.8671404123306274,
      "learning_rate": 5e-07,
      "loss": 0.2665,
      "step": 1778
    },
    {
      "epoch": 0.2845489443378119,
      "grad_norm": 1.9033657312393188,
      "learning_rate": 5e-07,
      "loss": 0.274,
      "step": 1779
    },
    {
      "epoch": 0.2847088931541907,
      "grad_norm": 1.8751062154769897,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1780
    },
    {
      "epoch": 0.28486884197056944,
      "grad_norm": 1.8438231945037842,
      "learning_rate": 5e-07,
      "loss": 0.2677,
      "step": 1781
    },
    {
      "epoch": 0.28502879078694815,
      "grad_norm": 2.115551710128784,
      "learning_rate": 5e-07,
      "loss": 0.2774,
      "step": 1782
    },
    {
      "epoch": 0.2851887396033269,
      "grad_norm": 2.2021825313568115,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1783
    },
    {
      "epoch": 0.2853486884197057,
      "grad_norm": 2.1413986682891846,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1784
    },
    {
      "epoch": 0.28550863723608444,
      "grad_norm": 2.6670002937316895,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1785
    },
    {
      "epoch": 0.2856685860524632,
      "grad_norm": 1.9939457178115845,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1786
    },
    {
      "epoch": 0.28582853486884197,
      "grad_norm": 1.9986331462860107,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1787
    },
    {
      "epoch": 0.28598848368522073,
      "grad_norm": 2.0394554138183594,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1788
    },
    {
      "epoch": 0.2861484325015995,
      "grad_norm": 1.9553189277648926,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1789
    },
    {
      "epoch": 0.28630838131797826,
      "grad_norm": 1.9454374313354492,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1790
    },
    {
      "epoch": 0.286468330134357,
      "grad_norm": 1.751222848892212,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1791
    },
    {
      "epoch": 0.2866282789507358,
      "grad_norm": 1.914515495300293,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1792
    },
    {
      "epoch": 0.28678822776711455,
      "grad_norm": 1.8362411260604858,
      "learning_rate": 5e-07,
      "loss": 0.2738,
      "step": 1793
    },
    {
      "epoch": 0.2869481765834933,
      "grad_norm": 2.039855718612671,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1794
    },
    {
      "epoch": 0.287108125399872,
      "grad_norm": 2.0586049556732178,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1795
    },
    {
      "epoch": 0.2872680742162508,
      "grad_norm": 2.364192247390747,
      "learning_rate": 5e-07,
      "loss": 0.2743,
      "step": 1796
    },
    {
      "epoch": 0.28742802303262954,
      "grad_norm": 2.338449716567993,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1797
    },
    {
      "epoch": 0.2875879718490083,
      "grad_norm": 2.1379830837249756,
      "learning_rate": 5e-07,
      "loss": 0.268,
      "step": 1798
    },
    {
      "epoch": 0.28774792066538707,
      "grad_norm": 2.0432071685791016,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1799
    },
    {
      "epoch": 0.28790786948176583,
      "grad_norm": 1.9117772579193115,
      "learning_rate": 5e-07,
      "loss": 0.2675,
      "step": 1800
    },
    {
      "epoch": 0.2880678182981446,
      "grad_norm": 2.518589735031128,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1801
    },
    {
      "epoch": 0.28822776711452336,
      "grad_norm": 1.9873831272125244,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1802
    },
    {
      "epoch": 0.2883877159309021,
      "grad_norm": 2.7648766040802,
      "learning_rate": 5e-07,
      "loss": 0.2759,
      "step": 1803
    },
    {
      "epoch": 0.2885476647472809,
      "grad_norm": 1.9763269424438477,
      "learning_rate": 5e-07,
      "loss": 0.2759,
      "step": 1804
    },
    {
      "epoch": 0.28870761356365965,
      "grad_norm": 1.9933334589004517,
      "learning_rate": 5e-07,
      "loss": 0.2719,
      "step": 1805
    },
    {
      "epoch": 0.2888675623800384,
      "grad_norm": 1.8398122787475586,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1806
    },
    {
      "epoch": 0.2890275111964171,
      "grad_norm": 1.7783970832824707,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1807
    },
    {
      "epoch": 0.2891874600127959,
      "grad_norm": 1.804634690284729,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1808
    },
    {
      "epoch": 0.28934740882917465,
      "grad_norm": 2.008035182952881,
      "learning_rate": 5e-07,
      "loss": 0.2735,
      "step": 1809
    },
    {
      "epoch": 0.2895073576455534,
      "grad_norm": 1.8609689474105835,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1810
    },
    {
      "epoch": 0.2896673064619322,
      "grad_norm": 2.186894178390503,
      "learning_rate": 5e-07,
      "loss": 0.2673,
      "step": 1811
    },
    {
      "epoch": 0.28982725527831094,
      "grad_norm": 2.165252685546875,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1812
    },
    {
      "epoch": 0.2899872040946897,
      "grad_norm": 2.021484613418579,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1813
    },
    {
      "epoch": 0.29014715291106846,
      "grad_norm": 2.140378475189209,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1814
    },
    {
      "epoch": 0.2903071017274472,
      "grad_norm": 1.9332668781280518,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1815
    },
    {
      "epoch": 0.290467050543826,
      "grad_norm": 2.033332109451294,
      "learning_rate": 5e-07,
      "loss": 0.2686,
      "step": 1816
    },
    {
      "epoch": 0.29062699936020475,
      "grad_norm": 2.0487937927246094,
      "learning_rate": 5e-07,
      "loss": 0.2729,
      "step": 1817
    },
    {
      "epoch": 0.2907869481765835,
      "grad_norm": 2.105422019958496,
      "learning_rate": 5e-07,
      "loss": 0.2691,
      "step": 1818
    },
    {
      "epoch": 0.2909468969929623,
      "grad_norm": 1.9632772207260132,
      "learning_rate": 5e-07,
      "loss": 0.2697,
      "step": 1819
    },
    {
      "epoch": 0.291106845809341,
      "grad_norm": 1.8237981796264648,
      "learning_rate": 5e-07,
      "loss": 0.2657,
      "step": 1820
    },
    {
      "epoch": 0.29126679462571975,
      "grad_norm": 1.9227348566055298,
      "learning_rate": 5e-07,
      "loss": 0.2662,
      "step": 1821
    },
    {
      "epoch": 0.2914267434420985,
      "grad_norm": 2.1832334995269775,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1822
    },
    {
      "epoch": 0.2915866922584773,
      "grad_norm": 1.9139577150344849,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1823
    },
    {
      "epoch": 0.29174664107485604,
      "grad_norm": 2.200282573699951,
      "learning_rate": 5e-07,
      "loss": 0.2767,
      "step": 1824
    },
    {
      "epoch": 0.2919065898912348,
      "grad_norm": 2.101017475128174,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1825
    },
    {
      "epoch": 0.29206653870761357,
      "grad_norm": 1.8136428594589233,
      "learning_rate": 5e-07,
      "loss": 0.2691,
      "step": 1826
    },
    {
      "epoch": 0.29222648752399233,
      "grad_norm": 2.096606969833374,
      "learning_rate": 5e-07,
      "loss": 0.2749,
      "step": 1827
    },
    {
      "epoch": 0.2923864363403711,
      "grad_norm": 1.7126610279083252,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1828
    },
    {
      "epoch": 0.29254638515674986,
      "grad_norm": 1.9210999011993408,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1829
    },
    {
      "epoch": 0.2927063339731286,
      "grad_norm": 1.8074997663497925,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1830
    },
    {
      "epoch": 0.2928662827895074,
      "grad_norm": 1.7479944229125977,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1831
    },
    {
      "epoch": 0.2930262316058861,
      "grad_norm": 1.793070912361145,
      "learning_rate": 5e-07,
      "loss": 0.2699,
      "step": 1832
    },
    {
      "epoch": 0.29318618042226485,
      "grad_norm": 1.749962568283081,
      "learning_rate": 5e-07,
      "loss": 0.2741,
      "step": 1833
    },
    {
      "epoch": 0.2933461292386436,
      "grad_norm": 1.8878709077835083,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1834
    },
    {
      "epoch": 0.2935060780550224,
      "grad_norm": 1.7663475275039673,
      "learning_rate": 5e-07,
      "loss": 0.2712,
      "step": 1835
    },
    {
      "epoch": 0.29366602687140114,
      "grad_norm": 1.941514253616333,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1836
    },
    {
      "epoch": 0.2938259756877799,
      "grad_norm": 2.0243148803710938,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1837
    },
    {
      "epoch": 0.29398592450415867,
      "grad_norm": 2.230451822280884,
      "learning_rate": 5e-07,
      "loss": 0.2736,
      "step": 1838
    },
    {
      "epoch": 0.29414587332053743,
      "grad_norm": 2.168525457382202,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1839
    },
    {
      "epoch": 0.2943058221369162,
      "grad_norm": 2.3060202598571777,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1840
    },
    {
      "epoch": 0.29446577095329496,
      "grad_norm": 2.134824275970459,
      "learning_rate": 5e-07,
      "loss": 0.2718,
      "step": 1841
    },
    {
      "epoch": 0.2946257197696737,
      "grad_norm": 1.9205037355422974,
      "learning_rate": 5e-07,
      "loss": 0.2666,
      "step": 1842
    },
    {
      "epoch": 0.2947856685860525,
      "grad_norm": 1.9356285333633423,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1843
    },
    {
      "epoch": 0.29494561740243125,
      "grad_norm": 1.7284842729568481,
      "learning_rate": 5e-07,
      "loss": 0.2686,
      "step": 1844
    },
    {
      "epoch": 0.29510556621880996,
      "grad_norm": 2.066701650619507,
      "learning_rate": 5e-07,
      "loss": 0.2737,
      "step": 1845
    },
    {
      "epoch": 0.2952655150351887,
      "grad_norm": 2.1159589290618896,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1846
    },
    {
      "epoch": 0.2954254638515675,
      "grad_norm": 1.7775349617004395,
      "learning_rate": 5e-07,
      "loss": 0.2647,
      "step": 1847
    },
    {
      "epoch": 0.29558541266794625,
      "grad_norm": 2.3490991592407227,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1848
    },
    {
      "epoch": 0.295745361484325,
      "grad_norm": 1.8230282068252563,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1849
    },
    {
      "epoch": 0.29590531030070377,
      "grad_norm": 1.922565221786499,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1850
    },
    {
      "epoch": 0.29606525911708254,
      "grad_norm": 1.9432461261749268,
      "learning_rate": 5e-07,
      "loss": 0.2708,
      "step": 1851
    },
    {
      "epoch": 0.2962252079334613,
      "grad_norm": 1.746999979019165,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1852
    },
    {
      "epoch": 0.29638515674984006,
      "grad_norm": 1.882699966430664,
      "learning_rate": 5e-07,
      "loss": 0.2712,
      "step": 1853
    },
    {
      "epoch": 0.2965451055662188,
      "grad_norm": 2.0509138107299805,
      "learning_rate": 5e-07,
      "loss": 0.2693,
      "step": 1854
    },
    {
      "epoch": 0.2967050543825976,
      "grad_norm": 2.3181209564208984,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1855
    },
    {
      "epoch": 0.29686500319897635,
      "grad_norm": 2.419787883758545,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1856
    },
    {
      "epoch": 0.29702495201535506,
      "grad_norm": 2.4743521213531494,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1857
    },
    {
      "epoch": 0.2971849008317338,
      "grad_norm": 1.8192946910858154,
      "learning_rate": 5e-07,
      "loss": 0.2677,
      "step": 1858
    },
    {
      "epoch": 0.2973448496481126,
      "grad_norm": 2.077698230743408,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1859
    },
    {
      "epoch": 0.29750479846449135,
      "grad_norm": 2.03847599029541,
      "learning_rate": 5e-07,
      "loss": 0.2661,
      "step": 1860
    },
    {
      "epoch": 0.2976647472808701,
      "grad_norm": 1.7050879001617432,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1861
    },
    {
      "epoch": 0.2978246960972489,
      "grad_norm": 2.350313663482666,
      "learning_rate": 5e-07,
      "loss": 0.273,
      "step": 1862
    },
    {
      "epoch": 0.29798464491362764,
      "grad_norm": 2.078641891479492,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1863
    },
    {
      "epoch": 0.2981445937300064,
      "grad_norm": 1.8866384029388428,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1864
    },
    {
      "epoch": 0.29830454254638517,
      "grad_norm": 1.7941280603408813,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1865
    },
    {
      "epoch": 0.29846449136276393,
      "grad_norm": 1.7305265665054321,
      "learning_rate": 5e-07,
      "loss": 0.2658,
      "step": 1866
    },
    {
      "epoch": 0.2986244401791427,
      "grad_norm": 2.128873109817505,
      "learning_rate": 5e-07,
      "loss": 0.2734,
      "step": 1867
    },
    {
      "epoch": 0.29878438899552145,
      "grad_norm": 1.7043566703796387,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1868
    },
    {
      "epoch": 0.2989443378119002,
      "grad_norm": 1.756003975868225,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1869
    },
    {
      "epoch": 0.2991042866282789,
      "grad_norm": 1.8915259838104248,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1870
    },
    {
      "epoch": 0.2992642354446577,
      "grad_norm": 1.7135298252105713,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1871
    },
    {
      "epoch": 0.29942418426103645,
      "grad_norm": 1.872549057006836,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1872
    },
    {
      "epoch": 0.2995841330774152,
      "grad_norm": 2.062088966369629,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1873
    },
    {
      "epoch": 0.299744081893794,
      "grad_norm": 1.8826881647109985,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1874
    },
    {
      "epoch": 0.29990403071017274,
      "grad_norm": 1.964802861213684,
      "learning_rate": 5e-07,
      "loss": 0.2731,
      "step": 1875
    },
    {
      "epoch": 0.3000639795265515,
      "grad_norm": 1.8993772268295288,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1876
    },
    {
      "epoch": 0.30022392834293027,
      "grad_norm": 1.819790005683899,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1877
    },
    {
      "epoch": 0.30038387715930903,
      "grad_norm": 1.8599504232406616,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1878
    },
    {
      "epoch": 0.3005438259756878,
      "grad_norm": 1.8906056880950928,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1879
    },
    {
      "epoch": 0.30070377479206656,
      "grad_norm": 1.7632817029953003,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1880
    },
    {
      "epoch": 0.3008637236084453,
      "grad_norm": 1.8525406122207642,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1881
    },
    {
      "epoch": 0.30102367242482403,
      "grad_norm": 1.7818318605422974,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1882
    },
    {
      "epoch": 0.3011836212412028,
      "grad_norm": 1.8872019052505493,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1883
    },
    {
      "epoch": 0.30134357005758156,
      "grad_norm": 1.723039984703064,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1884
    },
    {
      "epoch": 0.3015035188739603,
      "grad_norm": 2.162645101547241,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1885
    },
    {
      "epoch": 0.3016634676903391,
      "grad_norm": 1.930419683456421,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1886
    },
    {
      "epoch": 0.30182341650671785,
      "grad_norm": 1.9902398586273193,
      "learning_rate": 5e-07,
      "loss": 0.2693,
      "step": 1887
    },
    {
      "epoch": 0.3019833653230966,
      "grad_norm": 1.9488673210144043,
      "learning_rate": 5e-07,
      "loss": 0.2682,
      "step": 1888
    },
    {
      "epoch": 0.30214331413947537,
      "grad_norm": 2.098499298095703,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1889
    },
    {
      "epoch": 0.30230326295585414,
      "grad_norm": 1.8979915380477905,
      "learning_rate": 5e-07,
      "loss": 0.2681,
      "step": 1890
    },
    {
      "epoch": 0.3024632117722329,
      "grad_norm": 1.8344597816467285,
      "learning_rate": 5e-07,
      "loss": 0.267,
      "step": 1891
    },
    {
      "epoch": 0.30262316058861166,
      "grad_norm": 2.1357903480529785,
      "learning_rate": 5e-07,
      "loss": 0.2699,
      "step": 1892
    },
    {
      "epoch": 0.3027831094049904,
      "grad_norm": 2.036909341812134,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1893
    },
    {
      "epoch": 0.3029430582213692,
      "grad_norm": 1.9058221578598022,
      "learning_rate": 5e-07,
      "loss": 0.2683,
      "step": 1894
    },
    {
      "epoch": 0.3031030070377479,
      "grad_norm": 2.2650210857391357,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1895
    },
    {
      "epoch": 0.30326295585412666,
      "grad_norm": 1.8745206594467163,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1896
    },
    {
      "epoch": 0.3034229046705054,
      "grad_norm": 1.7600162029266357,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1897
    },
    {
      "epoch": 0.3035828534868842,
      "grad_norm": 1.9288721084594727,
      "learning_rate": 5e-07,
      "loss": 0.2677,
      "step": 1898
    },
    {
      "epoch": 0.30374280230326295,
      "grad_norm": 1.7637619972229004,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1899
    },
    {
      "epoch": 0.3039027511196417,
      "grad_norm": 2.0470800399780273,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1900
    },
    {
      "epoch": 0.3040626999360205,
      "grad_norm": 1.740407943725586,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1901
    },
    {
      "epoch": 0.30422264875239924,
      "grad_norm": 1.8493036031723022,
      "learning_rate": 5e-07,
      "loss": 0.2732,
      "step": 1902
    },
    {
      "epoch": 0.304382597568778,
      "grad_norm": 2.174443244934082,
      "learning_rate": 5e-07,
      "loss": 0.2717,
      "step": 1903
    },
    {
      "epoch": 0.30454254638515676,
      "grad_norm": 1.9071149826049805,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1904
    },
    {
      "epoch": 0.30470249520153553,
      "grad_norm": 1.807286024093628,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1905
    },
    {
      "epoch": 0.3048624440179143,
      "grad_norm": 1.863168716430664,
      "learning_rate": 5e-07,
      "loss": 0.2724,
      "step": 1906
    },
    {
      "epoch": 0.305022392834293,
      "grad_norm": 1.741051197052002,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1907
    },
    {
      "epoch": 0.30518234165067176,
      "grad_norm": 1.7997703552246094,
      "learning_rate": 5e-07,
      "loss": 0.2693,
      "step": 1908
    },
    {
      "epoch": 0.3053422904670505,
      "grad_norm": 1.7666953802108765,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1909
    },
    {
      "epoch": 0.3055022392834293,
      "grad_norm": 1.827452301979065,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1910
    },
    {
      "epoch": 0.30566218809980805,
      "grad_norm": 1.8088375329971313,
      "learning_rate": 5e-07,
      "loss": 0.2664,
      "step": 1911
    },
    {
      "epoch": 0.3058221369161868,
      "grad_norm": 2.173734664916992,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1912
    },
    {
      "epoch": 0.3059820857325656,
      "grad_norm": 2.12445068359375,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1913
    },
    {
      "epoch": 0.30614203454894434,
      "grad_norm": 2.0333969593048096,
      "learning_rate": 5e-07,
      "loss": 0.2711,
      "step": 1914
    },
    {
      "epoch": 0.3063019833653231,
      "grad_norm": 1.9996432065963745,
      "learning_rate": 5e-07,
      "loss": 0.2695,
      "step": 1915
    },
    {
      "epoch": 0.30646193218170187,
      "grad_norm": 1.894071340560913,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1916
    },
    {
      "epoch": 0.30662188099808063,
      "grad_norm": 1.8524612188339233,
      "learning_rate": 5e-07,
      "loss": 0.2643,
      "step": 1917
    },
    {
      "epoch": 0.3067818298144594,
      "grad_norm": 1.899437427520752,
      "learning_rate": 5e-07,
      "loss": 0.2699,
      "step": 1918
    },
    {
      "epoch": 0.30694177863083816,
      "grad_norm": 2.2226274013519287,
      "learning_rate": 5e-07,
      "loss": 0.2686,
      "step": 1919
    },
    {
      "epoch": 0.30710172744721687,
      "grad_norm": 1.9286595582962036,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1920
    },
    {
      "epoch": 0.30726167626359563,
      "grad_norm": 2.107196092605591,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1921
    },
    {
      "epoch": 0.3074216250799744,
      "grad_norm": 1.9425067901611328,
      "learning_rate": 5e-07,
      "loss": 0.2723,
      "step": 1922
    },
    {
      "epoch": 0.30758157389635316,
      "grad_norm": 1.9667836427688599,
      "learning_rate": 5e-07,
      "loss": 0.2674,
      "step": 1923
    },
    {
      "epoch": 0.3077415227127319,
      "grad_norm": 1.9834693670272827,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1924
    },
    {
      "epoch": 0.3079014715291107,
      "grad_norm": 1.9353333711624146,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1925
    },
    {
      "epoch": 0.30806142034548945,
      "grad_norm": 1.991396427154541,
      "learning_rate": 5e-07,
      "loss": 0.2728,
      "step": 1926
    },
    {
      "epoch": 0.3082213691618682,
      "grad_norm": 1.7266112565994263,
      "learning_rate": 5e-07,
      "loss": 0.269,
      "step": 1927
    },
    {
      "epoch": 0.30838131797824697,
      "grad_norm": 1.7807658910751343,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1928
    },
    {
      "epoch": 0.30854126679462573,
      "grad_norm": 1.6605514287948608,
      "learning_rate": 5e-07,
      "loss": 0.2699,
      "step": 1929
    },
    {
      "epoch": 0.3087012156110045,
      "grad_norm": 1.840344786643982,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1930
    },
    {
      "epoch": 0.30886116442738326,
      "grad_norm": 1.8401814699172974,
      "learning_rate": 5e-07,
      "loss": 0.2716,
      "step": 1931
    },
    {
      "epoch": 0.30902111324376197,
      "grad_norm": 2.1471590995788574,
      "learning_rate": 5e-07,
      "loss": 0.2704,
      "step": 1932
    },
    {
      "epoch": 0.30918106206014073,
      "grad_norm": 1.7955392599105835,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1933
    },
    {
      "epoch": 0.3093410108765195,
      "grad_norm": 2.0317254066467285,
      "learning_rate": 5e-07,
      "loss": 0.27,
      "step": 1934
    },
    {
      "epoch": 0.30950095969289826,
      "grad_norm": 2.0569193363189697,
      "learning_rate": 5e-07,
      "loss": 0.2676,
      "step": 1935
    },
    {
      "epoch": 0.309660908509277,
      "grad_norm": 1.9679269790649414,
      "learning_rate": 5e-07,
      "loss": 0.2667,
      "step": 1936
    },
    {
      "epoch": 0.3098208573256558,
      "grad_norm": 1.9848546981811523,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1937
    },
    {
      "epoch": 0.30998080614203455,
      "grad_norm": 1.8803400993347168,
      "learning_rate": 5e-07,
      "loss": 0.2681,
      "step": 1938
    },
    {
      "epoch": 0.3101407549584133,
      "grad_norm": 2.191892147064209,
      "learning_rate": 5e-07,
      "loss": 0.2683,
      "step": 1939
    },
    {
      "epoch": 0.3103007037747921,
      "grad_norm": 2.3803367614746094,
      "learning_rate": 5e-07,
      "loss": 0.2727,
      "step": 1940
    },
    {
      "epoch": 0.31046065259117084,
      "grad_norm": 2.2139105796813965,
      "learning_rate": 5e-07,
      "loss": 0.2739,
      "step": 1941
    },
    {
      "epoch": 0.3106206014075496,
      "grad_norm": 2.2301740646362305,
      "learning_rate": 5e-07,
      "loss": 0.2714,
      "step": 1942
    },
    {
      "epoch": 0.31078055022392836,
      "grad_norm": 2.031670331954956,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1943
    },
    {
      "epoch": 0.31094049904030713,
      "grad_norm": 1.737302541732788,
      "learning_rate": 5e-07,
      "loss": 0.2688,
      "step": 1944
    },
    {
      "epoch": 0.31110044785668584,
      "grad_norm": 1.823608636856079,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1945
    },
    {
      "epoch": 0.3112603966730646,
      "grad_norm": 1.7618757486343384,
      "learning_rate": 5e-07,
      "loss": 0.2705,
      "step": 1946
    },
    {
      "epoch": 0.31142034548944336,
      "grad_norm": 1.6191918849945068,
      "learning_rate": 5e-07,
      "loss": 0.2697,
      "step": 1947
    },
    {
      "epoch": 0.3115802943058221,
      "grad_norm": 1.833140254020691,
      "learning_rate": 5e-07,
      "loss": 0.2659,
      "step": 1948
    },
    {
      "epoch": 0.3117402431222009,
      "grad_norm": 1.7401589155197144,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1949
    },
    {
      "epoch": 0.31190019193857965,
      "grad_norm": 1.6884955167770386,
      "learning_rate": 5e-07,
      "loss": 0.2669,
      "step": 1950
    },
    {
      "epoch": 0.3120601407549584,
      "grad_norm": 1.7894212007522583,
      "learning_rate": 5e-07,
      "loss": 0.2691,
      "step": 1951
    },
    {
      "epoch": 0.3122200895713372,
      "grad_norm": 1.783051609992981,
      "learning_rate": 5e-07,
      "loss": 0.2675,
      "step": 1952
    },
    {
      "epoch": 0.31238003838771594,
      "grad_norm": 2.0204455852508545,
      "learning_rate": 5e-07,
      "loss": 0.2686,
      "step": 1953
    },
    {
      "epoch": 0.3125399872040947,
      "grad_norm": 2.1701271533966064,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1954
    },
    {
      "epoch": 0.31269993602047347,
      "grad_norm": 1.9800236225128174,
      "learning_rate": 5e-07,
      "loss": 0.2672,
      "step": 1955
    },
    {
      "epoch": 0.31285988483685223,
      "grad_norm": 2.0025851726531982,
      "learning_rate": 5e-07,
      "loss": 0.2673,
      "step": 1956
    },
    {
      "epoch": 0.31301983365323094,
      "grad_norm": 2.6935007572174072,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1957
    },
    {
      "epoch": 0.3131797824696097,
      "grad_norm": 1.983868956565857,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1958
    },
    {
      "epoch": 0.31333973128598847,
      "grad_norm": 1.795587182044983,
      "learning_rate": 5e-07,
      "loss": 0.2681,
      "step": 1959
    },
    {
      "epoch": 0.31349968010236723,
      "grad_norm": 1.964097261428833,
      "learning_rate": 5e-07,
      "loss": 0.2692,
      "step": 1960
    },
    {
      "epoch": 0.313659628918746,
      "grad_norm": 2.07143497467041,
      "learning_rate": 5e-07,
      "loss": 0.2706,
      "step": 1961
    },
    {
      "epoch": 0.31381957773512476,
      "grad_norm": 2.0357229709625244,
      "learning_rate": 5e-07,
      "loss": 0.2726,
      "step": 1962
    },
    {
      "epoch": 0.3139795265515035,
      "grad_norm": 1.7945266962051392,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1963
    },
    {
      "epoch": 0.3141394753678823,
      "grad_norm": 1.8022582530975342,
      "learning_rate": 5e-07,
      "loss": 0.2676,
      "step": 1964
    },
    {
      "epoch": 0.31429942418426104,
      "grad_norm": 1.8331702947616577,
      "learning_rate": 5e-07,
      "loss": 0.2693,
      "step": 1965
    },
    {
      "epoch": 0.3144593730006398,
      "grad_norm": 1.7543307542800903,
      "learning_rate": 5e-07,
      "loss": 0.2742,
      "step": 1966
    },
    {
      "epoch": 0.31461932181701857,
      "grad_norm": 2.0813722610473633,
      "learning_rate": 5e-07,
      "loss": 0.2722,
      "step": 1967
    },
    {
      "epoch": 0.31477927063339733,
      "grad_norm": 2.022374153137207,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1968
    },
    {
      "epoch": 0.3149392194497761,
      "grad_norm": 1.8720693588256836,
      "learning_rate": 5e-07,
      "loss": 0.2721,
      "step": 1969
    },
    {
      "epoch": 0.3150991682661548,
      "grad_norm": 1.744796872138977,
      "learning_rate": 5e-07,
      "loss": 0.2684,
      "step": 1970
    },
    {
      "epoch": 0.31525911708253357,
      "grad_norm": 2.2159957885742188,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1971
    },
    {
      "epoch": 0.31541906589891233,
      "grad_norm": 1.9513311386108398,
      "learning_rate": 5e-07,
      "loss": 0.272,
      "step": 1972
    },
    {
      "epoch": 0.3155790147152911,
      "grad_norm": 1.8610624074935913,
      "learning_rate": 5e-07,
      "loss": 0.2658,
      "step": 1973
    },
    {
      "epoch": 0.31573896353166986,
      "grad_norm": 2.035595417022705,
      "learning_rate": 5e-07,
      "loss": 0.2707,
      "step": 1974
    },
    {
      "epoch": 0.3158989123480486,
      "grad_norm": 1.8871263265609741,
      "learning_rate": 5e-07,
      "loss": 0.2698,
      "step": 1975
    },
    {
      "epoch": 0.3160588611644274,
      "grad_norm": 2.12827467918396,
      "learning_rate": 5e-07,
      "loss": 0.2713,
      "step": 1976
    },
    {
      "epoch": 0.31621880998080615,
      "grad_norm": 1.8448556661605835,
      "learning_rate": 5e-07,
      "loss": 0.2687,
      "step": 1977
    },
    {
      "epoch": 0.3163787587971849,
      "grad_norm": 1.9251737594604492,
      "learning_rate": 5e-07,
      "loss": 0.2668,
      "step": 1978
    },
    {
      "epoch": 0.3165387076135637,
      "grad_norm": 1.8662993907928467,
      "learning_rate": 5e-07,
      "loss": 0.2685,
      "step": 1979
    },
    {
      "epoch": 0.31669865642994244,
      "grad_norm": 1.7931897640228271,
      "learning_rate": 5e-07,
      "loss": 0.2679,
      "step": 1980
    },
    {
      "epoch": 0.3168586052463212,
      "grad_norm": 1.953007698059082,
      "learning_rate": 5e-07,
      "loss": 0.2703,
      "step": 1981
    },
    {
      "epoch": 0.3170185540626999,
      "grad_norm": 1.7450662851333618,
      "learning_rate": 5e-07,
      "loss": 0.2655,
      "step": 1982
    },
    {
      "epoch": 0.31717850287907867,
      "grad_norm": 1.7422339916229248,
      "learning_rate": 5e-07,
      "loss": 0.2677,
      "step": 1983
    },
    {
      "epoch": 0.31733845169545744,
      "grad_norm": 1.892685055732727,
      "learning_rate": 5e-07,
      "loss": 0.2682,
      "step": 1984
    },
    {
      "epoch": 0.3174984005118362,
      "grad_norm": 1.690747857093811,
      "learning_rate": 5e-07,
      "loss": 0.267,
      "step": 1985
    },
    {
      "epoch": 0.31765834932821496,
      "grad_norm": 2.033068895339966,
      "learning_rate": 5e-07,
      "loss": 0.2702,
      "step": 1986
    },
    {
      "epoch": 0.3178182981445937,
      "grad_norm": 2.0618255138397217,
      "learning_rate": 5e-07,
      "loss": 0.2696,
      "step": 1987
    },
    {
      "epoch": 0.3179782469609725,
      "grad_norm": 1.8714991807937622,
      "learning_rate": 5e-07,
      "loss": 0.2674,
      "step": 1988
    },
    {
      "epoch": 0.31813819577735125,
      "grad_norm": 1.9208433628082275,
      "learning_rate": 5e-07,
      "loss": 0.2694,
      "step": 1989
    },
    {
      "epoch": 0.31829814459373,
      "grad_norm": 2.1401896476745605,
      "learning_rate": 5e-07,
      "loss": 0.2731,
      "step": 1990
    },
    {
      "epoch": 0.3184580934101088,
      "grad_norm": 2.118065118789673,
      "learning_rate": 5e-07,
      "loss": 0.2701,
      "step": 1991
    },
    {
      "epoch": 0.31861804222648754,
      "grad_norm": 1.9174829721450806,
      "learning_rate": 5e-07,
      "loss": 0.2673,
      "step": 1992
    },
    {
      "epoch": 0.3187779910428663,
      "grad_norm": 2.008223533630371,
      "learning_rate": 5e-07,
      "loss": 0.2689,
      "step": 1993
    },
    {
      "epoch": 0.31893793985924507,
      "grad_norm": 1.9030029773712158,
      "learning_rate": 5e-07,
      "loss": 0.2681,
      "step": 1994
    },
    {
      "epoch": 0.3190978886756238,
      "grad_norm": 1.7399762868881226,
      "learning_rate": 5e-07,
      "loss": 0.2688,
      "step": 1995
    },
    {
      "epoch": 0.31925783749200254,
      "grad_norm": 1.9009946584701538,
      "learning_rate": 5e-07,
      "loss": 0.271,
      "step": 1996
    },
    {
      "epoch": 0.3194177863083813,
      "grad_norm": 1.8898385763168335,
      "learning_rate": 5e-07,
      "loss": 0.2715,
      "step": 1997
    },
    {
      "epoch": 0.31957773512476007,
      "grad_norm": 1.9240379333496094,
      "learning_rate": 5e-07,
      "loss": 0.2684,
      "step": 1998
    },
    {
      "epoch": 0.31973768394113883,
      "grad_norm": 2.0885167121887207,
      "learning_rate": 5e-07,
      "loss": 0.2672,
      "step": 1999
    },
    {
      "epoch": 0.3198976327575176,
      "grad_norm": 1.9094502925872803,
      "learning_rate": 5e-07,
      "loss": 0.2708,
      "step": 2000
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 6252,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 400,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 290628763648000.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}