{
  "best_metric": 0.85816470337969,
  "best_model_checkpoint": "/m/triton/scratch/elec/puhe/p/palp3/MUCS/indicwav2vec_outputs/pd_warmup_2000/s400_shuff42/checkpoint-2500",
  "epoch": 8.0,
  "eval_steps": 2500,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0016,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 88.1636,
      "step": 1
    },
    {
      "epoch": 0.0032,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 31.9774,
      "step": 2
    },
    {
      "epoch": 0.0048,
      "grad_norm": 25.727998733520508,
      "learning_rate": 3e-07,
      "loss": 28.7213,
      "step": 3
    },
    {
      "epoch": 0.0064,
      "grad_norm": 18.18585205078125,
      "learning_rate": 6e-07,
      "loss": 24.9668,
      "step": 4
    },
    {
      "epoch": 0.008,
      "grad_norm": 18.16857147216797,
      "learning_rate": 9e-07,
      "loss": 25.6094,
      "step": 5
    },
    {
      "epoch": 0.0096,
      "grad_norm": 19.88906478881836,
      "learning_rate": 1.2e-06,
      "loss": 27.1836,
      "step": 6
    },
    {
      "epoch": 0.0112,
      "grad_norm": 17.007699966430664,
      "learning_rate": 1.4999999999999998e-06,
      "loss": 25.1928,
      "step": 7
    },
    {
      "epoch": 0.0128,
      "grad_norm": 19.113887786865234,
      "learning_rate": 1.8e-06,
      "loss": 25.8839,
      "step": 8
    },
    {
      "epoch": 0.0144,
      "grad_norm": 15.991517066955566,
      "learning_rate": 2.1e-06,
      "loss": 22.7303,
      "step": 9
    },
    {
      "epoch": 0.016,
      "grad_norm": 16.13288688659668,
      "learning_rate": 2.4e-06,
      "loss": 23.029,
      "step": 10
    },
    {
      "epoch": 0.0176,
      "grad_norm": 14.396987915039062,
      "learning_rate": 2.6999999999999996e-06,
      "loss": 21.1181,
      "step": 11
    },
    {
      "epoch": 0.0192,
      "grad_norm": 13.756827354431152,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 20.1848,
      "step": 12
    },
    {
      "epoch": 0.0208,
      "grad_norm": 14.755758285522461,
      "learning_rate": 3.2999999999999993e-06,
      "loss": 21.5943,
      "step": 13
    },
    {
      "epoch": 0.0224,
      "grad_norm": 15.602395057678223,
      "learning_rate": 3.6e-06,
      "loss": 21.7457,
      "step": 14
    },
    {
      "epoch": 0.024,
      "grad_norm": 14.094840049743652,
      "learning_rate": 3.899999999999999e-06,
      "loss": 20.5424,
      "step": 15
    },
    {
      "epoch": 0.0256,
      "grad_norm": 15.644570350646973,
      "learning_rate": 4.2e-06,
      "loss": 22.0262,
      "step": 16
    },
    {
      "epoch": 0.0272,
      "grad_norm": 25.94748878479004,
      "learning_rate": 4.499999999999999e-06,
      "loss": 26.2437,
      "step": 17
    },
    {
      "epoch": 0.0288,
      "grad_norm": 16.23424530029297,
      "learning_rate": 4.8e-06,
      "loss": 23.1837,
      "step": 18
    },
    {
      "epoch": 0.0304,
      "grad_norm": 14.502126693725586,
      "learning_rate": 5.1e-06,
      "loss": 21.0343,
      "step": 19
    },
    {
      "epoch": 0.032,
      "grad_norm": 20.787498474121094,
      "learning_rate": 5.399999999999999e-06,
      "loss": 26.3419,
      "step": 20
    },
    {
      "epoch": 0.0336,
      "grad_norm": 13.608593940734863,
      "learning_rate": 5.7e-06,
      "loss": 18.643,
      "step": 21
    },
    {
      "epoch": 0.0352,
      "grad_norm": 12.794872283935547,
      "learning_rate": 5.999999999999999e-06,
      "loss": 18.1019,
      "step": 22
    },
    {
      "epoch": 0.0368,
      "grad_norm": 14.386597633361816,
      "learning_rate": 6.3e-06,
      "loss": 20.7248,
      "step": 23
    },
    {
      "epoch": 0.0384,
      "grad_norm": 13.960803031921387,
      "learning_rate": 6.599999999999999e-06,
      "loss": 19.1159,
      "step": 24
    },
    {
      "epoch": 0.04,
      "grad_norm": 15.56638240814209,
      "learning_rate": 6.899999999999999e-06,
      "loss": 20.7411,
      "step": 25
    },
    {
      "epoch": 0.0416,
      "grad_norm": 15.256016731262207,
      "learning_rate": 7.2e-06,
      "loss": 20.6842,
      "step": 26
    },
    {
      "epoch": 0.0432,
      "grad_norm": 21.440200805664062,
      "learning_rate": 7.499999999999999e-06,
      "loss": 18.8145,
      "step": 27
    },
    {
      "epoch": 0.0448,
      "grad_norm": 16.310436248779297,
      "learning_rate": 7.799999999999998e-06,
      "loss": 21.4534,
      "step": 28
    },
    {
      "epoch": 0.0464,
      "grad_norm": 17.503496170043945,
      "learning_rate": 8.099999999999999e-06,
      "loss": 19.9019,
      "step": 29
    },
    {
      "epoch": 0.048,
      "grad_norm": 16.19658660888672,
      "learning_rate": 8.4e-06,
      "loss": 20.805,
      "step": 30
    },
    {
      "epoch": 0.0496,
      "grad_norm": 17.486013412475586,
      "learning_rate": 8.7e-06,
      "loss": 19.6898,
      "step": 31
    },
    {
      "epoch": 0.0512,
      "grad_norm": 16.73200225830078,
      "learning_rate": 8.999999999999999e-06,
      "loss": 21.2597,
      "step": 32
    },
    {
      "epoch": 0.0528,
      "grad_norm": 16.063310623168945,
      "learning_rate": 9.299999999999999e-06,
      "loss": 20.0767,
      "step": 33
    },
    {
      "epoch": 0.0544,
      "grad_norm": 16.689453125,
      "learning_rate": 9.6e-06,
      "loss": 20.4581,
      "step": 34
    },
    {
      "epoch": 0.056,
      "grad_norm": 18.49964714050293,
      "learning_rate": 9.9e-06,
      "loss": 21.9053,
      "step": 35
    },
    {
      "epoch": 0.0576,
      "grad_norm": 17.38431167602539,
      "learning_rate": 1.02e-05,
      "loss": 20.7011,
      "step": 36
    },
    {
      "epoch": 0.0592,
      "grad_norm": 16.372385025024414,
      "learning_rate": 1.05e-05,
      "loss": 19.5237,
      "step": 37
    },
    {
      "epoch": 0.0608,
      "grad_norm": 18.400272369384766,
      "learning_rate": 1.0799999999999998e-05,
      "loss": 21.3056,
      "step": 38
    },
    {
      "epoch": 0.0624,
      "grad_norm": 20.40253257751465,
      "learning_rate": 1.1099999999999999e-05,
      "loss": 22.7792,
      "step": 39
    },
    {
      "epoch": 0.064,
      "grad_norm": 16.800230026245117,
      "learning_rate": 1.14e-05,
      "loss": 19.5917,
      "step": 40
    },
    {
      "epoch": 0.0656,
      "grad_norm": 18.398941040039062,
      "learning_rate": 1.17e-05,
      "loss": 20.6041,
      "step": 41
    },
    {
      "epoch": 0.0672,
      "grad_norm": 14.947763442993164,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 17.352,
      "step": 42
    },
    {
      "epoch": 0.0688,
      "grad_norm": 18.517053604125977,
      "learning_rate": 1.2299999999999999e-05,
      "loss": 20.3232,
      "step": 43
    },
    {
      "epoch": 0.0704,
      "grad_norm": 18.336021423339844,
      "learning_rate": 1.26e-05,
      "loss": 20.1034,
      "step": 44
    },
    {
      "epoch": 0.072,
      "grad_norm": 20.530216217041016,
      "learning_rate": 1.2899999999999998e-05,
      "loss": 21.4217,
      "step": 45
    },
    {
      "epoch": 0.0736,
      "grad_norm": 20.346179962158203,
      "learning_rate": 1.3199999999999997e-05,
      "loss": 21.2479,
      "step": 46
    },
    {
      "epoch": 0.0752,
      "grad_norm": 26.894554138183594,
      "learning_rate": 1.3499999999999998e-05,
      "loss": 25.558,
      "step": 47
    },
    {
      "epoch": 0.0768,
      "grad_norm": 17.661767959594727,
      "learning_rate": 1.3799999999999998e-05,
      "loss": 18.5759,
      "step": 48
    },
    {
      "epoch": 0.0784,
      "grad_norm": 19.176250457763672,
      "learning_rate": 1.4099999999999999e-05,
      "loss": 19.8242,
      "step": 49
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 1.4099999999999999e-05,
      "loss": 18.8538,
      "step": 50
    },
    {
      "epoch": 0.0816,
      "grad_norm": NaN,
      "learning_rate": 1.4099999999999999e-05,
      "loss": 55.0316,
      "step": 51
    },
    {
      "epoch": 0.0832,
      "grad_norm": 35.90843963623047,
      "learning_rate": 1.44e-05,
      "loss": 27.8855,
      "step": 52
    },
    {
      "epoch": 0.0848,
      "grad_norm": 41.0328483581543,
      "learning_rate": 1.47e-05,
      "loss": 32.342,
      "step": 53
    },
    {
      "epoch": 0.0864,
      "grad_norm": 32.60612869262695,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 27.2888,
      "step": 54
    },
    {
      "epoch": 0.088,
      "grad_norm": 36.59461212158203,
      "learning_rate": 1.53e-05,
      "loss": 28.7579,
      "step": 55
    },
    {
      "epoch": 0.0896,
      "grad_norm": 31.01473617553711,
      "learning_rate": 1.5599999999999996e-05,
      "loss": 25.3167,
      "step": 56
    },
    {
      "epoch": 0.0912,
      "grad_norm": 29.129039764404297,
      "learning_rate": 1.5899999999999997e-05,
      "loss": 23.994,
      "step": 57
    },
    {
      "epoch": 0.0928,
      "grad_norm": 26.573955535888672,
      "learning_rate": 1.6199999999999997e-05,
      "loss": 20.6755,
      "step": 58
    },
    {
      "epoch": 0.0944,
      "grad_norm": 29.24463653564453,
      "learning_rate": 1.6499999999999998e-05,
      "loss": 23.024,
      "step": 59
    },
    {
      "epoch": 0.096,
      "grad_norm": 26.921775817871094,
      "learning_rate": 1.68e-05,
      "loss": 21.5849,
      "step": 60
    },
    {
      "epoch": 0.0976,
      "grad_norm": 27.8332462310791,
      "learning_rate": 1.71e-05,
      "loss": 21.6015,
      "step": 61
    },
    {
      "epoch": 0.0992,
      "grad_norm": 28.124608993530273,
      "learning_rate": 1.74e-05,
      "loss": 22.0914,
      "step": 62
    },
    {
      "epoch": 0.1008,
      "grad_norm": 30.353343963623047,
      "learning_rate": 1.7699999999999997e-05,
      "loss": 22.5719,
      "step": 63
    },
    {
      "epoch": 0.1024,
      "grad_norm": 29.733469009399414,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 21.8033,
      "step": 64
    },
    {
      "epoch": 0.104,
      "grad_norm": 25.040752410888672,
      "learning_rate": 1.8299999999999998e-05,
      "loss": 19.152,
      "step": 65
    },
    {
      "epoch": 0.1056,
      "grad_norm": 24.005868911743164,
      "learning_rate": 1.8599999999999998e-05,
      "loss": 18.4214,
      "step": 66
    },
    {
      "epoch": 0.1072,
      "grad_norm": 23.582408905029297,
      "learning_rate": 1.89e-05,
      "loss": 17.6597,
      "step": 67
    },
    {
      "epoch": 0.1088,
      "grad_norm": 23.405153274536133,
      "learning_rate": 1.92e-05,
      "loss": 17.4055,
      "step": 68
    },
    {
      "epoch": 0.1104,
      "grad_norm": 24.748991012573242,
      "learning_rate": 1.95e-05,
      "loss": 17.9656,
      "step": 69
    },
    {
      "epoch": 0.112,
      "grad_norm": 26.633638381958008,
      "learning_rate": 1.98e-05,
      "loss": 18.421,
      "step": 70
    },
    {
      "epoch": 0.1136,
      "grad_norm": 26.72304344177246,
      "learning_rate": 2.01e-05,
      "loss": 17.8431,
      "step": 71
    },
    {
      "epoch": 0.1152,
      "grad_norm": 28.973541259765625,
      "learning_rate": 2.04e-05,
      "loss": 16.8414,
      "step": 72
    },
    {
      "epoch": 0.1168,
      "grad_norm": 27.353349685668945,
      "learning_rate": 2.07e-05,
      "loss": 17.8068,
      "step": 73
    },
    {
      "epoch": 0.1184,
      "grad_norm": 30.53626823425293,
      "learning_rate": 2.1e-05,
      "loss": 16.7757,
      "step": 74
    },
    {
      "epoch": 0.12,
      "grad_norm": 27.967914581298828,
      "learning_rate": 2.1299999999999996e-05,
      "loss": 16.9582,
      "step": 75
    },
    {
      "epoch": 0.1216,
      "grad_norm": 31.028308868408203,
      "learning_rate": 2.1599999999999996e-05,
      "loss": 18.2253,
      "step": 76
    },
    {
      "epoch": 0.1232,
      "grad_norm": 27.322860717773438,
      "learning_rate": 2.1899999999999997e-05,
      "loss": 16.2514,
      "step": 77
    },
    {
      "epoch": 0.1248,
      "grad_norm": 27.86654281616211,
      "learning_rate": 2.2199999999999998e-05,
      "loss": 15.9259,
      "step": 78
    },
    {
      "epoch": 0.1264,
      "grad_norm": 28.512012481689453,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 16.0654,
      "step": 79
    },
    {
      "epoch": 0.128,
      "grad_norm": 29.90827751159668,
      "learning_rate": 2.28e-05,
      "loss": 16.1965,
      "step": 80
    },
    {
      "epoch": 0.1296,
      "grad_norm": 30.172544479370117,
      "learning_rate": 2.31e-05,
      "loss": 15.6856,
      "step": 81
    },
    {
      "epoch": 0.1312,
      "grad_norm": 34.49613571166992,
      "learning_rate": 2.34e-05,
      "loss": 16.8192,
      "step": 82
    },
    {
      "epoch": 0.1328,
      "grad_norm": 32.905250549316406,
      "learning_rate": 2.3699999999999997e-05,
      "loss": 16.1658,
      "step": 83
    },
    {
      "epoch": 0.1344,
      "grad_norm": 30.88019371032715,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 14.9915,
      "step": 84
    },
    {
      "epoch": 0.136,
      "grad_norm": 30.31485366821289,
      "learning_rate": 2.4299999999999998e-05,
      "loss": 14.3373,
      "step": 85
    },
    {
      "epoch": 0.1376,
      "grad_norm": 41.14937973022461,
      "learning_rate": 2.4599999999999998e-05,
      "loss": 17.3286,
      "step": 86
    },
    {
      "epoch": 0.1392,
      "grad_norm": 32.182125091552734,
      "learning_rate": 2.49e-05,
      "loss": 14.0104,
      "step": 87
    },
    {
      "epoch": 0.1408,
      "grad_norm": 40.61635208129883,
      "learning_rate": 2.52e-05,
      "loss": 15.6781,
      "step": 88
    },
    {
      "epoch": 0.1424,
      "grad_norm": 33.11867141723633,
      "learning_rate": 2.55e-05,
      "loss": 13.5609,
      "step": 89
    },
    {
      "epoch": 0.144,
      "grad_norm": 34.575050354003906,
      "learning_rate": 2.5799999999999997e-05,
      "loss": 13.2412,
      "step": 90
    },
    {
      "epoch": 0.1456,
      "grad_norm": 62.21010971069336,
      "learning_rate": 2.6099999999999997e-05,
      "loss": 14.6794,
      "step": 91
    },
    {
      "epoch": 0.1472,
      "grad_norm": 34.05390167236328,
      "learning_rate": 2.6399999999999995e-05,
      "loss": 12.4023,
      "step": 92
    },
    {
      "epoch": 0.1488,
      "grad_norm": 49.62013244628906,
      "learning_rate": 2.6699999999999995e-05,
      "loss": 15.1849,
      "step": 93
    },
    {
      "epoch": 0.1504,
      "grad_norm": 35.7944450378418,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 12.0157,
      "step": 94
    },
    {
      "epoch": 0.152,
      "grad_norm": 44.946651458740234,
      "learning_rate": 2.7299999999999996e-05,
      "loss": 13.118,
      "step": 95
    },
    {
      "epoch": 0.1536,
      "grad_norm": 50.83009719848633,
      "learning_rate": 2.7599999999999997e-05,
      "loss": 13.8204,
      "step": 96
    },
    {
      "epoch": 0.1552,
      "grad_norm": 40.576942443847656,
      "learning_rate": 2.7899999999999997e-05,
      "loss": 11.8124,
      "step": 97
    },
    {
      "epoch": 0.1568,
      "grad_norm": 53.70853042602539,
      "learning_rate": 2.8199999999999998e-05,
      "loss": 14.2831,
      "step": 98
    },
    {
      "epoch": 0.1584,
      "grad_norm": 34.88117218017578,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 10.0583,
      "step": 99
    },
    {
      "epoch": 0.16,
      "grad_norm": 48.1845703125,
      "learning_rate": 2.88e-05,
      "loss": 11.8564,
      "step": 100
    },
    {
      "epoch": 0.1616,
      "grad_norm": Infinity,
      "learning_rate": 2.88e-05,
      "loss": 27.1439,
      "step": 101
    },
    {
      "epoch": 0.1632,
      "grad_norm": 108.25672912597656,
      "learning_rate": 2.91e-05,
      "loss": 14.243,
      "step": 102
    },
    {
      "epoch": 0.1648,
      "grad_norm": 134.4223175048828,
      "learning_rate": 2.94e-05,
      "loss": 15.1354,
      "step": 103
    },
    {
      "epoch": 0.1664,
      "grad_norm": 99.52935791015625,
      "learning_rate": 2.97e-05,
      "loss": 16.8895,
      "step": 104
    },
    {
      "epoch": 0.168,
      "grad_norm": NaN,
      "learning_rate": 2.97e-05,
      "loss": 15.3123,
      "step": 105
    },
    {
      "epoch": 0.1696,
      "grad_norm": 64.19481658935547,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 11.9997,
      "step": 106
    },
    {
      "epoch": 0.1712,
      "grad_norm": 71.73747253417969,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 12.6204,
      "step": 107
    },
    {
      "epoch": 0.1728,
      "grad_norm": 53.78099822998047,
      "learning_rate": 3.06e-05,
      "loss": 10.1112,
      "step": 108
    },
    {
      "epoch": 0.1744,
      "grad_norm": 51.031742095947266,
      "learning_rate": 3.09e-05,
      "loss": 9.2134,
      "step": 109
    },
    {
      "epoch": 0.176,
      "grad_norm": 47.309574127197266,
      "learning_rate": 3.119999999999999e-05,
      "loss": 8.8334,
      "step": 110
    },
    {
      "epoch": 0.1776,
      "grad_norm": 49.82463073730469,
      "learning_rate": 3.149999999999999e-05,
      "loss": 8.8497,
      "step": 111
    },
    {
      "epoch": 0.1792,
      "grad_norm": 51.74225997924805,
      "learning_rate": 3.1799999999999994e-05,
      "loss": 9.0849,
      "step": 112
    },
    {
      "epoch": 0.1808,
      "grad_norm": 53.916893005371094,
      "learning_rate": 3.2099999999999994e-05,
      "loss": 9.0814,
      "step": 113
    },
    {
      "epoch": 0.1824,
      "grad_norm": 40.585506439208984,
      "learning_rate": 3.2399999999999995e-05,
      "loss": 7.6543,
      "step": 114
    },
    {
      "epoch": 0.184,
      "grad_norm": 44.14476013183594,
      "learning_rate": 3.2699999999999995e-05,
      "loss": 7.5272,
      "step": 115
    },
    {
      "epoch": 0.1856,
      "grad_norm": 86.90267944335938,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 9.7604,
      "step": 116
    },
    {
      "epoch": 0.1872,
      "grad_norm": 43.009765625,
      "learning_rate": 3.3299999999999996e-05,
      "loss": 7.457,
      "step": 117
    },
    {
      "epoch": 0.1888,
      "grad_norm": 45.4506721496582,
      "learning_rate": 3.36e-05,
      "loss": 7.6341,
      "step": 118
    },
    {
      "epoch": 0.1904,
      "grad_norm": 95.28884887695312,
      "learning_rate": 3.39e-05,
      "loss": 11.2971,
      "step": 119
    },
    {
      "epoch": 0.192,
      "grad_norm": 40.490135192871094,
      "learning_rate": 3.42e-05,
      "loss": 6.9917,
      "step": 120
    },
    {
      "epoch": 0.1936,
      "grad_norm": 39.02360153198242,
      "learning_rate": 3.45e-05,
      "loss": 6.8346,
      "step": 121
    },
    {
      "epoch": 0.1952,
      "grad_norm": 36.35051345825195,
      "learning_rate": 3.48e-05,
      "loss": 6.5797,
      "step": 122
    },
    {
      "epoch": 0.1968,
      "grad_norm": 30.45292854309082,
      "learning_rate": 3.51e-05,
      "loss": 6.1,
      "step": 123
    },
    {
      "epoch": 0.1984,
      "grad_norm": 35.50273895263672,
      "learning_rate": 3.539999999999999e-05,
      "loss": 6.3145,
      "step": 124
    },
    {
      "epoch": 0.2,
      "grad_norm": 28.981294631958008,
      "learning_rate": 3.5699999999999994e-05,
      "loss": 5.9349,
      "step": 125
    },
    {
      "epoch": 0.2016,
      "grad_norm": 24.302417755126953,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 5.6469,
      "step": 126
    },
    {
      "epoch": 0.2032,
      "grad_norm": 24.433305740356445,
      "learning_rate": 3.6299999999999995e-05,
      "loss": 5.5679,
      "step": 127
    },
    {
      "epoch": 0.2048,
      "grad_norm": 26.34304428100586,
      "learning_rate": 3.6599999999999995e-05,
      "loss": 5.6555,
      "step": 128
    },
    {
      "epoch": 0.2064,
      "grad_norm": 27.908578872680664,
      "learning_rate": 3.6899999999999996e-05,
      "loss": 5.7359,
      "step": 129
    },
    {
      "epoch": 0.208,
      "grad_norm": 22.0655574798584,
      "learning_rate": 3.7199999999999996e-05,
      "loss": 5.407,
      "step": 130
    },
    {
      "epoch": 0.2096,
      "grad_norm": 21.288557052612305,
      "learning_rate": 3.75e-05,
      "loss": 5.354,
      "step": 131
    },
    {
      "epoch": 0.2112,
      "grad_norm": 13.6961088180542,
      "learning_rate": 3.78e-05,
      "loss": 5.0068,
      "step": 132
    },
    {
      "epoch": 0.2128,
      "grad_norm": 15.53318977355957,
      "learning_rate": 3.81e-05,
      "loss": 5.0376,
      "step": 133
    },
    {
      "epoch": 0.2144,
      "grad_norm": 13.725676536560059,
      "learning_rate": 3.84e-05,
      "loss": 4.9991,
      "step": 134
    },
    {
      "epoch": 0.216,
      "grad_norm": 10.959695816040039,
      "learning_rate": 3.87e-05,
      "loss": 4.9169,
      "step": 135
    },
    {
      "epoch": 0.2176,
      "grad_norm": 13.741371154785156,
      "learning_rate": 3.9e-05,
      "loss": 4.9547,
      "step": 136
    },
    {
      "epoch": 0.2192,
      "grad_norm": 7.589344501495361,
      "learning_rate": 3.93e-05,
      "loss": 4.7349,
      "step": 137
    },
    {
      "epoch": 0.2208,
      "grad_norm": 9.38797378540039,
      "learning_rate": 3.96e-05,
      "loss": 4.7968,
      "step": 138
    },
    {
      "epoch": 0.2224,
      "grad_norm": 7.912783145904541,
      "learning_rate": 3.99e-05,
      "loss": 4.7519,
      "step": 139
    },
    {
      "epoch": 0.224,
      "grad_norm": 4.842776298522949,
      "learning_rate": 4.02e-05,
      "loss": 4.6283,
      "step": 140
    },
    {
      "epoch": 0.2256,
      "grad_norm": 3.9212424755096436,
      "learning_rate": 4.05e-05,
      "loss": 4.6736,
      "step": 141
    },
    {
      "epoch": 0.2272,
      "grad_norm": 3.5087013244628906,
      "learning_rate": 4.08e-05,
      "loss": 4.5967,
      "step": 142
    },
    {
      "epoch": 0.2288,
      "grad_norm": 7.529483318328857,
      "learning_rate": 4.11e-05,
      "loss": 4.7427,
      "step": 143
    },
    {
      "epoch": 0.2304,
      "grad_norm": 4.376472473144531,
      "learning_rate": 4.14e-05,
      "loss": 4.6156,
      "step": 144
    },
    {
      "epoch": 0.232,
      "grad_norm": 3.8088197708129883,
      "learning_rate": 4.17e-05,
      "loss": 4.5466,
      "step": 145
    },
    {
      "epoch": 0.2336,
      "grad_norm": 3.3608834743499756,
      "learning_rate": 4.2e-05,
      "loss": 4.4873,
      "step": 146
    },
    {
      "epoch": 0.2352,
      "grad_norm": 6.499572277069092,
      "learning_rate": 4.229999999999999e-05,
      "loss": 4.7131,
      "step": 147
    },
    {
      "epoch": 0.2368,
      "grad_norm": 2.669039011001587,
      "learning_rate": 4.259999999999999e-05,
      "loss": 4.5439,
      "step": 148
    },
    {
      "epoch": 0.2384,
      "grad_norm": 3.3045642375946045,
      "learning_rate": 4.289999999999999e-05,
      "loss": 4.5205,
      "step": 149
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.260329246520996,
      "learning_rate": 4.319999999999999e-05,
      "loss": 4.5319,
      "step": 150
    },
    {
      "epoch": 0.2416,
      "grad_norm": 33.543827056884766,
      "learning_rate": 4.3499999999999993e-05,
      "loss": 5.1855,
      "step": 151
    },
    {
      "epoch": 0.2432,
      "grad_norm": 12.372523307800293,
      "learning_rate": 4.3799999999999994e-05,
      "loss": 4.4256,
      "step": 152
    },
    {
      "epoch": 0.2448,
      "grad_norm": 10.853720664978027,
      "learning_rate": 4.4099999999999995e-05,
      "loss": 4.3393,
      "step": 153
    },
    {
      "epoch": 0.2464,
      "grad_norm": 31.088172912597656,
      "learning_rate": 4.4399999999999995e-05,
      "loss": 4.3422,
      "step": 154
    },
    {
      "epoch": 0.248,
      "grad_norm": 2.647914171218872,
      "learning_rate": 4.4699999999999996e-05,
      "loss": 4.1807,
      "step": 155
    },
    {
      "epoch": 0.2496,
      "grad_norm": 8.41458797454834,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 4.3605,
      "step": 156
    },
    {
      "epoch": 0.2512,
      "grad_norm": 2.505411386489868,
      "learning_rate": 4.5299999999999997e-05,
      "loss": 4.1126,
      "step": 157
    },
    {
      "epoch": 0.2528,
      "grad_norm": 6.82640266418457,
      "learning_rate": 4.56e-05,
      "loss": 4.296,
      "step": 158
    },
    {
      "epoch": 0.2544,
      "grad_norm": 4.044186115264893,
      "learning_rate": 4.59e-05,
      "loss": 4.0944,
      "step": 159
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.907984495162964,
      "learning_rate": 4.62e-05,
      "loss": 4.0258,
      "step": 160
    },
    {
      "epoch": 0.2576,
      "grad_norm": 1.547238826751709,
      "learning_rate": 4.65e-05,
      "loss": 4.0542,
      "step": 161
    },
    {
      "epoch": 0.2592,
      "grad_norm": 2.2683465480804443,
      "learning_rate": 4.68e-05,
      "loss": 4.0014,
      "step": 162
    },
    {
      "epoch": 0.2608,
      "grad_norm": 2.3638885021209717,
      "learning_rate": 4.709999999999999e-05,
      "loss": 4.0179,
      "step": 163
    },
    {
      "epoch": 0.2624,
      "grad_norm": 1.394767165184021,
      "learning_rate": 4.7399999999999993e-05,
      "loss": 4.0572,
      "step": 164
    },
    {
      "epoch": 0.264,
      "grad_norm": 1.4333173036575317,
      "learning_rate": 4.7699999999999994e-05,
      "loss": 3.9437,
      "step": 165
    },
    {
      "epoch": 0.2656,
      "grad_norm": 5.366274356842041,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 4.0472,
      "step": 166
    },
    {
      "epoch": 0.2672,
      "grad_norm": 1.0423429012298584,
      "learning_rate": 4.8299999999999995e-05,
      "loss": 3.9291,
      "step": 167
    },
    {
      "epoch": 0.2688,
      "grad_norm": 1.9777644872665405,
      "learning_rate": 4.8599999999999995e-05,
      "loss": 3.945,
      "step": 168
    },
    {
      "epoch": 0.2704,
      "grad_norm": 1.1812388896942139,
      "learning_rate": 4.8899999999999996e-05,
      "loss": 3.9491,
      "step": 169
    },
    {
      "epoch": 0.272,
      "grad_norm": 1.822695016860962,
      "learning_rate": 4.9199999999999997e-05,
      "loss": 3.9102,
      "step": 170
    },
    {
      "epoch": 0.2736,
      "grad_norm": 4.096814155578613,
      "learning_rate": 4.95e-05,
      "loss": 3.9744,
      "step": 171
    },
    {
      "epoch": 0.2752,
      "grad_norm": 6.548384666442871,
      "learning_rate": 4.98e-05,
      "loss": 4.0524,
      "step": 172
    },
    {
      "epoch": 0.2768,
      "grad_norm": 0.9052740931510925,
      "learning_rate": 5.01e-05,
      "loss": 3.8676,
      "step": 173
    },
    {
      "epoch": 0.2784,
      "grad_norm": 1.3036408424377441,
      "learning_rate": 5.04e-05,
      "loss": 3.9335,
      "step": 174
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.0321638584136963,
      "learning_rate": 5.07e-05,
      "loss": 3.9693,
      "step": 175
    },
    {
      "epoch": 0.2816,
      "grad_norm": 1.1829465627670288,
      "learning_rate": 5.1e-05,
      "loss": 3.9222,
      "step": 176
    },
    {
      "epoch": 0.2832,
      "grad_norm": 2.459949254989624,
      "learning_rate": 5.13e-05,
      "loss": 3.8752,
      "step": 177
    },
    {
      "epoch": 0.2848,
      "grad_norm": 2.6086926460266113,
      "learning_rate": 5.1599999999999994e-05,
      "loss": 3.8609,
      "step": 178
    },
    {
      "epoch": 0.2864,
      "grad_norm": 0.8744645118713379,
      "learning_rate": 5.1899999999999994e-05,
      "loss": 3.8512,
      "step": 179
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.8597729802131653,
      "learning_rate": 5.2199999999999995e-05,
      "loss": 3.91,
      "step": 180
    },
    {
      "epoch": 0.2896,
      "grad_norm": 0.656095564365387,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 3.8791,
      "step": 181
    },
    {
      "epoch": 0.2912,
      "grad_norm": 1.1524940729141235,
      "learning_rate": 5.279999999999999e-05,
      "loss": 3.8383,
      "step": 182
    },
    {
      "epoch": 0.2928,
      "grad_norm": 1.2150574922561646,
      "learning_rate": 5.309999999999999e-05,
      "loss": 3.9343,
      "step": 183
    },
    {
      "epoch": 0.2944,
      "grad_norm": 3.4474704265594482,
      "learning_rate": 5.339999999999999e-05,
      "loss": 3.8848,
      "step": 184
    },
    {
      "epoch": 0.296,
      "grad_norm": 3.4787559509277344,
      "learning_rate": 5.369999999999999e-05,
      "loss": 3.8531,
      "step": 185
    },
    {
      "epoch": 0.2976,
      "grad_norm": 1.857994556427002,
      "learning_rate": 5.399999999999999e-05,
      "loss": 3.82,
      "step": 186
    },
    {
      "epoch": 0.2992,
      "grad_norm": 1.522542953491211,
      "learning_rate": 5.429999999999999e-05,
      "loss": 3.8566,
      "step": 187
    },
    {
      "epoch": 0.3008,
      "grad_norm": 3.3759677410125732,
      "learning_rate": 5.459999999999999e-05,
      "loss": 3.9485,
      "step": 188
    },
    {
      "epoch": 0.3024,
      "grad_norm": 0.7935701012611389,
      "learning_rate": 5.489999999999999e-05,
      "loss": 3.8288,
      "step": 189
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.7905306816101074,
      "learning_rate": 5.519999999999999e-05,
      "loss": 3.7754,
      "step": 190
    },
    {
      "epoch": 0.3056,
      "grad_norm": 2.006058931350708,
      "learning_rate": 5.5499999999999994e-05,
      "loss": 3.9019,
      "step": 191
    },
    {
      "epoch": 0.3072,
      "grad_norm": 0.9049056768417358,
      "learning_rate": 5.5799999999999994e-05,
      "loss": 3.8752,
      "step": 192
    },
    {
      "epoch": 0.3088,
      "grad_norm": 0.7944461703300476,
      "learning_rate": 5.6099999999999995e-05,
      "loss": 3.9383,
      "step": 193
    },
    {
      "epoch": 0.3104,
      "grad_norm": 2.660388469696045,
      "learning_rate": 5.6399999999999995e-05,
      "loss": 3.897,
      "step": 194
    },
    {
      "epoch": 0.312,
      "grad_norm": 1.1633754968643188,
      "learning_rate": 5.6699999999999996e-05,
      "loss": 3.8026,
      "step": 195
    },
    {
      "epoch": 0.3136,
      "grad_norm": 1.0256235599517822,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 3.8239,
      "step": 196
    },
    {
      "epoch": 0.3152,
      "grad_norm": 0.90212082862854,
      "learning_rate": 5.73e-05,
      "loss": 3.8742,
      "step": 197
    },
    {
      "epoch": 0.3168,
      "grad_norm": 1.7041653394699097,
      "learning_rate": 5.76e-05,
      "loss": 3.8631,
      "step": 198
    },
    {
      "epoch": 0.3184,
      "grad_norm": 5.0367889404296875,
      "learning_rate": 5.79e-05,
      "loss": 3.9776,
      "step": 199
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7132095098495483,
      "learning_rate": 5.82e-05,
      "loss": 3.8886,
      "step": 200
    },
    {
      "epoch": 0.3216,
      "grad_norm": 59.95878219604492,
      "learning_rate": 5.85e-05,
      "loss": 4.4781,
      "step": 201
    },
    {
      "epoch": 0.3232,
      "grad_norm": 20.7462215423584,
      "learning_rate": 5.88e-05,
      "loss": 4.1558,
      "step": 202
    },
    {
      "epoch": 0.3248,
      "grad_norm": 7.668243408203125,
      "learning_rate": 5.91e-05,
      "loss": 3.8673,
      "step": 203
    },
    {
      "epoch": 0.3264,
      "grad_norm": 20.701831817626953,
      "learning_rate": 5.94e-05,
      "loss": 4.2043,
      "step": 204
    },
    {
      "epoch": 0.328,
      "grad_norm": 15.181974411010742,
      "learning_rate": 5.97e-05,
      "loss": 4.1824,
      "step": 205
    },
    {
      "epoch": 0.3296,
      "grad_norm": 6.447072982788086,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 3.8739,
      "step": 206
    },
    {
      "epoch": 0.3312,
      "grad_norm": 1.1761301755905151,
      "learning_rate": 6.0299999999999995e-05,
      "loss": 3.7815,
      "step": 207
    },
    {
      "epoch": 0.3328,
      "grad_norm": 2.660413980484009,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 3.8145,
      "step": 208
    },
    {
      "epoch": 0.3344,
      "grad_norm": 2.368325710296631,
      "learning_rate": 6.0899999999999996e-05,
      "loss": 3.8349,
      "step": 209
    },
    {
      "epoch": 0.336,
      "grad_norm": 2.1028411388397217,
      "learning_rate": 6.12e-05,
      "loss": 3.8754,
      "step": 210
    },
    {
      "epoch": 0.3376,
      "grad_norm": 5.019386291503906,
      "learning_rate": 6.149999999999999e-05,
      "loss": 4.0562,
      "step": 211
    },
    {
      "epoch": 0.3392,
      "grad_norm": 1.4638348817825317,
      "learning_rate": 6.18e-05,
      "loss": 3.8762,
      "step": 212
    },
    {
      "epoch": 0.3408,
      "grad_norm": 4.489582061767578,
      "learning_rate": 6.209999999999999e-05,
      "loss": 3.8016,
      "step": 213
    },
    {
      "epoch": 0.3424,
      "grad_norm": 4.419440269470215,
      "learning_rate": 6.239999999999999e-05,
      "loss": 3.7819,
      "step": 214
    },
    {
      "epoch": 0.344,
      "grad_norm": 1.0869696140289307,
      "learning_rate": 6.269999999999999e-05,
      "loss": 3.8609,
      "step": 215
    },
    {
      "epoch": 0.3456,
      "grad_norm": 2.233304738998413,
      "learning_rate": 6.299999999999999e-05,
      "loss": 3.7453,
      "step": 216
    },
    {
      "epoch": 0.3472,
      "grad_norm": 1.8570388555526733,
      "learning_rate": 6.33e-05,
      "loss": 3.8022,
      "step": 217
    },
    {
      "epoch": 0.3488,
      "grad_norm": 1.5490303039550781,
      "learning_rate": 6.359999999999999e-05,
      "loss": 3.8208,
      "step": 218
    },
    {
      "epoch": 0.3504,
      "grad_norm": 1.4915709495544434,
      "learning_rate": 6.39e-05,
      "loss": 3.7659,
      "step": 219
    },
    {
      "epoch": 0.352,
      "grad_norm": 4.611435890197754,
      "learning_rate": 6.419999999999999e-05,
      "loss": 3.7905,
      "step": 220
    },
    {
      "epoch": 0.3536,
      "grad_norm": 3.2338948249816895,
      "learning_rate": 6.45e-05,
      "loss": 3.769,
      "step": 221
    },
    {
      "epoch": 0.3552,
      "grad_norm": 1.7731317281723022,
      "learning_rate": 6.479999999999999e-05,
      "loss": 3.7948,
      "step": 222
    },
    {
      "epoch": 0.3568,
      "grad_norm": 4.100704669952393,
      "learning_rate": 6.51e-05,
      "loss": 3.9139,
      "step": 223
    },
    {
      "epoch": 0.3584,
      "grad_norm": 2.826249599456787,
      "learning_rate": 6.539999999999999e-05,
      "loss": 3.7927,
      "step": 224
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.4306230545043945,
      "learning_rate": 6.57e-05,
      "loss": 3.7451,
      "step": 225
    },
    {
      "epoch": 0.3616,
      "grad_norm": 2.495347499847412,
      "learning_rate": 6.599999999999999e-05,
      "loss": 3.7458,
      "step": 226
    },
    {
      "epoch": 0.3632,
      "grad_norm": 1.5291261672973633,
      "learning_rate": 6.63e-05,
      "loss": 3.7838,
      "step": 227
    },
    {
      "epoch": 0.3648,
      "grad_norm": 1.6629663705825806,
      "learning_rate": 6.659999999999999e-05,
      "loss": 3.7364,
      "step": 228
    },
    {
      "epoch": 0.3664,
      "grad_norm": 1.6959452629089355,
      "learning_rate": 6.69e-05,
      "loss": 3.7711,
      "step": 229
    },
    {
      "epoch": 0.368,
      "grad_norm": 2.6228511333465576,
      "learning_rate": 6.72e-05,
      "loss": 3.7591,
      "step": 230
    },
    {
      "epoch": 0.3696,
      "grad_norm": 7.408218860626221,
      "learning_rate": 6.75e-05,
      "loss": 3.9036,
      "step": 231
    },
    {
      "epoch": 0.3712,
      "grad_norm": 1.7726941108703613,
      "learning_rate": 6.78e-05,
      "loss": 3.7256,
      "step": 232
    },
    {
      "epoch": 0.3728,
      "grad_norm": 1.7417742013931274,
      "learning_rate": 6.81e-05,
      "loss": 3.7479,
      "step": 233
    },
    {
      "epoch": 0.3744,
      "grad_norm": 2.71058988571167,
      "learning_rate": 6.84e-05,
      "loss": 3.7953,
      "step": 234
    },
    {
      "epoch": 0.376,
      "grad_norm": 1.043075442314148,
      "learning_rate": 6.87e-05,
      "loss": 3.7091,
      "step": 235
    },
    {
      "epoch": 0.3776,
      "grad_norm": 3.6556646823883057,
      "learning_rate": 6.9e-05,
      "loss": 3.8753,
      "step": 236
    },
    {
      "epoch": 0.3792,
      "grad_norm": 1.024652361869812,
      "learning_rate": 6.93e-05,
      "loss": 3.8208,
      "step": 237
    },
    {
      "epoch": 0.3808,
      "grad_norm": 2.1579537391662598,
      "learning_rate": 6.96e-05,
      "loss": 3.7698,
      "step": 238
    },
    {
      "epoch": 0.3824,
      "grad_norm": 2.586552858352661,
      "learning_rate": 6.989999999999999e-05,
      "loss": 3.7483,
      "step": 239
    },
    {
      "epoch": 0.384,
      "grad_norm": 2.8830111026763916,
      "learning_rate": 7.02e-05,
      "loss": 3.7447,
      "step": 240
    },
    {
      "epoch": 0.3856,
      "grad_norm": 1.5939990282058716,
      "learning_rate": 7.049999999999999e-05,
      "loss": 3.9125,
      "step": 241
    },
    {
      "epoch": 0.3872,
      "grad_norm": 1.9569231271743774,
      "learning_rate": 7.079999999999999e-05,
      "loss": 3.698,
      "step": 242
    },
    {
      "epoch": 0.3888,
      "grad_norm": 2.1140618324279785,
      "learning_rate": 7.11e-05,
      "loss": 3.7141,
      "step": 243
    },
    {
      "epoch": 0.3904,
      "grad_norm": 2.5653762817382812,
      "learning_rate": 7.139999999999999e-05,
      "loss": 3.7429,
      "step": 244
    },
    {
      "epoch": 0.392,
      "grad_norm": 4.119378089904785,
      "learning_rate": 7.17e-05,
      "loss": 3.8172,
      "step": 245
    },
    {
      "epoch": 0.3936,
      "grad_norm": 1.2246354818344116,
      "learning_rate": 7.199999999999999e-05,
      "loss": 3.7213,
      "step": 246
    },
    {
      "epoch": 0.3952,
      "grad_norm": 3.104062557220459,
      "learning_rate": 7.23e-05,
      "loss": 3.8297,
      "step": 247
    },
    {
      "epoch": 0.3968,
      "grad_norm": 2.702347993850708,
      "learning_rate": 7.259999999999999e-05,
      "loss": 3.8384,
      "step": 248
    },
    {
      "epoch": 0.3984,
      "grad_norm": 1.7538706064224243,
      "learning_rate": 7.29e-05,
      "loss": 3.8097,
      "step": 249
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4835972785949707,
      "learning_rate": 7.319999999999999e-05,
      "loss": 3.8442,
      "step": 250
    },
    {
      "epoch": 0.4016,
      "grad_norm": 121.84357452392578,
      "learning_rate": 7.35e-05,
      "loss": 6.6492,
      "step": 251
    },
    {
      "epoch": 0.4032,
      "grad_norm": 6.5602216720581055,
      "learning_rate": 7.379999999999999e-05,
      "loss": 3.7888,
      "step": 252
    },
    {
      "epoch": 0.4048,
      "grad_norm": 6.373597145080566,
      "learning_rate": 7.41e-05,
      "loss": 3.8137,
      "step": 253
    },
    {
      "epoch": 0.4064,
      "grad_norm": 15.365026473999023,
      "learning_rate": 7.439999999999999e-05,
      "loss": 4.0826,
      "step": 254
    },
    {
      "epoch": 0.408,
      "grad_norm": 4.488667964935303,
      "learning_rate": 7.47e-05,
      "loss": 3.8556,
      "step": 255
    },
    {
      "epoch": 0.4096,
      "grad_norm": 1.5894265174865723,
      "learning_rate": 7.5e-05,
      "loss": 3.785,
      "step": 256
    },
    {
      "epoch": 0.4112,
      "grad_norm": 2.2378318309783936,
      "learning_rate": 7.529999999999999e-05,
      "loss": 3.7889,
      "step": 257
    },
    {
      "epoch": 0.4128,
      "grad_norm": 2.854876756668091,
      "learning_rate": 7.56e-05,
      "loss": 3.8141,
      "step": 258
    },
    {
      "epoch": 0.4144,
      "grad_norm": 5.561819076538086,
      "learning_rate": 7.589999999999999e-05,
      "loss": 3.7821,
      "step": 259
    },
    {
      "epoch": 0.416,
      "grad_norm": 3.3661203384399414,
      "learning_rate": 7.62e-05,
      "loss": 3.7868,
      "step": 260
    },
    {
      "epoch": 0.4176,
      "grad_norm": 1.3599531650543213,
      "learning_rate": 7.649999999999999e-05,
      "loss": 3.8347,
      "step": 261
    },
    {
      "epoch": 0.4192,
      "grad_norm": 1.306137204170227,
      "learning_rate": 7.68e-05,
      "loss": 3.7819,
      "step": 262
    },
    {
      "epoch": 0.4208,
      "grad_norm": 3.109072685241699,
      "learning_rate": 7.709999999999999e-05,
      "loss": 3.7242,
      "step": 263
    },
    {
      "epoch": 0.4224,
      "grad_norm": 1.8001930713653564,
      "learning_rate": 7.74e-05,
      "loss": 3.7492,
      "step": 264
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.8629224300384521,
      "learning_rate": 7.769999999999999e-05,
      "loss": 3.7207,
      "step": 265
    },
    {
      "epoch": 0.4256,
      "grad_norm": 3.7459707260131836,
      "learning_rate": 7.8e-05,
      "loss": 3.7963,
      "step": 266
    },
    {
      "epoch": 0.4272,
      "grad_norm": 1.336196780204773,
      "learning_rate": 7.829999999999999e-05,
      "loss": 3.6887,
      "step": 267
    },
    {
      "epoch": 0.4288,
      "grad_norm": 1.0606918334960938,
      "learning_rate": 7.86e-05,
      "loss": 3.7572,
      "step": 268
    },
    {
      "epoch": 0.4304,
      "grad_norm": 2.4319143295288086,
      "learning_rate": 7.89e-05,
      "loss": 3.7525,
      "step": 269
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.2231545448303223,
      "learning_rate": 7.92e-05,
      "loss": 3.7485,
      "step": 270
    },
    {
      "epoch": 0.4336,
      "grad_norm": 0.9850172400474548,
      "learning_rate": 7.95e-05,
      "loss": 3.7035,
      "step": 271
    },
    {
      "epoch": 0.4352,
      "grad_norm": 0.7243953347206116,
      "learning_rate": 7.98e-05,
      "loss": 3.7558,
      "step": 272
    },
    {
      "epoch": 0.4368,
      "grad_norm": 2.755706310272217,
      "learning_rate": 8.01e-05,
      "loss": 3.7261,
      "step": 273
    },
    {
      "epoch": 0.4384,
      "grad_norm": 1.264993667602539,
      "learning_rate": 8.04e-05,
      "loss": 3.7083,
      "step": 274
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8790886402130127,
      "learning_rate": 8.07e-05,
      "loss": 3.7071,
      "step": 275
    },
    {
      "epoch": 0.4416,
      "grad_norm": 3.400172472000122,
      "learning_rate": 8.1e-05,
      "loss": 3.7469,
      "step": 276
    },
    {
      "epoch": 0.4432,
      "grad_norm": 2.231881856918335,
      "learning_rate": 8.13e-05,
      "loss": 3.6753,
      "step": 277
    },
    {
      "epoch": 0.4448,
      "grad_norm": 2.1918094158172607,
      "learning_rate": 8.16e-05,
      "loss": 3.7519,
      "step": 278
    },
    {
      "epoch": 0.4464,
      "grad_norm": 0.9959167242050171,
      "learning_rate": 8.19e-05,
      "loss": 3.7235,
      "step": 279
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.0441361665725708,
      "learning_rate": 8.22e-05,
      "loss": 3.6868,
      "step": 280
    },
    {
      "epoch": 0.4496,
      "grad_norm": 1.4733455181121826,
      "learning_rate": 8.25e-05,
      "loss": 3.6998,
      "step": 281
    },
    {
      "epoch": 0.4512,
      "grad_norm": 0.8500906229019165,
      "learning_rate": 8.28e-05,
      "loss": 3.7039,
      "step": 282
    },
    {
      "epoch": 0.4528,
      "grad_norm": 1.184400200843811,
      "learning_rate": 8.31e-05,
      "loss": 3.6784,
      "step": 283
    },
    {
      "epoch": 0.4544,
      "grad_norm": 0.7087394595146179,
      "learning_rate": 8.34e-05,
      "loss": 3.7611,
      "step": 284
    },
    {
      "epoch": 0.456,
      "grad_norm": 1.7900768518447876,
      "learning_rate": 8.37e-05,
      "loss": 3.7507,
      "step": 285
    },
    {
      "epoch": 0.4576,
      "grad_norm": 0.7228295803070068,
      "learning_rate": 8.4e-05,
      "loss": 3.7109,
      "step": 286
    },
    {
      "epoch": 0.4592,
      "grad_norm": 2.9249191284179688,
      "learning_rate": 8.43e-05,
      "loss": 3.759,
      "step": 287
    },
    {
      "epoch": 0.4608,
      "grad_norm": 0.8148625493049622,
      "learning_rate": 8.459999999999998e-05,
      "loss": 3.6881,
      "step": 288
    },
    {
      "epoch": 0.4624,
      "grad_norm": 0.9529969692230225,
      "learning_rate": 8.489999999999999e-05,
      "loss": 3.6867,
      "step": 289
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.3643995523452759,
      "learning_rate": 8.519999999999998e-05,
      "loss": 3.6983,
      "step": 290
    },
    {
      "epoch": 0.4656,
      "grad_norm": 0.9659025073051453,
      "learning_rate": 8.549999999999999e-05,
      "loss": 3.6865,
      "step": 291
    },
    {
      "epoch": 0.4672,
      "grad_norm": 4.1877946853637695,
      "learning_rate": 8.579999999999998e-05,
      "loss": 3.7463,
      "step": 292
    },
    {
      "epoch": 0.4688,
      "grad_norm": 2.1806647777557373,
      "learning_rate": 8.609999999999999e-05,
      "loss": 3.7738,
      "step": 293
    },
    {
      "epoch": 0.4704,
      "grad_norm": 1.7634769678115845,
      "learning_rate": 8.639999999999999e-05,
      "loss": 3.7514,
      "step": 294
    },
    {
      "epoch": 0.472,
      "grad_norm": 1.0072358846664429,
      "learning_rate": 8.669999999999998e-05,
      "loss": 3.684,
      "step": 295
    },
    {
      "epoch": 0.4736,
      "grad_norm": 0.8580794930458069,
      "learning_rate": 8.699999999999999e-05,
      "loss": 3.7447,
      "step": 296
    },
    {
      "epoch": 0.4752,
      "grad_norm": 1.7601121664047241,
      "learning_rate": 8.729999999999998e-05,
      "loss": 3.7797,
      "step": 297
    },
    {
      "epoch": 0.4768,
      "grad_norm": 3.091855525970459,
      "learning_rate": 8.759999999999999e-05,
      "loss": 3.723,
      "step": 298
    },
    {
      "epoch": 0.4784,
      "grad_norm": 1.7820290327072144,
      "learning_rate": 8.789999999999998e-05,
      "loss": 3.7341,
      "step": 299
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.246450901031494,
      "learning_rate": 8.819999999999999e-05,
      "loss": 4.0743,
      "step": 300
    },
    {
      "epoch": 0.4816,
      "grad_norm": 72.1017837524414,
      "learning_rate": 8.849999999999998e-05,
      "loss": 4.3474,
      "step": 301
    },
    {
      "epoch": 0.4832,
      "grad_norm": 7.5009355545043945,
      "learning_rate": 8.879999999999999e-05,
      "loss": 3.862,
      "step": 302
    },
    {
      "epoch": 0.4848,
      "grad_norm": 11.676750183105469,
      "learning_rate": 8.909999999999998e-05,
      "loss": 4.0007,
      "step": 303
    },
    {
      "epoch": 0.4864,
      "grad_norm": 2.041074275970459,
      "learning_rate": 8.939999999999999e-05,
      "loss": 3.737,
      "step": 304
    },
    {
      "epoch": 0.488,
      "grad_norm": 7.677201747894287,
      "learning_rate": 8.969999999999998e-05,
      "loss": 3.9839,
      "step": 305
    },
    {
      "epoch": 0.4896,
      "grad_norm": 6.7263617515563965,
      "learning_rate": 8.999999999999999e-05,
      "loss": 4.1026,
      "step": 306
    },
    {
      "epoch": 0.4912,
      "grad_norm": 4.236703395843506,
      "learning_rate": 9.029999999999999e-05,
      "loss": 3.8479,
      "step": 307
    },
    {
      "epoch": 0.4928,
      "grad_norm": 5.840229511260986,
      "learning_rate": 9.059999999999999e-05,
      "loss": 3.7812,
      "step": 308
    },
    {
      "epoch": 0.4944,
      "grad_norm": 8.028979301452637,
      "learning_rate": 9.089999999999999e-05,
      "loss": 3.8126,
      "step": 309
    },
    {
      "epoch": 0.496,
      "grad_norm": 5.721709728240967,
      "learning_rate": 9.12e-05,
      "loss": 3.8407,
      "step": 310
    },
    {
      "epoch": 0.4976,
      "grad_norm": 2.0302011966705322,
      "learning_rate": 9.149999999999999e-05,
      "loss": 3.8688,
      "step": 311
    },
    {
      "epoch": 0.4992,
      "grad_norm": 3.8033218383789062,
      "learning_rate": 9.18e-05,
      "loss": 3.7185,
      "step": 312
    },
    {
      "epoch": 0.5008,
      "grad_norm": 8.654851913452148,
      "learning_rate": 9.209999999999999e-05,
      "loss": 3.6954,
      "step": 313
    },
    {
      "epoch": 0.5024,
      "grad_norm": 3.6997175216674805,
      "learning_rate": 9.24e-05,
      "loss": 3.8454,
      "step": 314
    },
    {
      "epoch": 0.504,
      "grad_norm": 5.1004438400268555,
      "learning_rate": 9.269999999999999e-05,
      "loss": 3.8321,
      "step": 315
    },
    {
      "epoch": 0.5056,
      "grad_norm": 1.3075134754180908,
      "learning_rate": 9.3e-05,
      "loss": 3.6619,
      "step": 316
    },
    {
      "epoch": 0.5072,
      "grad_norm": 1.137516736984253,
      "learning_rate": 9.329999999999999e-05,
      "loss": 3.6382,
      "step": 317
    },
    {
      "epoch": 0.5088,
      "grad_norm": 9.24795913696289,
      "learning_rate": 9.36e-05,
      "loss": 4.1195,
      "step": 318
    },
    {
      "epoch": 0.5104,
      "grad_norm": 1.6506896018981934,
      "learning_rate": 9.389999999999999e-05,
      "loss": 3.6742,
      "step": 319
    },
    {
      "epoch": 0.512,
      "grad_norm": 1.2333859205245972,
      "learning_rate": 9.419999999999999e-05,
      "loss": 3.6605,
      "step": 320
    },
    {
      "epoch": 0.5136,
      "grad_norm": 1.074317455291748,
      "learning_rate": 9.449999999999999e-05,
      "loss": 3.6296,
      "step": 321
    },
    {
      "epoch": 0.5152,
      "grad_norm": 0.8660179376602173,
      "learning_rate": 9.479999999999999e-05,
      "loss": 3.6996,
      "step": 322
    },
    {
      "epoch": 0.5168,
      "grad_norm": 4.370603084564209,
      "learning_rate": 9.51e-05,
      "loss": 3.6899,
      "step": 323
    },
    {
      "epoch": 0.5184,
      "grad_norm": 4.468715667724609,
      "learning_rate": 9.539999999999999e-05,
      "loss": 3.6464,
      "step": 324
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.4510672092437744,
      "learning_rate": 9.57e-05,
      "loss": 3.6554,
      "step": 325
    },
    {
      "epoch": 0.5216,
      "grad_norm": 4.948469638824463,
      "learning_rate": 9.599999999999999e-05,
      "loss": 3.6866,
      "step": 326
    },
    {
      "epoch": 0.5232,
      "grad_norm": 1.9473222494125366,
      "learning_rate": 9.63e-05,
      "loss": 3.6517,
      "step": 327
    },
    {
      "epoch": 0.5248,
      "grad_norm": 0.8309019207954407,
      "learning_rate": 9.659999999999999e-05,
      "loss": 3.6118,
      "step": 328
    },
    {
      "epoch": 0.5264,
      "grad_norm": 1.0858643054962158,
      "learning_rate": 9.69e-05,
      "loss": 3.7663,
      "step": 329
    },
    {
      "epoch": 0.528,
      "grad_norm": 2.959810495376587,
      "learning_rate": 9.719999999999999e-05,
      "loss": 3.6217,
      "step": 330
    },
    {
      "epoch": 0.5296,
      "grad_norm": 3.2029099464416504,
      "learning_rate": 9.75e-05,
      "loss": 3.6604,
      "step": 331
    },
    {
      "epoch": 0.5312,
      "grad_norm": 2.6211912631988525,
      "learning_rate": 9.779999999999999e-05,
      "loss": 3.6423,
      "step": 332
    },
    {
      "epoch": 0.5328,
      "grad_norm": 1.876083493232727,
      "learning_rate": 9.81e-05,
      "loss": 3.656,
      "step": 333
    },
    {
      "epoch": 0.5344,
      "grad_norm": 1.3034205436706543,
      "learning_rate": 9.839999999999999e-05,
      "loss": 3.6448,
      "step": 334
    },
    {
      "epoch": 0.536,
      "grad_norm": 2.9727463722229004,
      "learning_rate": 9.87e-05,
      "loss": 3.6883,
      "step": 335
    },
    {
      "epoch": 0.5376,
      "grad_norm": 5.742773532867432,
      "learning_rate": 9.9e-05,
      "loss": 3.7493,
      "step": 336
    },
    {
      "epoch": 0.5392,
      "grad_norm": 11.241994857788086,
      "learning_rate": 9.93e-05,
      "loss": 3.886,
      "step": 337
    },
    {
      "epoch": 0.5408,
      "grad_norm": 5.17420768737793,
      "learning_rate": 9.96e-05,
      "loss": 3.6835,
      "step": 338
    },
    {
      "epoch": 0.5424,
      "grad_norm": 5.169139385223389,
      "learning_rate": 9.99e-05,
      "loss": 3.6478,
      "step": 339
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.9756124019622803,
      "learning_rate": 0.0001002,
      "loss": 3.6164,
      "step": 340
    },
    {
      "epoch": 0.5456,
      "grad_norm": 2.4662652015686035,
      "learning_rate": 0.0001005,
      "loss": 3.6319,
      "step": 341
    },
    {
      "epoch": 0.5472,
      "grad_norm": 2.1132149696350098,
      "learning_rate": 0.0001008,
      "loss": 3.6865,
      "step": 342
    },
    {
      "epoch": 0.5488,
      "grad_norm": 2.5962605476379395,
      "learning_rate": 0.0001011,
      "loss": 3.6532,
      "step": 343
    },
    {
      "epoch": 0.5504,
      "grad_norm": 3.534571647644043,
      "learning_rate": 0.0001014,
      "loss": 3.5703,
      "step": 344
    },
    {
      "epoch": 0.552,
      "grad_norm": 2.0960686206817627,
      "learning_rate": 0.00010169999999999999,
      "loss": 3.6295,
      "step": 345
    },
    {
      "epoch": 0.5536,
      "grad_norm": 1.5675119161605835,
      "learning_rate": 0.000102,
      "loss": 3.6976,
      "step": 346
    },
    {
      "epoch": 0.5552,
      "grad_norm": 1.5193946361541748,
      "learning_rate": 0.00010229999999999999,
      "loss": 3.6302,
      "step": 347
    },
    {
      "epoch": 0.5568,
      "grad_norm": 2.2176620960235596,
      "learning_rate": 0.0001026,
      "loss": 3.6557,
      "step": 348
    },
    {
      "epoch": 0.5584,
      "grad_norm": 1.6280394792556763,
      "learning_rate": 0.0001029,
      "loss": 3.5879,
      "step": 349
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0001029,
      "loss": 3.8835,
      "step": 350
    },
    {
      "epoch": 0.5616,
      "grad_norm": 15.113051414489746,
      "learning_rate": 0.00010319999999999999,
      "loss": 3.9648,
      "step": 351
    },
    {
      "epoch": 0.5632,
      "grad_norm": 15.56413459777832,
      "learning_rate": 0.00010349999999999998,
      "loss": 3.9607,
      "step": 352
    },
    {
      "epoch": 0.5648,
      "grad_norm": 12.081535339355469,
      "learning_rate": 0.00010379999999999999,
      "loss": 3.9409,
      "step": 353
    },
    {
      "epoch": 0.5664,
      "grad_norm": 15.150484085083008,
      "learning_rate": 0.00010409999999999998,
      "loss": 4.0052,
      "step": 354
    },
    {
      "epoch": 0.568,
      "grad_norm": 3.023535966873169,
      "learning_rate": 0.00010439999999999999,
      "loss": 3.6932,
      "step": 355
    },
    {
      "epoch": 0.5696,
      "grad_norm": 3.2386553287506104,
      "learning_rate": 0.00010469999999999998,
      "loss": 3.6472,
      "step": 356
    },
    {
      "epoch": 0.5712,
      "grad_norm": 3.457566022872925,
      "learning_rate": 0.00010499999999999999,
      "loss": 3.7199,
      "step": 357
    },
    {
      "epoch": 0.5728,
      "grad_norm": 7.193448066711426,
      "learning_rate": 0.00010529999999999998,
      "loss": 3.678,
      "step": 358
    },
    {
      "epoch": 0.5744,
      "grad_norm": 7.7766032218933105,
      "learning_rate": 0.00010559999999999998,
      "loss": 3.7412,
      "step": 359
    },
    {
      "epoch": 0.576,
      "grad_norm": 7.320962905883789,
      "learning_rate": 0.00010589999999999999,
      "loss": 3.6939,
      "step": 360
    },
    {
      "epoch": 0.5776,
      "grad_norm": 6.841294288635254,
      "learning_rate": 0.00010619999999999998,
      "loss": 3.6927,
      "step": 361
    },
    {
      "epoch": 0.5792,
      "grad_norm": 3.793191909790039,
      "learning_rate": 0.00010649999999999999,
      "loss": 3.9034,
      "step": 362
    },
    {
      "epoch": 0.5808,
      "grad_norm": 6.122262954711914,
      "learning_rate": 0.00010679999999999998,
      "loss": 3.6405,
      "step": 363
    },
    {
      "epoch": 0.5824,
      "grad_norm": 5.361271381378174,
      "learning_rate": 0.00010709999999999999,
      "loss": 3.6555,
      "step": 364
    },
    {
      "epoch": 0.584,
      "grad_norm": 3.1824538707733154,
      "learning_rate": 0.00010739999999999998,
      "loss": 3.6008,
      "step": 365
    },
    {
      "epoch": 0.5856,
      "grad_norm": 2.6935617923736572,
      "learning_rate": 0.00010769999999999999,
      "loss": 3.6435,
      "step": 366
    },
    {
      "epoch": 0.5872,
      "grad_norm": 3.3396615982055664,
      "learning_rate": 0.00010799999999999998,
      "loss": 3.6248,
      "step": 367
    },
    {
      "epoch": 0.5888,
      "grad_norm": 4.874233722686768,
      "learning_rate": 0.00010829999999999999,
      "loss": 3.569,
      "step": 368
    },
    {
      "epoch": 0.5904,
      "grad_norm": 6.270530700683594,
      "learning_rate": 0.00010859999999999998,
      "loss": 3.5806,
      "step": 369
    },
    {
      "epoch": 0.592,
      "grad_norm": 5.3780837059021,
      "learning_rate": 0.00010889999999999999,
      "loss": 3.6301,
      "step": 370
    },
    {
      "epoch": 0.5936,
      "grad_norm": 7.1194634437561035,
      "learning_rate": 0.00010919999999999998,
      "loss": 3.6537,
      "step": 371
    },
    {
      "epoch": 0.5952,
      "grad_norm": 4.226306438446045,
      "learning_rate": 0.00010949999999999999,
      "loss": 3.6081,
      "step": 372
    },
    {
      "epoch": 0.5968,
      "grad_norm": 1.910267949104309,
      "learning_rate": 0.00010979999999999999,
      "loss": 3.5842,
      "step": 373
    },
    {
      "epoch": 0.5984,
      "grad_norm": 0.9893857836723328,
      "learning_rate": 0.00011009999999999999,
      "loss": 3.5371,
      "step": 374
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.1459553241729736,
      "learning_rate": 0.00011039999999999999,
      "loss": 3.6621,
      "step": 375
    },
    {
      "epoch": 0.6016,
      "grad_norm": 0.9111649394035339,
      "learning_rate": 0.0001107,
      "loss": 3.7058,
      "step": 376
    },
    {
      "epoch": 0.6032,
      "grad_norm": 1.2992879152297974,
      "learning_rate": 0.00011099999999999999,
      "loss": 3.5917,
      "step": 377
    },
    {
      "epoch": 0.6048,
      "grad_norm": 1.082714319229126,
      "learning_rate": 0.0001113,
      "loss": 3.553,
      "step": 378
    },
    {
      "epoch": 0.6064,
      "grad_norm": 1.2292723655700684,
      "learning_rate": 0.00011159999999999999,
      "loss": 3.5233,
      "step": 379
    },
    {
      "epoch": 0.608,
      "grad_norm": 1.739877462387085,
      "learning_rate": 0.0001119,
      "loss": 3.4612,
      "step": 380
    },
    {
      "epoch": 0.6096,
      "grad_norm": 1.2230865955352783,
      "learning_rate": 0.00011219999999999999,
      "loss": 3.5631,
      "step": 381
    },
    {
      "epoch": 0.6112,
      "grad_norm": 2.661285877227783,
      "learning_rate": 0.0001125,
      "loss": 3.4753,
      "step": 382
    },
    {
      "epoch": 0.6128,
      "grad_norm": 4.004184246063232,
      "learning_rate": 0.00011279999999999999,
      "loss": 3.5881,
      "step": 383
    },
    {
      "epoch": 0.6144,
      "grad_norm": 2.7191810607910156,
      "learning_rate": 0.00011309999999999998,
      "loss": 3.4957,
      "step": 384
    },
    {
      "epoch": 0.616,
      "grad_norm": 1.195847988128662,
      "learning_rate": 0.00011339999999999999,
      "loss": 3.4449,
      "step": 385
    },
    {
      "epoch": 0.6176,
      "grad_norm": 2.1945791244506836,
      "learning_rate": 0.00011369999999999999,
      "loss": 3.5439,
      "step": 386
    },
    {
      "epoch": 0.6192,
      "grad_norm": 1.4968360662460327,
      "learning_rate": 0.00011399999999999999,
      "loss": 3.5066,
      "step": 387
    },
    {
      "epoch": 0.6208,
      "grad_norm": 2.2760701179504395,
      "learning_rate": 0.00011429999999999999,
      "loss": 3.5232,
      "step": 388
    },
    {
      "epoch": 0.6224,
      "grad_norm": 0.8866758942604065,
      "learning_rate": 0.0001146,
      "loss": 3.5362,
      "step": 389
    },
    {
      "epoch": 0.624,
      "grad_norm": 1.5824236869812012,
      "learning_rate": 0.00011489999999999999,
      "loss": 3.533,
      "step": 390
    },
    {
      "epoch": 0.6256,
      "grad_norm": 1.9433133602142334,
      "learning_rate": 0.0001152,
      "loss": 3.5246,
      "step": 391
    },
    {
      "epoch": 0.6272,
      "grad_norm": 1.2729533910751343,
      "learning_rate": 0.00011549999999999999,
      "loss": 3.5464,
      "step": 392
    },
    {
      "epoch": 0.6288,
      "grad_norm": 1.4902565479278564,
      "learning_rate": 0.0001158,
      "loss": 3.5223,
      "step": 393
    },
    {
      "epoch": 0.6304,
      "grad_norm": 2.5921518802642822,
      "learning_rate": 0.00011609999999999999,
      "loss": 3.535,
      "step": 394
    },
    {
      "epoch": 0.632,
      "grad_norm": 1.2368192672729492,
      "learning_rate": 0.0001164,
      "loss": 3.4233,
      "step": 395
    },
    {
      "epoch": 0.6336,
      "grad_norm": 1.8510901927947998,
      "learning_rate": 0.00011669999999999999,
      "loss": 3.681,
      "step": 396
    },
    {
      "epoch": 0.6352,
      "grad_norm": 2.9283556938171387,
      "learning_rate": 0.000117,
      "loss": 3.5726,
      "step": 397
    },
    {
      "epoch": 0.6368,
      "grad_norm": 3.5072672367095947,
      "learning_rate": 0.00011729999999999999,
      "loss": 3.466,
      "step": 398
    },
    {
      "epoch": 0.6384,
      "grad_norm": 1.411615014076233,
      "learning_rate": 0.0001176,
      "loss": 3.5429,
      "step": 399
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0001176,
      "loss": 3.791,
      "step": 400
    },
    {
      "epoch": 0.6416,
      "grad_norm": 148.1685028076172,
      "learning_rate": 0.00011789999999999999,
      "loss": 4.8401,
      "step": 401
    },
    {
      "epoch": 0.6432,
      "grad_norm": 12.178915977478027,
      "learning_rate": 0.0001182,
      "loss": 3.9567,
      "step": 402
    },
    {
      "epoch": 0.6448,
      "grad_norm": 5.5876264572143555,
      "learning_rate": 0.0001185,
      "loss": 3.6857,
      "step": 403
    },
    {
      "epoch": 0.6464,
      "grad_norm": 5.527307033538818,
      "learning_rate": 0.0001188,
      "loss": 3.7207,
      "step": 404
    },
    {
      "epoch": 0.648,
      "grad_norm": 2.253143548965454,
      "learning_rate": 0.0001191,
      "loss": 3.6194,
      "step": 405
    },
    {
      "epoch": 0.6496,
      "grad_norm": 1.694656491279602,
      "learning_rate": 0.0001194,
      "loss": 3.7182,
      "step": 406
    },
    {
      "epoch": 0.6512,
      "grad_norm": 4.179173469543457,
      "learning_rate": 0.0001197,
      "loss": 3.6074,
      "step": 407
    },
    {
      "epoch": 0.6528,
      "grad_norm": 5.340901851654053,
      "learning_rate": 0.00011999999999999999,
      "loss": 3.5508,
      "step": 408
    },
    {
      "epoch": 0.6544,
      "grad_norm": 7.354061126708984,
      "learning_rate": 0.0001203,
      "loss": 3.6077,
      "step": 409
    },
    {
      "epoch": 0.656,
      "grad_norm": 1.8508795499801636,
      "learning_rate": 0.00012059999999999999,
      "loss": 3.5619,
      "step": 410
    },
    {
      "epoch": 0.6576,
      "grad_norm": 4.04713249206543,
      "learning_rate": 0.0001209,
      "loss": 3.4478,
      "step": 411
    },
    {
      "epoch": 0.6592,
      "grad_norm": 6.989367485046387,
      "learning_rate": 0.00012119999999999999,
      "loss": 3.5359,
      "step": 412
    },
    {
      "epoch": 0.6608,
      "grad_norm": 2.084543466567993,
      "learning_rate": 0.0001215,
      "loss": 3.4906,
      "step": 413
    },
    {
      "epoch": 0.6624,
      "grad_norm": 1.3646767139434814,
      "learning_rate": 0.00012179999999999999,
      "loss": 3.4266,
      "step": 414
    },
    {
      "epoch": 0.664,
      "grad_norm": 1.7721978425979614,
      "learning_rate": 0.00012209999999999999,
      "loss": 3.5448,
      "step": 415
    },
    {
      "epoch": 0.6656,
      "grad_norm": 1.3269426822662354,
      "learning_rate": 0.0001224,
      "loss": 3.4261,
      "step": 416
    },
    {
      "epoch": 0.6672,
      "grad_norm": 1.851492166519165,
      "learning_rate": 0.00012269999999999997,
      "loss": 3.3502,
      "step": 417
    },
    {
      "epoch": 0.6688,
      "grad_norm": 4.740501880645752,
      "learning_rate": 0.00012299999999999998,
      "loss": 3.3928,
      "step": 418
    },
    {
      "epoch": 0.6704,
      "grad_norm": 1.7381259202957153,
      "learning_rate": 0.0001233,
      "loss": 3.3864,
      "step": 419
    },
    {
      "epoch": 0.672,
      "grad_norm": 2.608163833618164,
      "learning_rate": 0.0001236,
      "loss": 3.3182,
      "step": 420
    },
    {
      "epoch": 0.6736,
      "grad_norm": 1.1638840436935425,
      "learning_rate": 0.00012389999999999998,
      "loss": 3.367,
      "step": 421
    },
    {
      "epoch": 0.6752,
      "grad_norm": 1.1645619869232178,
      "learning_rate": 0.00012419999999999998,
      "loss": 3.3808,
      "step": 422
    },
    {
      "epoch": 0.6768,
      "grad_norm": 1.3737239837646484,
      "learning_rate": 0.0001245,
      "loss": 3.3585,
      "step": 423
    },
    {
      "epoch": 0.6784,
      "grad_norm": 42.222755432128906,
      "learning_rate": 0.00012479999999999997,
      "loss": 3.3515,
      "step": 424
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.465653419494629,
      "learning_rate": 0.00012509999999999998,
      "loss": 3.3906,
      "step": 425
    },
    {
      "epoch": 0.6816,
      "grad_norm": 1.9028306007385254,
      "learning_rate": 0.00012539999999999999,
      "loss": 3.4148,
      "step": 426
    },
    {
      "epoch": 0.6832,
      "grad_norm": 1.9519649744033813,
      "learning_rate": 0.0001257,
      "loss": 3.3085,
      "step": 427
    },
    {
      "epoch": 0.6848,
      "grad_norm": 1.1407490968704224,
      "learning_rate": 0.00012599999999999997,
      "loss": 3.42,
      "step": 428
    },
    {
      "epoch": 0.6864,
      "grad_norm": 0.9681979417800903,
      "learning_rate": 0.00012629999999999998,
      "loss": 3.2658,
      "step": 429
    },
    {
      "epoch": 0.688,
      "grad_norm": 1.3614871501922607,
      "learning_rate": 0.0001266,
      "loss": 3.2536,
      "step": 430
    },
    {
      "epoch": 0.6896,
      "grad_norm": 1.113405704498291,
      "learning_rate": 0.0001269,
      "loss": 3.171,
      "step": 431
    },
    {
      "epoch": 0.6912,
      "grad_norm": 2.0724241733551025,
      "learning_rate": 0.00012719999999999997,
      "loss": 3.1676,
      "step": 432
    },
    {
      "epoch": 0.6928,
      "grad_norm": 3.1103081703186035,
      "learning_rate": 0.00012749999999999998,
      "loss": 3.1817,
      "step": 433
    },
    {
      "epoch": 0.6944,
      "grad_norm": 3.0139989852905273,
      "learning_rate": 0.0001278,
      "loss": 3.143,
      "step": 434
    },
    {
      "epoch": 0.696,
      "grad_norm": 1.2784980535507202,
      "learning_rate": 0.0001281,
      "loss": 3.2375,
      "step": 435
    },
    {
      "epoch": 0.6976,
      "grad_norm": 1.6558539867401123,
      "learning_rate": 0.00012839999999999998,
      "loss": 3.1586,
      "step": 436
    },
    {
      "epoch": 0.6992,
      "grad_norm": 0.9733999967575073,
      "learning_rate": 0.00012869999999999998,
      "loss": 3.3419,
      "step": 437
    },
    {
      "epoch": 0.7008,
      "grad_norm": 1.0060323476791382,
      "learning_rate": 0.000129,
      "loss": 3.1615,
      "step": 438
    },
    {
      "epoch": 0.7024,
      "grad_norm": 1.6919910907745361,
      "learning_rate": 0.0001293,
      "loss": 3.283,
      "step": 439
    },
    {
      "epoch": 0.704,
      "grad_norm": 1.88755202293396,
      "learning_rate": 0.00012959999999999998,
      "loss": 3.4583,
      "step": 440
    },
    {
      "epoch": 0.7056,
      "grad_norm": 1.442505121231079,
      "learning_rate": 0.00012989999999999999,
      "loss": 3.0699,
      "step": 441
    },
    {
      "epoch": 0.7072,
      "grad_norm": 1.363010287284851,
      "learning_rate": 0.0001302,
      "loss": 3.1889,
      "step": 442
    },
    {
      "epoch": 0.7088,
      "grad_norm": 1.2752346992492676,
      "learning_rate": 0.0001305,
      "loss": 3.152,
      "step": 443
    },
    {
      "epoch": 0.7104,
      "grad_norm": 1.477892518043518,
      "learning_rate": 0.00013079999999999998,
      "loss": 3.2669,
      "step": 444
    },
    {
      "epoch": 0.712,
      "grad_norm": 1.7384015321731567,
      "learning_rate": 0.0001311,
      "loss": 3.1291,
      "step": 445
    },
    {
      "epoch": 0.7136,
      "grad_norm": 1.0315364599227905,
      "learning_rate": 0.0001314,
      "loss": 3.1201,
      "step": 446
    },
    {
      "epoch": 0.7152,
      "grad_norm": 1.4718317985534668,
      "learning_rate": 0.00013169999999999998,
      "loss": 3.2393,
      "step": 447
    },
    {
      "epoch": 0.7168,
      "grad_norm": 1.4238083362579346,
      "learning_rate": 0.00013199999999999998,
      "loss": 3.2598,
      "step": 448
    },
    {
      "epoch": 0.7184,
      "grad_norm": 1.4846147298812866,
      "learning_rate": 0.0001323,
      "loss": 3.3919,
      "step": 449
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.619383811950684,
      "learning_rate": 0.0001326,
      "loss": 3.6552,
      "step": 450
    },
    {
      "epoch": 0.7216,
      "grad_norm": 30.76251220703125,
      "learning_rate": 0.00013289999999999998,
      "loss": 4.6791,
      "step": 451
    },
    {
      "epoch": 0.7232,
      "grad_norm": 7.747359275817871,
      "learning_rate": 0.00013319999999999999,
      "loss": 3.1795,
      "step": 452
    },
    {
      "epoch": 0.7248,
      "grad_norm": 5.558343887329102,
      "learning_rate": 0.0001335,
      "loss": 3.1374,
      "step": 453
    },
    {
      "epoch": 0.7264,
      "grad_norm": 2.7429940700531006,
      "learning_rate": 0.0001338,
      "loss": 3.0504,
      "step": 454
    },
    {
      "epoch": 0.728,
      "grad_norm": 1.343422293663025,
      "learning_rate": 0.00013409999999999998,
      "loss": 3.0727,
      "step": 455
    },
    {
      "epoch": 0.7296,
      "grad_norm": 1.5927385091781616,
      "learning_rate": 0.0001344,
      "loss": 3.1032,
      "step": 456
    },
    {
      "epoch": 0.7312,
      "grad_norm": 4.210255146026611,
      "learning_rate": 0.0001347,
      "loss": 3.0035,
      "step": 457
    },
    {
      "epoch": 0.7328,
      "grad_norm": 3.81455135345459,
      "learning_rate": 0.000135,
      "loss": 2.7915,
      "step": 458
    },
    {
      "epoch": 0.7344,
      "grad_norm": 2.9454805850982666,
      "learning_rate": 0.00013529999999999998,
      "loss": 2.9141,
      "step": 459
    },
    {
      "epoch": 0.736,
      "grad_norm": 1.501758337020874,
      "learning_rate": 0.0001356,
      "loss": 2.7512,
      "step": 460
    },
    {
      "epoch": 0.7376,
      "grad_norm": 1.6795105934143066,
      "learning_rate": 0.0001359,
      "loss": 2.6789,
      "step": 461
    },
    {
      "epoch": 0.7392,
      "grad_norm": 2.2269608974456787,
      "learning_rate": 0.0001362,
      "loss": 2.7782,
      "step": 462
    },
    {
      "epoch": 0.7408,
      "grad_norm": 2.0078094005584717,
      "learning_rate": 0.00013649999999999998,
      "loss": 2.6121,
      "step": 463
    },
    {
      "epoch": 0.7424,
      "grad_norm": 2.3875632286071777,
      "learning_rate": 0.0001368,
      "loss": 2.6247,
      "step": 464
    },
    {
      "epoch": 0.744,
      "grad_norm": 2.9569144248962402,
      "learning_rate": 0.0001371,
      "loss": 2.9894,
      "step": 465
    },
    {
      "epoch": 0.7456,
      "grad_norm": 1.4559426307678223,
      "learning_rate": 0.0001374,
      "loss": 2.6496,
      "step": 466
    },
    {
      "epoch": 0.7472,
      "grad_norm": 2.152031421661377,
      "learning_rate": 0.00013769999999999999,
      "loss": 2.6579,
      "step": 467
    },
    {
      "epoch": 0.7488,
      "grad_norm": 1.1554604768753052,
      "learning_rate": 0.000138,
      "loss": 2.67,
      "step": 468
    },
    {
      "epoch": 0.7504,
      "grad_norm": 1.7094281911849976,
      "learning_rate": 0.0001383,
      "loss": 2.5704,
      "step": 469
    },
    {
      "epoch": 0.752,
      "grad_norm": 5.252382278442383,
      "learning_rate": 0.0001386,
      "loss": 2.8019,
      "step": 470
    },
    {
      "epoch": 0.7536,
      "grad_norm": 3.1910815238952637,
      "learning_rate": 0.0001389,
      "loss": 2.7668,
      "step": 471
    },
    {
      "epoch": 0.7552,
      "grad_norm": 1.2235437631607056,
      "learning_rate": 0.0001392,
      "loss": 2.5559,
      "step": 472
    },
    {
      "epoch": 0.7568,
      "grad_norm": 1.8325499296188354,
      "learning_rate": 0.0001395,
      "loss": 2.5642,
      "step": 473
    },
    {
      "epoch": 0.7584,
      "grad_norm": 1.3871606588363647,
      "learning_rate": 0.00013979999999999998,
      "loss": 2.6201,
      "step": 474
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0033754110336304,
      "learning_rate": 0.0001401,
      "loss": 2.5613,
      "step": 475
    },
    {
      "epoch": 0.7616,
      "grad_norm": 0.9249265193939209,
      "learning_rate": 0.0001404,
      "loss": 2.3257,
      "step": 476
    },
    {
      "epoch": 0.7632,
      "grad_norm": 1.0387792587280273,
      "learning_rate": 0.00014069999999999998,
      "loss": 2.6483,
      "step": 477
    },
    {
      "epoch": 0.7648,
      "grad_norm": 1.5178635120391846,
      "learning_rate": 0.00014099999999999998,
      "loss": 2.4524,
      "step": 478
    },
    {
      "epoch": 0.7664,
      "grad_norm": 4.191971302032471,
      "learning_rate": 0.0001413,
      "loss": 2.688,
      "step": 479
    },
    {
      "epoch": 0.768,
      "grad_norm": 3.055619955062866,
      "learning_rate": 0.00014159999999999997,
      "loss": 2.4534,
      "step": 480
    },
    {
      "epoch": 0.7696,
      "grad_norm": 2.205340623855591,
      "learning_rate": 0.00014189999999999998,
      "loss": 2.4007,
      "step": 481
    },
    {
      "epoch": 0.7712,
      "grad_norm": 0.9651008248329163,
      "learning_rate": 0.0001422,
      "loss": 2.3937,
      "step": 482
    },
    {
      "epoch": 0.7728,
      "grad_norm": 1.5760127305984497,
      "learning_rate": 0.0001425,
      "loss": 2.3266,
      "step": 483
    },
    {
      "epoch": 0.7744,
      "grad_norm": 1.0742831230163574,
      "learning_rate": 0.00014279999999999997,
      "loss": 2.606,
      "step": 484
    },
    {
      "epoch": 0.776,
      "grad_norm": 1.195465087890625,
      "learning_rate": 0.00014309999999999998,
      "loss": 2.5657,
      "step": 485
    },
    {
      "epoch": 0.7776,
      "grad_norm": 1.0587530136108398,
      "learning_rate": 0.0001434,
      "loss": 2.2895,
      "step": 486
    },
    {
      "epoch": 0.7792,
      "grad_norm": 1.911810040473938,
      "learning_rate": 0.00014369999999999997,
      "loss": 2.2882,
      "step": 487
    },
    {
      "epoch": 0.7808,
      "grad_norm": 1.0950274467468262,
      "learning_rate": 0.00014399999999999998,
      "loss": 2.3568,
      "step": 488
    },
    {
      "epoch": 0.7824,
      "grad_norm": 1.563812494277954,
      "learning_rate": 0.00014429999999999998,
      "loss": 2.5129,
      "step": 489
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.9567598104476929,
      "learning_rate": 0.0001446,
      "loss": 2.3818,
      "step": 490
    },
    {
      "epoch": 0.7856,
      "grad_norm": 0.9638680815696716,
      "learning_rate": 0.00014489999999999997,
      "loss": 2.1914,
      "step": 491
    },
    {
      "epoch": 0.7872,
      "grad_norm": 1.8414331674575806,
      "learning_rate": 0.00014519999999999998,
      "loss": 2.5106,
      "step": 492
    },
    {
      "epoch": 0.7888,
      "grad_norm": 1.2512167692184448,
      "learning_rate": 0.00014549999999999999,
      "loss": 2.1566,
      "step": 493
    },
    {
      "epoch": 0.7904,
      "grad_norm": 1.4093244075775146,
      "learning_rate": 0.0001458,
      "loss": 2.1137,
      "step": 494
    },
    {
      "epoch": 0.792,
      "grad_norm": 1.3009130954742432,
      "learning_rate": 0.00014609999999999997,
      "loss": 2.4738,
      "step": 495
    },
    {
      "epoch": 0.7936,
      "grad_norm": 1.0954293012619019,
      "learning_rate": 0.00014639999999999998,
      "loss": 2.7082,
      "step": 496
    },
    {
      "epoch": 0.7952,
      "grad_norm": 1.9157133102416992,
      "learning_rate": 0.0001467,
      "loss": 2.4871,
      "step": 497
    },
    {
      "epoch": 0.7968,
      "grad_norm": 1.6690477132797241,
      "learning_rate": 0.000147,
      "loss": 2.5936,
      "step": 498
    },
    {
      "epoch": 0.7984,
      "grad_norm": 1.933651089668274,
      "learning_rate": 0.00014729999999999998,
      "loss": 2.4619,
      "step": 499
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.00014729999999999998,
      "loss": 3.235,
      "step": 500
    },
    {
      "epoch": 0.8016,
      "grad_norm": 7.1725873947143555,
      "learning_rate": 0.00014759999999999998,
      "loss": 2.7598,
      "step": 501
    },
    {
      "epoch": 0.8032,
      "grad_norm": 5.490133762359619,
      "learning_rate": 0.0001479,
      "loss": 2.3616,
      "step": 502
    },
    {
      "epoch": 0.8048,
      "grad_norm": 1.2265512943267822,
      "learning_rate": 0.0001482,
      "loss": 2.2612,
      "step": 503
    },
    {
      "epoch": 0.8064,
      "grad_norm": 2.705599069595337,
      "learning_rate": 0.00014849999999999998,
      "loss": 2.6145,
      "step": 504
    },
    {
      "epoch": 0.808,
      "grad_norm": 1.0577749013900757,
      "learning_rate": 0.00014879999999999998,
      "loss": 2.305,
      "step": 505
    },
    {
      "epoch": 0.8096,
      "grad_norm": 2.958197593688965,
      "learning_rate": 0.0001491,
      "loss": 2.2658,
      "step": 506
    },
    {
      "epoch": 0.8112,
      "grad_norm": 1.8943955898284912,
      "learning_rate": 0.0001494,
      "loss": 2.3687,
      "step": 507
    },
    {
      "epoch": 0.8128,
      "grad_norm": 1.8153882026672363,
      "learning_rate": 0.00014969999999999998,
      "loss": 1.9508,
      "step": 508
    },
    {
      "epoch": 0.8144,
      "grad_norm": 1.5181827545166016,
      "learning_rate": 0.00015,
      "loss": 2.1255,
      "step": 509
    },
    {
      "epoch": 0.816,
      "grad_norm": 1.3731355667114258,
      "learning_rate": 0.0001503,
      "loss": 2.1064,
      "step": 510
    },
    {
      "epoch": 0.8176,
      "grad_norm": 3.0102975368499756,
      "learning_rate": 0.00015059999999999997,
      "loss": 2.3098,
      "step": 511
    },
    {
      "epoch": 0.8192,
      "grad_norm": 3.4178948402404785,
      "learning_rate": 0.00015089999999999998,
      "loss": 1.9189,
      "step": 512
    },
    {
      "epoch": 0.8208,
      "grad_norm": 2.359294891357422,
      "learning_rate": 0.0001512,
      "loss": 2.2278,
      "step": 513
    },
    {
      "epoch": 0.8224,
      "grad_norm": 1.2816225290298462,
      "learning_rate": 0.0001515,
      "loss": 1.7545,
      "step": 514
    },
    {
      "epoch": 0.824,
      "grad_norm": 1.676662564277649,
      "learning_rate": 0.00015179999999999998,
      "loss": 2.0563,
      "step": 515
    },
    {
      "epoch": 0.8256,
      "grad_norm": 1.036680817604065,
      "learning_rate": 0.00015209999999999998,
      "loss": 1.9042,
      "step": 516
    },
    {
      "epoch": 0.8272,
      "grad_norm": 0.8826329708099365,
      "learning_rate": 0.0001524,
      "loss": 1.9305,
      "step": 517
    },
    {
      "epoch": 0.8288,
      "grad_norm": 6.336912631988525,
      "learning_rate": 0.0001527,
      "loss": 2.5653,
      "step": 518
    },
    {
      "epoch": 0.8304,
      "grad_norm": 1.77652907371521,
      "learning_rate": 0.00015299999999999998,
      "loss": 1.8931,
      "step": 519
    },
    {
      "epoch": 0.832,
      "grad_norm": 1.2775630950927734,
      "learning_rate": 0.00015329999999999999,
      "loss": 1.7564,
      "step": 520
    },
    {
      "epoch": 0.8336,
      "grad_norm": 1.01466965675354,
      "learning_rate": 0.0001536,
      "loss": 1.7173,
      "step": 521
    },
    {
      "epoch": 0.8352,
      "grad_norm": 1.1461132764816284,
      "learning_rate": 0.0001539,
      "loss": 1.9266,
      "step": 522
    },
    {
      "epoch": 0.8368,
      "grad_norm": 1.6386278867721558,
      "learning_rate": 0.00015419999999999998,
      "loss": 1.6062,
      "step": 523
    },
    {
      "epoch": 0.8384,
      "grad_norm": 1.1096084117889404,
      "learning_rate": 0.0001545,
      "loss": 1.6551,
      "step": 524
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0475767850875854,
      "learning_rate": 0.0001548,
      "loss": 1.6422,
      "step": 525
    },
    {
      "epoch": 0.8416,
      "grad_norm": 1.8000061511993408,
      "learning_rate": 0.0001551,
      "loss": 1.8283,
      "step": 526
    },
    {
      "epoch": 0.8432,
      "grad_norm": 1.2773330211639404,
      "learning_rate": 0.00015539999999999998,
      "loss": 1.6057,
      "step": 527
    },
    {
      "epoch": 0.8448,
      "grad_norm": 2.812037944793701,
      "learning_rate": 0.0001557,
      "loss": 1.9903,
      "step": 528
    },
    {
      "epoch": 0.8464,
      "grad_norm": 1.1310831308364868,
      "learning_rate": 0.000156,
      "loss": 2.1515,
      "step": 529
    },
    {
      "epoch": 0.848,
      "grad_norm": 1.6405916213989258,
      "learning_rate": 0.0001563,
      "loss": 1.6635,
      "step": 530
    },
    {
      "epoch": 0.8496,
      "grad_norm": 1.143716812133789,
      "learning_rate": 0.00015659999999999998,
      "loss": 1.7994,
      "step": 531
    },
    {
      "epoch": 0.8512,
      "grad_norm": 1.5526354312896729,
      "learning_rate": 0.0001569,
      "loss": 1.6934,
      "step": 532
    },
    {
      "epoch": 0.8528,
      "grad_norm": 1.5130469799041748,
      "learning_rate": 0.0001572,
      "loss": 2.0692,
      "step": 533
    },
    {
      "epoch": 0.8544,
      "grad_norm": 2.715682029724121,
      "learning_rate": 0.00015749999999999998,
      "loss": 2.178,
      "step": 534
    },
    {
      "epoch": 0.856,
      "grad_norm": 1.2512975931167603,
      "learning_rate": 0.0001578,
      "loss": 2.0984,
      "step": 535
    },
    {
      "epoch": 0.8576,
      "grad_norm": 1.528995394706726,
      "learning_rate": 0.0001581,
      "loss": 2.0069,
      "step": 536
    },
    {
      "epoch": 0.8592,
      "grad_norm": 2.7194480895996094,
      "learning_rate": 0.0001584,
      "loss": 1.8528,
      "step": 537
    },
    {
      "epoch": 0.8608,
      "grad_norm": 1.1557732820510864,
      "learning_rate": 0.00015869999999999998,
      "loss": 2.0246,
      "step": 538
    },
    {
      "epoch": 0.8624,
      "grad_norm": 1.606906771659851,
      "learning_rate": 0.000159,
      "loss": 2.1268,
      "step": 539
    },
    {
      "epoch": 0.864,
      "grad_norm": 1.176815152168274,
      "learning_rate": 0.0001593,
      "loss": 1.7476,
      "step": 540
    },
    {
      "epoch": 0.8656,
      "grad_norm": 1.139367699623108,
      "learning_rate": 0.0001596,
      "loss": 2.1414,
      "step": 541
    },
    {
      "epoch": 0.8672,
      "grad_norm": 1.1354289054870605,
      "learning_rate": 0.00015989999999999998,
      "loss": 2.1052,
      "step": 542
    },
    {
      "epoch": 0.8688,
      "grad_norm": 1.374079942703247,
      "learning_rate": 0.0001602,
      "loss": 2.0711,
      "step": 543
    },
    {
      "epoch": 0.8704,
      "grad_norm": 1.9494390487670898,
      "learning_rate": 0.0001605,
      "loss": 2.3558,
      "step": 544
    },
    {
      "epoch": 0.872,
      "grad_norm": 1.1053131818771362,
      "learning_rate": 0.0001608,
      "loss": 2.0471,
      "step": 545
    },
    {
      "epoch": 0.8736,
      "grad_norm": 1.0600978136062622,
      "learning_rate": 0.00016109999999999999,
      "loss": 1.6801,
      "step": 546
    },
    {
      "epoch": 0.8752,
      "grad_norm": 1.5583279132843018,
      "learning_rate": 0.0001614,
      "loss": 2.222,
      "step": 547
    },
    {
      "epoch": 0.8768,
      "grad_norm": 1.5233080387115479,
      "learning_rate": 0.0001617,
      "loss": 2.0222,
      "step": 548
    },
    {
      "epoch": 0.8784,
      "grad_norm": 1.6784640550613403,
      "learning_rate": 0.000162,
      "loss": 2.3573,
      "step": 549
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.000162,
      "loss": 1.9713,
      "step": 550
    },
    {
      "epoch": 0.8816,
      "grad_norm": 22.64229393005371,
      "learning_rate": 0.0001623,
      "loss": 4.5456,
      "step": 551
    },
    {
      "epoch": 0.8832,
      "grad_norm": 3.1680028438568115,
      "learning_rate": 0.0001626,
      "loss": 1.9073,
      "step": 552
    },
    {
      "epoch": 0.8848,
      "grad_norm": 1.5461392402648926,
      "learning_rate": 0.0001629,
      "loss": 1.8575,
      "step": 553
    },
    {
      "epoch": 0.8864,
      "grad_norm": 1.6578490734100342,
      "learning_rate": 0.0001632,
      "loss": 2.1306,
      "step": 554
    },
    {
      "epoch": 0.888,
      "grad_norm": 2.54394793510437,
      "learning_rate": 0.0001635,
      "loss": 2.0791,
      "step": 555
    },
    {
      "epoch": 0.8896,
      "grad_norm": 4.085062026977539,
      "learning_rate": 0.0001638,
      "loss": 2.0151,
      "step": 556
    },
    {
      "epoch": 0.8912,
      "grad_norm": 1.3918102979660034,
      "learning_rate": 0.0001641,
      "loss": 1.9562,
      "step": 557
    },
    {
      "epoch": 0.8928,
      "grad_norm": 1.7889790534973145,
      "learning_rate": 0.0001644,
      "loss": 2.3353,
      "step": 558
    },
    {
      "epoch": 0.8944,
      "grad_norm": 1.9378011226654053,
      "learning_rate": 0.0001647,
      "loss": 1.5553,
      "step": 559
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.3917180299758911,
      "learning_rate": 0.000165,
      "loss": 1.6519,
      "step": 560
    },
    {
      "epoch": 0.8976,
      "grad_norm": 5.907794952392578,
      "learning_rate": 0.0001653,
      "loss": 2.2321,
      "step": 561
    },
    {
      "epoch": 0.8992,
      "grad_norm": 1.9292672872543335,
      "learning_rate": 0.0001656,
      "loss": 1.9859,
      "step": 562
    },
    {
      "epoch": 0.9008,
      "grad_norm": 1.9389235973358154,
      "learning_rate": 0.0001659,
      "loss": 1.656,
      "step": 563
    },
    {
      "epoch": 0.9024,
      "grad_norm": 1.0009876489639282,
      "learning_rate": 0.0001662,
      "loss": 1.7168,
      "step": 564
    },
    {
      "epoch": 0.904,
      "grad_norm": 1.138958215713501,
      "learning_rate": 0.0001665,
      "loss": 1.3794,
      "step": 565
    },
    {
      "epoch": 0.9056,
      "grad_norm": 1.236640453338623,
      "learning_rate": 0.0001668,
      "loss": 1.5395,
      "step": 566
    },
    {
      "epoch": 0.9072,
      "grad_norm": 0.8538547158241272,
      "learning_rate": 0.0001671,
      "loss": 1.6903,
      "step": 567
    },
    {
      "epoch": 0.9088,
      "grad_norm": 1.112789273262024,
      "learning_rate": 0.0001674,
      "loss": 1.6005,
      "step": 568
    },
    {
      "epoch": 0.9104,
      "grad_norm": 0.9694105982780457,
      "learning_rate": 0.0001677,
      "loss": 1.6596,
      "step": 569
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.9604489803314209,
      "learning_rate": 0.000168,
      "loss": 1.3571,
      "step": 570
    },
    {
      "epoch": 0.9136,
      "grad_norm": 1.1342942714691162,
      "learning_rate": 0.0001683,
      "loss": 1.9352,
      "step": 571
    },
    {
      "epoch": 0.9152,
      "grad_norm": 1.059465765953064,
      "learning_rate": 0.0001686,
      "loss": 1.5642,
      "step": 572
    },
    {
      "epoch": 0.9168,
      "grad_norm": 1.3122626543045044,
      "learning_rate": 0.00016889999999999996,
      "loss": 1.5281,
      "step": 573
    },
    {
      "epoch": 0.9184,
      "grad_norm": 4.926758289337158,
      "learning_rate": 0.00016919999999999997,
      "loss": 2.0261,
      "step": 574
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.0546226501464844,
      "learning_rate": 0.00016949999999999997,
      "loss": 1.6621,
      "step": 575
    },
    {
      "epoch": 0.9216,
      "grad_norm": 2.96925687789917,
      "learning_rate": 0.00016979999999999998,
      "loss": 2.0468,
      "step": 576
    },
    {
      "epoch": 0.9232,
      "grad_norm": 1.883144736289978,
      "learning_rate": 0.00017009999999999996,
      "loss": 1.4683,
      "step": 577
    },
    {
      "epoch": 0.9248,
      "grad_norm": 1.6988012790679932,
      "learning_rate": 0.00017039999999999997,
      "loss": 1.4475,
      "step": 578
    },
    {
      "epoch": 0.9264,
      "grad_norm": 1.6453936100006104,
      "learning_rate": 0.00017069999999999998,
      "loss": 1.475,
      "step": 579
    },
    {
      "epoch": 0.928,
      "grad_norm": 2.155768871307373,
      "learning_rate": 0.00017099999999999998,
      "loss": 1.5596,
      "step": 580
    },
    {
      "epoch": 0.9296,
      "grad_norm": 1.20650053024292,
      "learning_rate": 0.00017129999999999996,
      "loss": 1.8129,
      "step": 581
    },
    {
      "epoch": 0.9312,
      "grad_norm": 1.2697020769119263,
      "learning_rate": 0.00017159999999999997,
      "loss": 1.5443,
      "step": 582
    },
    {
      "epoch": 0.9328,
      "grad_norm": 1.6629301309585571,
      "learning_rate": 0.00017189999999999998,
      "loss": 1.4867,
      "step": 583
    },
    {
      "epoch": 0.9344,
      "grad_norm": 1.982050895690918,
      "learning_rate": 0.00017219999999999998,
      "loss": 1.7197,
      "step": 584
    },
    {
      "epoch": 0.936,
      "grad_norm": 2.2001729011535645,
      "learning_rate": 0.00017249999999999996,
      "loss": 1.5931,
      "step": 585
    },
    {
      "epoch": 0.9376,
      "grad_norm": 1.925163984298706,
      "learning_rate": 0.00017279999999999997,
      "loss": 1.6565,
      "step": 586
    },
    {
      "epoch": 0.9392,
      "grad_norm": 1.163279414176941,
      "learning_rate": 0.00017309999999999998,
      "loss": 1.5769,
      "step": 587
    },
    {
      "epoch": 0.9408,
      "grad_norm": 1.164640188217163,
      "learning_rate": 0.00017339999999999996,
      "loss": 1.4949,
      "step": 588
    },
    {
      "epoch": 0.9424,
      "grad_norm": 1.5389615297317505,
      "learning_rate": 0.00017369999999999997,
      "loss": 1.6192,
      "step": 589
    },
    {
      "epoch": 0.944,
      "grad_norm": 3.1581554412841797,
      "learning_rate": 0.00017399999999999997,
      "loss": 2.1662,
      "step": 590
    },
    {
      "epoch": 0.9456,
      "grad_norm": 1.5341241359710693,
      "learning_rate": 0.00017429999999999998,
      "loss": 2.0104,
      "step": 591
    },
    {
      "epoch": 0.9472,
      "grad_norm": 2.192890167236328,
      "learning_rate": 0.00017459999999999996,
      "loss": 1.6697,
      "step": 592
    },
    {
      "epoch": 0.9488,
      "grad_norm": 1.1967136859893799,
      "learning_rate": 0.00017489999999999997,
      "loss": 2.1618,
      "step": 593
    },
    {
      "epoch": 0.9504,
      "grad_norm": 1.4983010292053223,
      "learning_rate": 0.00017519999999999998,
      "loss": 1.6773,
      "step": 594
    },
    {
      "epoch": 0.952,
      "grad_norm": 1.8660876750946045,
      "learning_rate": 0.00017549999999999998,
      "loss": 2.1347,
      "step": 595
    },
    {
      "epoch": 0.9536,
      "grad_norm": 2.4708802700042725,
      "learning_rate": 0.00017579999999999996,
      "loss": 2.0521,
      "step": 596
    },
    {
      "epoch": 0.9552,
      "grad_norm": 1.22525954246521,
      "learning_rate": 0.00017609999999999997,
      "loss": 2.3289,
      "step": 597
    },
    {
      "epoch": 0.9568,
      "grad_norm": 2.8093461990356445,
      "learning_rate": 0.00017639999999999998,
      "loss": 2.3451,
      "step": 598
    },
    {
      "epoch": 0.9584,
      "grad_norm": 2.3243844509124756,
      "learning_rate": 0.00017669999999999999,
      "loss": 1.8311,
      "step": 599
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.00017669999999999999,
      "loss": 1.9821,
      "step": 600
    },
    {
      "epoch": 0.9616,
      "grad_norm": 2.1118686199188232,
      "learning_rate": 0.00017699999999999997,
      "loss": 1.8856,
      "step": 601
    },
    {
      "epoch": 0.9632,
      "grad_norm": 3.0222251415252686,
      "learning_rate": 0.00017729999999999997,
      "loss": 2.4598,
      "step": 602
    },
    {
      "epoch": 0.9648,
      "grad_norm": 2.8710968494415283,
      "learning_rate": 0.00017759999999999998,
      "loss": 2.2719,
      "step": 603
    },
    {
      "epoch": 0.9664,
      "grad_norm": 3.6922225952148438,
      "learning_rate": 0.0001779,
      "loss": 1.7081,
      "step": 604
    },
    {
      "epoch": 0.968,
      "grad_norm": 4.826087951660156,
      "learning_rate": 0.00017819999999999997,
      "loss": 1.7774,
      "step": 605
    },
    {
      "epoch": 0.9696,
      "grad_norm": 3.9629127979278564,
      "learning_rate": 0.00017849999999999997,
      "loss": 1.7018,
      "step": 606
    },
    {
      "epoch": 0.9712,
      "grad_norm": 3.826023817062378,
      "learning_rate": 0.00017879999999999998,
      "loss": 1.5971,
      "step": 607
    },
    {
      "epoch": 0.9728,
      "grad_norm": 1.6545122861862183,
      "learning_rate": 0.0001791,
      "loss": 1.9029,
      "step": 608
    },
    {
      "epoch": 0.9744,
      "grad_norm": 1.552114725112915,
      "learning_rate": 0.00017939999999999997,
      "loss": 1.584,
      "step": 609
    },
    {
      "epoch": 0.976,
      "grad_norm": 1.2096900939941406,
      "learning_rate": 0.00017969999999999998,
      "loss": 1.6172,
      "step": 610
    },
    {
      "epoch": 0.9776,
      "grad_norm": 2.817974328994751,
      "learning_rate": 0.00017999999999999998,
      "loss": 1.2749,
      "step": 611
    },
    {
      "epoch": 0.9792,
      "grad_norm": 3.8628475666046143,
      "learning_rate": 0.00018029999999999996,
      "loss": 2.0863,
      "step": 612
    },
    {
      "epoch": 0.9808,
      "grad_norm": 4.558107852935791,
      "learning_rate": 0.00018059999999999997,
      "loss": 1.3319,
      "step": 613
    },
    {
      "epoch": 0.9824,
      "grad_norm": 3.5585508346557617,
      "learning_rate": 0.00018089999999999998,
      "loss": 1.5316,
      "step": 614
    },
    {
      "epoch": 0.984,
      "grad_norm": 3.8311831951141357,
      "learning_rate": 0.00018119999999999999,
      "loss": 1.7669,
      "step": 615
    },
    {
      "epoch": 0.9856,
      "grad_norm": 3.750258207321167,
      "learning_rate": 0.00018149999999999997,
      "loss": 1.6969,
      "step": 616
    },
    {
      "epoch": 0.9872,
      "grad_norm": 2.679804801940918,
      "learning_rate": 0.00018179999999999997,
      "loss": 1.6474,
      "step": 617
    },
    {
      "epoch": 0.9888,
      "grad_norm": 1.5909662246704102,
      "learning_rate": 0.00018209999999999998,
      "loss": 1.5411,
      "step": 618
    },
    {
      "epoch": 0.9904,
      "grad_norm": 1.123789668083191,
      "learning_rate": 0.0001824,
      "loss": 1.7017,
      "step": 619
    },
    {
      "epoch": 0.992,
      "grad_norm": 1.4218626022338867,
      "learning_rate": 0.00018269999999999997,
      "loss": 1.3411,
      "step": 620
    },
    {
      "epoch": 0.9936,
      "grad_norm": 1.5946886539459229,
      "learning_rate": 0.00018299999999999998,
      "loss": 2.159,
      "step": 621
    },
    {
      "epoch": 0.9952,
      "grad_norm": 1.3549202680587769,
      "learning_rate": 0.00018329999999999998,
      "loss": 1.8949,
      "step": 622
    },
    {
      "epoch": 0.9968,
      "grad_norm": 1.5221611261367798,
      "learning_rate": 0.0001836,
      "loss": 1.7881,
      "step": 623
    },
    {
      "epoch": 0.9984,
      "grad_norm": 1.4437967538833618,
      "learning_rate": 0.00018389999999999997,
      "loss": 1.8924,
      "step": 624
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.5355899333953857,
      "learning_rate": 0.00018419999999999998,
      "loss": 2.3162,
      "step": 625
    },
    {
      "epoch": 1.0016,
      "grad_norm": 17.70075798034668,
      "learning_rate": 0.00018449999999999999,
      "loss": 3.2662,
      "step": 626
    },
    {
      "epoch": 1.0032,
      "grad_norm": 5.143967151641846,
      "learning_rate": 0.0001848,
      "loss": 2.1297,
      "step": 627
    },
    {
      "epoch": 1.0048,
      "grad_norm": 7.86220645904541,
      "learning_rate": 0.00018509999999999997,
      "loss": 2.5585,
      "step": 628
    },
    {
      "epoch": 1.0064,
      "grad_norm": 5.712104797363281,
      "learning_rate": 0.00018539999999999998,
      "loss": 2.479,
      "step": 629
    },
    {
      "epoch": 1.008,
      "grad_norm": 8.05717658996582,
      "learning_rate": 0.0001857,
      "loss": 2.7763,
      "step": 630
    },
    {
      "epoch": 1.0096,
      "grad_norm": 2.07607102394104,
      "learning_rate": 0.000186,
      "loss": 1.9077,
      "step": 631
    },
    {
      "epoch": 1.0112,
      "grad_norm": 3.5380396842956543,
      "learning_rate": 0.00018629999999999997,
      "loss": 1.7525,
      "step": 632
    },
    {
      "epoch": 1.0128,
      "grad_norm": 4.81820011138916,
      "learning_rate": 0.00018659999999999998,
      "loss": 1.8469,
      "step": 633
    },
    {
      "epoch": 1.0144,
      "grad_norm": 4.835049629211426,
      "learning_rate": 0.0001869,
      "loss": 1.8129,
      "step": 634
    },
    {
      "epoch": 1.016,
      "grad_norm": 5.322865962982178,
      "learning_rate": 0.0001872,
      "loss": 1.8239,
      "step": 635
    },
    {
      "epoch": 1.0176,
      "grad_norm": 4.629301071166992,
      "learning_rate": 0.00018749999999999998,
      "loss": 1.5825,
      "step": 636
    },
    {
      "epoch": 1.0192,
      "grad_norm": 1.5236226320266724,
      "learning_rate": 0.00018779999999999998,
      "loss": 1.8754,
      "step": 637
    },
    {
      "epoch": 1.0208,
      "grad_norm": 1.857738733291626,
      "learning_rate": 0.0001881,
      "loss": 1.4363,
      "step": 638
    },
    {
      "epoch": 1.0224,
      "grad_norm": 0.8692172765731812,
      "learning_rate": 0.00018839999999999997,
      "loss": 1.6648,
      "step": 639
    },
    {
      "epoch": 1.024,
      "grad_norm": 3.064953088760376,
      "learning_rate": 0.00018869999999999998,
      "loss": 1.6678,
      "step": 640
    },
    {
      "epoch": 1.0256,
      "grad_norm": 5.139404773712158,
      "learning_rate": 0.00018899999999999999,
      "loss": 1.9777,
      "step": 641
    },
    {
      "epoch": 1.0272,
      "grad_norm": 2.796144723892212,
      "learning_rate": 0.0001893,
      "loss": 1.4951,
      "step": 642
    },
    {
      "epoch": 1.0288,
      "grad_norm": 2.954390048980713,
      "learning_rate": 0.00018959999999999997,
      "loss": 1.5257,
      "step": 643
    },
    {
      "epoch": 1.0304,
      "grad_norm": 3.8204727172851562,
      "learning_rate": 0.00018989999999999998,
      "loss": 1.8541,
      "step": 644
    },
    {
      "epoch": 1.032,
      "grad_norm": 3.7258269786834717,
      "learning_rate": 0.0001902,
      "loss": 1.5582,
      "step": 645
    },
    {
      "epoch": 1.0336,
      "grad_norm": 1.9401317834854126,
      "learning_rate": 0.0001905,
      "loss": 1.382,
      "step": 646
    },
    {
      "epoch": 1.0352,
      "grad_norm": 2.4146273136138916,
      "learning_rate": 0.00019079999999999998,
      "loss": 1.3877,
      "step": 647
    },
    {
      "epoch": 1.0368,
      "grad_norm": 1.2937108278274536,
      "learning_rate": 0.00019109999999999998,
      "loss": 1.476,
      "step": 648
    },
    {
      "epoch": 1.0384,
      "grad_norm": 0.9674957394599915,
      "learning_rate": 0.0001914,
      "loss": 1.5663,
      "step": 649
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.0743024349212646,
      "learning_rate": 0.0001917,
      "loss": 1.3558,
      "step": 650
    },
    {
      "epoch": 1.0416,
      "grad_norm": 1.2061973810195923,
      "learning_rate": 0.00019199999999999998,
      "loss": 1.2761,
      "step": 651
    },
    {
      "epoch": 1.0432,
      "grad_norm": 1.1233325004577637,
      "learning_rate": 0.00019229999999999999,
      "loss": 1.5368,
      "step": 652
    },
    {
      "epoch": 1.0448,
      "grad_norm": 0.894705593585968,
      "learning_rate": 0.0001926,
      "loss": 1.4238,
      "step": 653
    },
    {
      "epoch": 1.0464,
      "grad_norm": 1.2992541790008545,
      "learning_rate": 0.0001929,
      "loss": 1.3999,
      "step": 654
    },
    {
      "epoch": 1.048,
      "grad_norm": 1.919297695159912,
      "learning_rate": 0.00019319999999999998,
      "loss": 1.6165,
      "step": 655
    },
    {
      "epoch": 1.0496,
      "grad_norm": 1.7403674125671387,
      "learning_rate": 0.0001935,
      "loss": 1.4777,
      "step": 656
    },
    {
      "epoch": 1.0512,
      "grad_norm": 1.8304212093353271,
      "learning_rate": 0.0001938,
      "loss": 1.4263,
      "step": 657
    },
    {
      "epoch": 1.0528,
      "grad_norm": 5.81217622756958,
      "learning_rate": 0.0001941,
      "loss": 1.5995,
      "step": 658
    },
    {
      "epoch": 1.0544,
      "grad_norm": 2.001800775527954,
      "learning_rate": 0.00019439999999999998,
      "loss": 1.6648,
      "step": 659
    },
    {
      "epoch": 1.056,
      "grad_norm": 2.0674045085906982,
      "learning_rate": 0.0001947,
      "loss": 1.9484,
      "step": 660
    },
    {
      "epoch": 1.0576,
      "grad_norm": 1.6843963861465454,
      "learning_rate": 0.000195,
      "loss": 1.5397,
      "step": 661
    },
    {
      "epoch": 1.0592,
      "grad_norm": 1.1019186973571777,
      "learning_rate": 0.00019529999999999998,
      "loss": 1.9416,
      "step": 662
    },
    {
      "epoch": 1.0608,
      "grad_norm": 1.1988193988800049,
      "learning_rate": 0.00019559999999999998,
      "loss": 1.3641,
      "step": 663
    },
    {
      "epoch": 1.0624,
      "grad_norm": 1.044538974761963,
      "learning_rate": 0.0001959,
      "loss": 1.5757,
      "step": 664
    },
    {
      "epoch": 1.064,
      "grad_norm": 2.194228172302246,
      "learning_rate": 0.0001962,
      "loss": 1.6955,
      "step": 665
    },
    {
      "epoch": 1.0656,
      "grad_norm": 1.3142859935760498,
      "learning_rate": 0.00019649999999999998,
      "loss": 1.7652,
      "step": 666
    },
    {
      "epoch": 1.0672,
      "grad_norm": 2.0349411964416504,
      "learning_rate": 0.00019679999999999999,
      "loss": 1.5292,
      "step": 667
    },
    {
      "epoch": 1.0688,
      "grad_norm": 2.3026349544525146,
      "learning_rate": 0.0001971,
      "loss": 2.1332,
      "step": 668
    },
    {
      "epoch": 1.0704,
      "grad_norm": 1.8887361288070679,
      "learning_rate": 0.0001974,
      "loss": 1.6047,
      "step": 669
    },
    {
      "epoch": 1.072,
      "grad_norm": 2.026123523712158,
      "learning_rate": 0.00019769999999999998,
      "loss": 1.4923,
      "step": 670
    },
    {
      "epoch": 1.0735999999999999,
      "grad_norm": 1.346245527267456,
      "learning_rate": 0.000198,
      "loss": 2.2244,
      "step": 671
    },
    {
      "epoch": 1.0752,
      "grad_norm": 1.6142189502716064,
      "learning_rate": 0.0001983,
      "loss": 2.0532,
      "step": 672
    },
    {
      "epoch": 1.0768,
      "grad_norm": 1.4740869998931885,
      "learning_rate": 0.0001986,
      "loss": 1.4883,
      "step": 673
    },
    {
      "epoch": 1.0784,
      "grad_norm": 2.6052584648132324,
      "learning_rate": 0.00019889999999999998,
      "loss": 2.5934,
      "step": 674
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.7282607555389404,
      "learning_rate": 0.0001992,
      "loss": 2.2343,
      "step": 675
    },
    {
      "epoch": 1.0816,
      "grad_norm": 4.516241073608398,
      "learning_rate": 0.0001995,
      "loss": 2.2084,
      "step": 676
    },
    {
      "epoch": 1.0832,
      "grad_norm": 4.2023162841796875,
      "learning_rate": 0.0001998,
      "loss": 2.0985,
      "step": 677
    },
    {
      "epoch": 1.0848,
      "grad_norm": 7.1226325035095215,
      "learning_rate": 0.00020009999999999998,
      "loss": 2.6756,
      "step": 678
    },
    {
      "epoch": 1.0864,
      "grad_norm": 2.7742109298706055,
      "learning_rate": 0.0002004,
      "loss": 2.074,
      "step": 679
    },
    {
      "epoch": 1.088,
      "grad_norm": 1.4542862176895142,
      "learning_rate": 0.0002007,
      "loss": 2.0783,
      "step": 680
    },
    {
      "epoch": 1.0896,
      "grad_norm": 3.168198585510254,
      "learning_rate": 0.000201,
      "loss": 1.7689,
      "step": 681
    },
    {
      "epoch": 1.0912,
      "grad_norm": 3.7544302940368652,
      "learning_rate": 0.0002013,
      "loss": 1.9546,
      "step": 682
    },
    {
      "epoch": 1.0928,
      "grad_norm": 3.380309820175171,
      "learning_rate": 0.0002016,
      "loss": 1.9613,
      "step": 683
    },
    {
      "epoch": 1.0944,
      "grad_norm": 1.9851268529891968,
      "learning_rate": 0.0002019,
      "loss": 1.7351,
      "step": 684
    },
    {
      "epoch": 1.096,
      "grad_norm": 1.1245828866958618,
      "learning_rate": 0.0002022,
      "loss": 1.6944,
      "step": 685
    },
    {
      "epoch": 1.0976,
      "grad_norm": 1.3622814416885376,
      "learning_rate": 0.0002025,
      "loss": 1.176,
      "step": 686
    },
    {
      "epoch": 1.0992,
      "grad_norm": 3.036677837371826,
      "learning_rate": 0.0002028,
      "loss": 1.4127,
      "step": 687
    },
    {
      "epoch": 1.1008,
      "grad_norm": 5.2766337394714355,
      "learning_rate": 0.0002031,
      "loss": 1.9776,
      "step": 688
    },
    {
      "epoch": 1.1024,
      "grad_norm": 3.7435624599456787,
      "learning_rate": 0.00020339999999999998,
      "loss": 1.6777,
      "step": 689
    },
    {
      "epoch": 1.104,
      "grad_norm": 2.5562703609466553,
      "learning_rate": 0.0002037,
      "loss": 1.3577,
      "step": 690
    },
    {
      "epoch": 1.1056,
      "grad_norm": 7.86569356918335,
      "learning_rate": 0.000204,
      "loss": 3.3387,
      "step": 691
    },
    {
      "epoch": 1.1072,
      "grad_norm": 2.577002763748169,
      "learning_rate": 0.0002043,
      "loss": 1.5658,
      "step": 692
    },
    {
      "epoch": 1.1088,
      "grad_norm": 1.7518302202224731,
      "learning_rate": 0.00020459999999999999,
      "loss": 1.7374,
      "step": 693
    },
    {
      "epoch": 1.1104,
      "grad_norm": 1.0395740270614624,
      "learning_rate": 0.0002049,
      "loss": 1.3374,
      "step": 694
    },
    {
      "epoch": 1.112,
      "grad_norm": 1.0535399913787842,
      "learning_rate": 0.0002052,
      "loss": 1.3842,
      "step": 695
    },
    {
      "epoch": 1.1136,
      "grad_norm": 1.3788182735443115,
      "learning_rate": 0.0002055,
      "loss": 1.2359,
      "step": 696
    },
    {
      "epoch": 1.1152,
      "grad_norm": 2.2207717895507812,
      "learning_rate": 0.0002058,
      "loss": 1.8388,
      "step": 697
    },
    {
      "epoch": 1.1168,
      "grad_norm": 2.8598082065582275,
      "learning_rate": 0.0002061,
      "loss": 1.4118,
      "step": 698
    },
    {
      "epoch": 1.1184,
      "grad_norm": 1.4320859909057617,
      "learning_rate": 0.00020639999999999998,
      "loss": 1.4376,
      "step": 699
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.9855818152427673,
      "learning_rate": 0.00020669999999999996,
      "loss": 1.3912,
      "step": 700
    },
    {
      "epoch": 1.1216,
      "grad_norm": 1.0571755170822144,
      "learning_rate": 0.00020699999999999996,
      "loss": 1.3984,
      "step": 701
    },
    {
      "epoch": 1.1232,
      "grad_norm": 1.7968964576721191,
      "learning_rate": 0.00020729999999999997,
      "loss": 1.5948,
      "step": 702
    },
    {
      "epoch": 1.1248,
      "grad_norm": 2.7255570888519287,
      "learning_rate": 0.00020759999999999998,
      "loss": 1.8038,
      "step": 703
    },
    {
      "epoch": 1.1264,
      "grad_norm": 3.1238272190093994,
      "learning_rate": 0.00020789999999999996,
      "loss": 1.6942,
      "step": 704
    },
    {
      "epoch": 1.1280000000000001,
      "grad_norm": 2.947319984436035,
      "learning_rate": 0.00020819999999999996,
      "loss": 1.4243,
      "step": 705
    },
    {
      "epoch": 1.1296,
      "grad_norm": 2.5516934394836426,
      "learning_rate": 0.00020849999999999997,
      "loss": 1.4778,
      "step": 706
    },
    {
      "epoch": 1.1312,
      "grad_norm": 2.3497977256774902,
      "learning_rate": 0.00020879999999999998,
      "loss": 1.6869,
      "step": 707
    },
    {
      "epoch": 1.1328,
      "grad_norm": 1.1373237371444702,
      "learning_rate": 0.00020909999999999996,
      "loss": 1.3769,
      "step": 708
    },
    {
      "epoch": 1.1344,
      "grad_norm": 1.186307430267334,
      "learning_rate": 0.00020939999999999997,
      "loss": 1.5282,
      "step": 709
    },
    {
      "epoch": 1.1360000000000001,
      "grad_norm": 1.152564525604248,
      "learning_rate": 0.00020969999999999997,
      "loss": 1.5939,
      "step": 710
    },
    {
      "epoch": 1.1376,
      "grad_norm": 1.2839113473892212,
      "learning_rate": 0.00020999999999999998,
      "loss": 1.3393,
      "step": 711
    },
    {
      "epoch": 1.1392,
      "grad_norm": 1.3416848182678223,
      "learning_rate": 0.00021029999999999996,
      "loss": 1.5591,
      "step": 712
    },
    {
      "epoch": 1.1408,
      "grad_norm": 1.4146075248718262,
      "learning_rate": 0.00021059999999999997,
      "loss": 1.5227,
      "step": 713
    },
    {
      "epoch": 1.1424,
      "grad_norm": 2.817870616912842,
      "learning_rate": 0.00021089999999999998,
      "loss": 2.0963,
      "step": 714
    },
    {
      "epoch": 1.144,
      "grad_norm": 1.0793464183807373,
      "learning_rate": 0.00021119999999999996,
      "loss": 1.2714,
      "step": 715
    },
    {
      "epoch": 1.1456,
      "grad_norm": 1.9559093713760376,
      "learning_rate": 0.00021149999999999996,
      "loss": 1.6881,
      "step": 716
    },
    {
      "epoch": 1.1472,
      "grad_norm": 1.690061330795288,
      "learning_rate": 0.00021179999999999997,
      "loss": 1.7142,
      "step": 717
    },
    {
      "epoch": 1.1488,
      "grad_norm": 1.6061111688613892,
      "learning_rate": 0.00021209999999999998,
      "loss": 1.5926,
      "step": 718
    },
    {
      "epoch": 1.1504,
      "grad_norm": 1.7083910703659058,
      "learning_rate": 0.00021239999999999996,
      "loss": 1.9628,
      "step": 719
    },
    {
      "epoch": 1.152,
      "grad_norm": 1.864904522895813,
      "learning_rate": 0.00021269999999999997,
      "loss": 1.6522,
      "step": 720
    },
    {
      "epoch": 1.1536,
      "grad_norm": 1.7691465616226196,
      "learning_rate": 0.00021299999999999997,
      "loss": 1.7124,
      "step": 721
    },
    {
      "epoch": 1.1552,
      "grad_norm": 1.6824963092803955,
      "learning_rate": 0.00021329999999999998,
      "loss": 1.6296,
      "step": 722
    },
    {
      "epoch": 1.1568,
      "grad_norm": 1.7225028276443481,
      "learning_rate": 0.00021359999999999996,
      "loss": 1.9528,
      "step": 723
    },
    {
      "epoch": 1.1584,
      "grad_norm": 2.096581220626831,
      "learning_rate": 0.00021389999999999997,
      "loss": 1.686,
      "step": 724
    },
    {
      "epoch": 1.16,
      "grad_norm": NaN,
      "learning_rate": 0.00021389999999999997,
      "loss": 1.5142,
      "step": 725
    },
    {
      "epoch": 1.1616,
      "grad_norm": 32.82332229614258,
      "learning_rate": 0.00021419999999999998,
      "loss": 7.8505,
      "step": 726
    },
    {
      "epoch": 1.1632,
      "grad_norm": 6.196145534515381,
      "learning_rate": 0.00021449999999999998,
      "loss": 2.772,
      "step": 727
    },
    {
      "epoch": 1.1648,
      "grad_norm": 1.9611283540725708,
      "learning_rate": 0.00021479999999999996,
      "loss": 1.8117,
      "step": 728
    },
    {
      "epoch": 1.1663999999999999,
      "grad_norm": 2.0812253952026367,
      "learning_rate": 0.00021509999999999997,
      "loss": 2.1499,
      "step": 729
    },
    {
      "epoch": 1.168,
      "grad_norm": 4.227649211883545,
      "learning_rate": 0.00021539999999999998,
      "loss": 1.8366,
      "step": 730
    },
    {
      "epoch": 1.1696,
      "grad_norm": 3.2809646129608154,
      "learning_rate": 0.00021569999999999998,
      "loss": 1.9702,
      "step": 731
    },
    {
      "epoch": 1.1712,
      "grad_norm": 3.782552480697632,
      "learning_rate": 0.00021599999999999996,
      "loss": 1.8251,
      "step": 732
    },
    {
      "epoch": 1.1728,
      "grad_norm": 3.1371798515319824,
      "learning_rate": 0.00021629999999999997,
      "loss": 1.7244,
      "step": 733
    },
    {
      "epoch": 1.1743999999999999,
      "grad_norm": 2.922322988510132,
      "learning_rate": 0.00021659999999999998,
      "loss": 1.58,
      "step": 734
    },
    {
      "epoch": 1.176,
      "grad_norm": 1.2136024236679077,
      "learning_rate": 0.0002169,
      "loss": 1.7604,
      "step": 735
    },
    {
      "epoch": 1.1776,
      "grad_norm": 1.53628408908844,
      "learning_rate": 0.00021719999999999997,
      "loss": 1.5032,
      "step": 736
    },
    {
      "epoch": 1.1792,
      "grad_norm": 1.3501044511795044,
      "learning_rate": 0.00021749999999999997,
      "loss": 1.3641,
      "step": 737
    },
    {
      "epoch": 1.1808,
      "grad_norm": 1.7561484575271606,
      "learning_rate": 0.00021779999999999998,
      "loss": 1.3152,
      "step": 738
    },
    {
      "epoch": 1.1824,
      "grad_norm": 2.1395440101623535,
      "learning_rate": 0.00021809999999999996,
      "loss": 1.291,
      "step": 739
    },
    {
      "epoch": 1.184,
      "grad_norm": 7.072542190551758,
      "learning_rate": 0.00021839999999999997,
      "loss": 2.4686,
      "step": 740
    },
    {
      "epoch": 1.1856,
      "grad_norm": 2.9105377197265625,
      "learning_rate": 0.00021869999999999998,
      "loss": 1.4452,
      "step": 741
    },
    {
      "epoch": 1.1872,
      "grad_norm": 2.0918514728546143,
      "learning_rate": 0.00021899999999999998,
      "loss": 1.6603,
      "step": 742
    },
    {
      "epoch": 1.1888,
      "grad_norm": 6.477406024932861,
      "learning_rate": 0.00021929999999999996,
      "loss": 2.2748,
      "step": 743
    },
    {
      "epoch": 1.1904,
      "grad_norm": 1.854599952697754,
      "learning_rate": 0.00021959999999999997,
      "loss": 1.6605,
      "step": 744
    },
    {
      "epoch": 1.192,
      "grad_norm": 1.2816931009292603,
      "learning_rate": 0.00021989999999999998,
      "loss": 1.8005,
      "step": 745
    },
    {
      "epoch": 1.1936,
      "grad_norm": 1.2794959545135498,
      "learning_rate": 0.00022019999999999999,
      "loss": 1.4313,
      "step": 746
    },
    {
      "epoch": 1.1952,
      "grad_norm": 1.2156718969345093,
      "learning_rate": 0.00022049999999999997,
      "loss": 1.4062,
      "step": 747
    },
    {
      "epoch": 1.1968,
      "grad_norm": 1.478219747543335,
      "learning_rate": 0.00022079999999999997,
      "loss": 1.4398,
      "step": 748
    },
    {
      "epoch": 1.1984,
      "grad_norm": 1.091399908065796,
      "learning_rate": 0.00022109999999999998,
      "loss": 1.7798,
      "step": 749
    },
    {
      "epoch": 1.2,
      "grad_norm": 2.1215689182281494,
      "learning_rate": 0.0002214,
      "loss": 1.4661,
      "step": 750
    },
    {
      "epoch": 1.2016,
      "grad_norm": 1.341286301612854,
      "learning_rate": 0.00022169999999999997,
      "loss": 1.5076,
      "step": 751
    },
    {
      "epoch": 1.2032,
      "grad_norm": 2.618873357772827,
      "learning_rate": 0.00022199999999999998,
      "loss": 1.8552,
      "step": 752
    },
    {
      "epoch": 1.2048,
      "grad_norm": 1.0336085557937622,
      "learning_rate": 0.00022229999999999998,
      "loss": 1.3625,
      "step": 753
    },
    {
      "epoch": 1.2064,
      "grad_norm": 1.1739717721939087,
      "learning_rate": 0.0002226,
      "loss": 1.4139,
      "step": 754
    },
    {
      "epoch": 1.208,
      "grad_norm": 1.650221586227417,
      "learning_rate": 0.00022289999999999997,
      "loss": 1.2256,
      "step": 755
    },
    {
      "epoch": 1.2096,
      "grad_norm": 1.2740941047668457,
      "learning_rate": 0.00022319999999999998,
      "loss": 1.7144,
      "step": 756
    },
    {
      "epoch": 1.2112,
      "grad_norm": 1.0344876050949097,
      "learning_rate": 0.00022349999999999998,
      "loss": 1.7299,
      "step": 757
    },
    {
      "epoch": 1.2128,
      "grad_norm": 1.5889973640441895,
      "learning_rate": 0.0002238,
      "loss": 1.4581,
      "step": 758
    },
    {
      "epoch": 1.2144,
      "grad_norm": 1.274186372756958,
      "learning_rate": 0.00022409999999999997,
      "loss": 1.4694,
      "step": 759
    },
    {
      "epoch": 1.216,
      "grad_norm": 1.1714391708374023,
      "learning_rate": 0.00022439999999999998,
      "loss": 1.5496,
      "step": 760
    },
    {
      "epoch": 1.2176,
      "grad_norm": 1.1633304357528687,
      "learning_rate": 0.0002247,
      "loss": 1.6381,
      "step": 761
    },
    {
      "epoch": 1.2192,
      "grad_norm": 1.6656583547592163,
      "learning_rate": 0.000225,
      "loss": 1.3814,
      "step": 762
    },
    {
      "epoch": 1.2208,
      "grad_norm": 1.7100461721420288,
      "learning_rate": 0.00022529999999999997,
      "loss": 1.3805,
      "step": 763
    },
    {
      "epoch": 1.2224,
      "grad_norm": 1.6684997081756592,
      "learning_rate": 0.00022559999999999998,
      "loss": 1.4335,
      "step": 764
    },
    {
      "epoch": 1.224,
      "grad_norm": 1.9306715726852417,
      "learning_rate": 0.0002259,
      "loss": 1.6239,
      "step": 765
    },
    {
      "epoch": 1.2256,
      "grad_norm": 1.488796353340149,
      "learning_rate": 0.00022619999999999997,
      "loss": 1.9,
      "step": 766
    },
    {
      "epoch": 1.2272,
      "grad_norm": 1.65590500831604,
      "learning_rate": 0.00022649999999999998,
      "loss": 1.501,
      "step": 767
    },
    {
      "epoch": 1.2288000000000001,
      "grad_norm": 1.105634331703186,
      "learning_rate": 0.00022679999999999998,
      "loss": 1.6754,
      "step": 768
    },
    {
      "epoch": 1.2304,
      "grad_norm": 1.3590998649597168,
      "learning_rate": 0.0002271,
      "loss": 2.0468,
      "step": 769
    },
    {
      "epoch": 1.232,
      "grad_norm": 1.2433547973632812,
      "learning_rate": 0.00022739999999999997,
      "loss": 1.4335,
      "step": 770
    },
    {
      "epoch": 1.2336,
      "grad_norm": 1.7231038808822632,
      "learning_rate": 0.00022769999999999998,
      "loss": 1.465,
      "step": 771
    },
    {
      "epoch": 1.2352,
      "grad_norm": 1.6311777830123901,
      "learning_rate": 0.00022799999999999999,
      "loss": 1.9477,
      "step": 772
    },
    {
      "epoch": 1.2368000000000001,
      "grad_norm": 1.3222523927688599,
      "learning_rate": 0.0002283,
      "loss": 1.4479,
      "step": 773
    },
    {
      "epoch": 1.2384,
      "grad_norm": 1.449326992034912,
      "learning_rate": 0.00022859999999999997,
      "loss": 1.7486,
      "step": 774
    },
    {
      "epoch": 1.24,
      "grad_norm": NaN,
      "learning_rate": 0.00022859999999999997,
      "loss": 1.6244,
      "step": 775
    },
    {
      "epoch": 1.2416,
      "grad_norm": 8.872183799743652,
      "learning_rate": 0.00022889999999999998,
      "loss": 3.0317,
      "step": 776
    },
    {
      "epoch": 1.2432,
      "grad_norm": 3.2334752082824707,
      "learning_rate": 0.0002292,
      "loss": 1.7795,
      "step": 777
    },
    {
      "epoch": 1.2448,
      "grad_norm": 2.064131259918213,
      "learning_rate": 0.0002295,
      "loss": 1.8597,
      "step": 778
    },
    {
      "epoch": 1.2464,
      "grad_norm": 2.9841063022613525,
      "learning_rate": 0.00022979999999999997,
      "loss": 2.193,
      "step": 779
    },
    {
      "epoch": 1.248,
      "grad_norm": 1.8428844213485718,
      "learning_rate": 0.00023009999999999998,
      "loss": 1.7662,
      "step": 780
    },
    {
      "epoch": 1.2496,
      "grad_norm": 1.9402704238891602,
      "learning_rate": 0.0002304,
      "loss": 2.0471,
      "step": 781
    },
    {
      "epoch": 1.2511999999999999,
      "grad_norm": 1.971617341041565,
      "learning_rate": 0.0002307,
      "loss": 1.8941,
      "step": 782
    },
    {
      "epoch": 1.2528000000000001,
      "grad_norm": 3.7281742095947266,
      "learning_rate": 0.00023099999999999998,
      "loss": 1.8762,
      "step": 783
    },
    {
      "epoch": 1.2544,
      "grad_norm": 1.6704293489456177,
      "learning_rate": 0.00023129999999999998,
      "loss": 1.7298,
      "step": 784
    },
    {
      "epoch": 1.256,
      "grad_norm": 1.1760116815567017,
      "learning_rate": 0.0002316,
      "loss": 1.6819,
      "step": 785
    },
    {
      "epoch": 1.2576,
      "grad_norm": 1.6610198020935059,
      "learning_rate": 0.0002319,
      "loss": 1.4823,
      "step": 786
    },
    {
      "epoch": 1.2591999999999999,
      "grad_norm": 2.954132318496704,
      "learning_rate": 0.00023219999999999998,
      "loss": 1.7275,
      "step": 787
    },
    {
      "epoch": 1.2608,
      "grad_norm": 4.86627197265625,
      "learning_rate": 0.00023249999999999999,
      "loss": 1.9728,
      "step": 788
    },
    {
      "epoch": 1.2624,
      "grad_norm": 3.5794413089752197,
      "learning_rate": 0.0002328,
      "loss": 1.5752,
      "step": 789
    },
    {
      "epoch": 1.264,
      "grad_norm": 3.866424322128296,
      "learning_rate": 0.00023309999999999997,
      "loss": 1.6367,
      "step": 790
    },
    {
      "epoch": 1.2656,
      "grad_norm": 4.216460704803467,
      "learning_rate": 0.00023339999999999998,
      "loss": 1.8715,
      "step": 791
    },
    {
      "epoch": 1.2671999999999999,
      "grad_norm": 2.919419288635254,
      "learning_rate": 0.0002337,
      "loss": 1.3454,
      "step": 792
    },
    {
      "epoch": 1.2688,
      "grad_norm": 2.455012798309326,
      "learning_rate": 0.000234,
      "loss": 1.6547,
      "step": 793
    },
    {
      "epoch": 1.2704,
      "grad_norm": 1.444284439086914,
      "learning_rate": 0.00023429999999999998,
      "loss": 1.4472,
      "step": 794
    },
    {
      "epoch": 1.272,
      "grad_norm": 1.5226218700408936,
      "learning_rate": 0.00023459999999999998,
      "loss": 1.4115,
      "step": 795
    },
    {
      "epoch": 1.2736,
      "grad_norm": 1.4698041677474976,
      "learning_rate": 0.0002349,
      "loss": 1.4998,
      "step": 796
    },
    {
      "epoch": 1.2752,
      "grad_norm": 0.9360406994819641,
      "learning_rate": 0.0002352,
      "loss": 1.3246,
      "step": 797
    },
    {
      "epoch": 1.2768,
      "grad_norm": 0.9899576902389526,
      "learning_rate": 0.00023549999999999998,
      "loss": 1.7864,
      "step": 798
    },
    {
      "epoch": 1.2784,
      "grad_norm": 1.042768955230713,
      "learning_rate": 0.00023579999999999999,
      "loss": 1.7181,
      "step": 799
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.9345083236694336,
      "learning_rate": 0.0002361,
      "loss": 1.3929,
      "step": 800
    },
    {
      "epoch": 1.2816,
      "grad_norm": 1.2019685506820679,
      "learning_rate": 0.0002364,
      "loss": 1.6232,
      "step": 801
    },
    {
      "epoch": 1.2832,
      "grad_norm": 1.1262824535369873,
      "learning_rate": 0.00023669999999999998,
      "loss": 1.3208,
      "step": 802
    },
    {
      "epoch": 1.2848,
      "grad_norm": 2.1480746269226074,
      "learning_rate": 0.000237,
      "loss": 1.484,
      "step": 803
    },
    {
      "epoch": 1.2864,
      "grad_norm": 1.6011468172073364,
      "learning_rate": 0.0002373,
      "loss": 1.4428,
      "step": 804
    },
    {
      "epoch": 1.288,
      "grad_norm": 1.681715965270996,
      "learning_rate": 0.0002376,
      "loss": 1.4815,
      "step": 805
    },
    {
      "epoch": 1.2896,
      "grad_norm": 1.0105364322662354,
      "learning_rate": 0.00023789999999999998,
      "loss": 1.583,
      "step": 806
    },
    {
      "epoch": 1.2912,
      "grad_norm": 2.4335265159606934,
      "learning_rate": 0.0002382,
      "loss": 1.6736,
      "step": 807
    },
    {
      "epoch": 1.2928,
      "grad_norm": 1.1832919120788574,
      "learning_rate": 0.0002385,
      "loss": 1.7259,
      "step": 808
    },
    {
      "epoch": 1.2944,
      "grad_norm": 1.4895908832550049,
      "learning_rate": 0.0002388,
      "loss": 1.5519,
      "step": 809
    },
    {
      "epoch": 1.296,
      "grad_norm": 0.9306002855300903,
      "learning_rate": 0.00023909999999999998,
      "loss": 1.7638,
      "step": 810
    },
    {
      "epoch": 1.2976,
      "grad_norm": 0.862756609916687,
      "learning_rate": 0.0002394,
      "loss": 1.3956,
      "step": 811
    },
    {
      "epoch": 1.2992,
      "grad_norm": 0.9873697757720947,
      "learning_rate": 0.0002397,
      "loss": 1.741,
      "step": 812
    },
    {
      "epoch": 1.3008,
      "grad_norm": 0.8924622535705566,
      "learning_rate": 0.00023999999999999998,
      "loss": 1.6026,
      "step": 813
    },
    {
      "epoch": 1.3024,
      "grad_norm": 0.9441061615943909,
      "learning_rate": 0.00024029999999999999,
      "loss": 1.2882,
      "step": 814
    },
    {
      "epoch": 1.304,
      "grad_norm": 1.0321191549301147,
      "learning_rate": 0.0002406,
      "loss": 1.4606,
      "step": 815
    },
    {
      "epoch": 1.3056,
      "grad_norm": 1.8343979120254517,
      "learning_rate": 0.0002409,
      "loss": 1.6286,
      "step": 816
    },
    {
      "epoch": 1.3072,
      "grad_norm": 1.3048229217529297,
      "learning_rate": 0.00024119999999999998,
      "loss": 1.8307,
      "step": 817
    },
    {
      "epoch": 1.3088,
      "grad_norm": 1.3279473781585693,
      "learning_rate": 0.0002415,
      "loss": 1.8301,
      "step": 818
    },
    {
      "epoch": 1.3104,
      "grad_norm": 1.0777429342269897,
      "learning_rate": 0.0002418,
      "loss": 1.5125,
      "step": 819
    },
    {
      "epoch": 1.312,
      "grad_norm": 1.0291649103164673,
      "learning_rate": 0.0002421,
      "loss": 1.5399,
      "step": 820
    },
    {
      "epoch": 1.3136,
      "grad_norm": 1.1538206338882446,
      "learning_rate": 0.00024239999999999998,
      "loss": 1.6562,
      "step": 821
    },
    {
      "epoch": 1.3152,
      "grad_norm": 1.9606250524520874,
      "learning_rate": 0.0002427,
      "loss": 1.7324,
      "step": 822
    },
    {
      "epoch": 1.3168,
      "grad_norm": 1.927132248878479,
      "learning_rate": 0.000243,
      "loss": 1.8767,
      "step": 823
    },
    {
      "epoch": 1.3184,
      "grad_norm": 1.565555453300476,
      "learning_rate": 0.0002433,
      "loss": 2.3164,
      "step": 824
    },
    {
      "epoch": 1.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002433,
      "loss": 2.2162,
      "step": 825
    },
    {
      "epoch": 1.3216,
      "grad_norm": 4.660001754760742,
      "learning_rate": 0.00024359999999999999,
      "loss": 1.9052,
      "step": 826
    },
    {
      "epoch": 1.3232,
      "grad_norm": 4.901458740234375,
      "learning_rate": 0.00024389999999999997,
      "loss": 2.2262,
      "step": 827
    },
    {
      "epoch": 1.3248,
      "grad_norm": 6.842830657958984,
      "learning_rate": 0.00024419999999999997,
      "loss": 2.609,
      "step": 828
    },
    {
      "epoch": 1.3264,
      "grad_norm": 5.018871307373047,
      "learning_rate": 0.0002445,
      "loss": 1.9541,
      "step": 829
    },
    {
      "epoch": 1.328,
      "grad_norm": 2.6428186893463135,
      "learning_rate": 0.0002448,
      "loss": 1.7591,
      "step": 830
    },
    {
      "epoch": 1.3296000000000001,
      "grad_norm": 3.7194108963012695,
      "learning_rate": 0.00024509999999999994,
      "loss": 1.8893,
      "step": 831
    },
    {
      "epoch": 1.3312,
      "grad_norm": 1.5559850931167603,
      "learning_rate": 0.00024539999999999995,
      "loss": 1.6199,
      "step": 832
    },
    {
      "epoch": 1.3328,
      "grad_norm": 1.6611255407333374,
      "learning_rate": 0.00024569999999999995,
      "loss": 1.7948,
      "step": 833
    },
    {
      "epoch": 1.3344,
      "grad_norm": 2.756481170654297,
      "learning_rate": 0.00024599999999999996,
      "loss": 1.3697,
      "step": 834
    },
    {
      "epoch": 1.336,
      "grad_norm": 3.1236398220062256,
      "learning_rate": 0.00024629999999999997,
      "loss": 1.6154,
      "step": 835
    },
    {
      "epoch": 1.3376000000000001,
      "grad_norm": 3.052428722381592,
      "learning_rate": 0.0002466,
      "loss": 1.7594,
      "step": 836
    },
    {
      "epoch": 1.3392,
      "grad_norm": 2.0928995609283447,
      "learning_rate": 0.0002469,
      "loss": 2.4307,
      "step": 837
    },
    {
      "epoch": 1.3408,
      "grad_norm": 1.914813756942749,
      "learning_rate": 0.0002472,
      "loss": 1.8485,
      "step": 838
    },
    {
      "epoch": 1.3424,
      "grad_norm": 1.9151816368103027,
      "learning_rate": 0.00024749999999999994,
      "loss": 1.8105,
      "step": 839
    },
    {
      "epoch": 1.3439999999999999,
      "grad_norm": 1.0234382152557373,
      "learning_rate": 0.00024779999999999995,
      "loss": 1.812,
      "step": 840
    },
    {
      "epoch": 1.3456000000000001,
      "grad_norm": 2.383925199508667,
      "learning_rate": 0.00024809999999999996,
      "loss": 1.8388,
      "step": 841
    },
    {
      "epoch": 1.3472,
      "grad_norm": 6.021166801452637,
      "learning_rate": 0.00024839999999999997,
      "loss": 2.2525,
      "step": 842
    },
    {
      "epoch": 1.3488,
      "grad_norm": 5.078658580780029,
      "learning_rate": 0.0002487,
      "loss": 1.9297,
      "step": 843
    },
    {
      "epoch": 1.3504,
      "grad_norm": 7.2157063484191895,
      "learning_rate": 0.000249,
      "loss": 2.1607,
      "step": 844
    },
    {
      "epoch": 1.3519999999999999,
      "grad_norm": 7.366926193237305,
      "learning_rate": 0.0002493,
      "loss": 2.2679,
      "step": 845
    },
    {
      "epoch": 1.3536000000000001,
      "grad_norm": 8.579809188842773,
      "learning_rate": 0.00024959999999999994,
      "loss": 2.5445,
      "step": 846
    },
    {
      "epoch": 1.3552,
      "grad_norm": 9.298418998718262,
      "learning_rate": 0.00024989999999999995,
      "loss": 2.7447,
      "step": 847
    },
    {
      "epoch": 1.3568,
      "grad_norm": 4.966423988342285,
      "learning_rate": 0.00025019999999999996,
      "loss": 2.3292,
      "step": 848
    },
    {
      "epoch": 1.3584,
      "grad_norm": 3.2994112968444824,
      "learning_rate": 0.00025049999999999996,
      "loss": 2.1082,
      "step": 849
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 2.276888370513916,
      "learning_rate": 0.00025079999999999997,
      "loss": 2.0868,
      "step": 850
    },
    {
      "epoch": 1.3616,
      "grad_norm": 1.3332836627960205,
      "learning_rate": 0.0002511,
      "loss": 2.0474,
      "step": 851
    },
    {
      "epoch": 1.3632,
      "grad_norm": 1.1775461435317993,
      "learning_rate": 0.0002514,
      "loss": 2.0204,
      "step": 852
    },
    {
      "epoch": 1.3648,
      "grad_norm": 1.3132644891738892,
      "learning_rate": 0.0002517,
      "loss": 2.0342,
      "step": 853
    },
    {
      "epoch": 1.3664,
      "grad_norm": 1.407052755355835,
      "learning_rate": 0.00025199999999999995,
      "loss": 2.0199,
      "step": 854
    },
    {
      "epoch": 1.3679999999999999,
      "grad_norm": 0.9322783350944519,
      "learning_rate": 0.00025229999999999995,
      "loss": 1.9461,
      "step": 855
    },
    {
      "epoch": 1.3696,
      "grad_norm": 1.6221606731414795,
      "learning_rate": 0.00025259999999999996,
      "loss": 1.9301,
      "step": 856
    },
    {
      "epoch": 1.3712,
      "grad_norm": 1.9470421075820923,
      "learning_rate": 0.00025289999999999997,
      "loss": 2.1221,
      "step": 857
    },
    {
      "epoch": 1.3728,
      "grad_norm": 2.600743532180786,
      "learning_rate": 0.0002532,
      "loss": 1.9257,
      "step": 858
    },
    {
      "epoch": 1.3744,
      "grad_norm": 4.783127784729004,
      "learning_rate": 0.0002535,
      "loss": 2.6232,
      "step": 859
    },
    {
      "epoch": 1.376,
      "grad_norm": 2.1699776649475098,
      "learning_rate": 0.0002538,
      "loss": 1.8527,
      "step": 860
    },
    {
      "epoch": 1.3776,
      "grad_norm": 1.9697574377059937,
      "learning_rate": 0.0002541,
      "loss": 1.9053,
      "step": 861
    },
    {
      "epoch": 1.3792,
      "grad_norm": 1.9653360843658447,
      "learning_rate": 0.00025439999999999995,
      "loss": 1.7472,
      "step": 862
    },
    {
      "epoch": 1.3808,
      "grad_norm": 0.975303053855896,
      "learning_rate": 0.00025469999999999996,
      "loss": 1.5276,
      "step": 863
    },
    {
      "epoch": 1.3824,
      "grad_norm": 0.8114136457443237,
      "learning_rate": 0.00025499999999999996,
      "loss": 1.9605,
      "step": 864
    },
    {
      "epoch": 1.384,
      "grad_norm": 1.0743026733398438,
      "learning_rate": 0.00025529999999999997,
      "loss": 1.964,
      "step": 865
    },
    {
      "epoch": 1.3856,
      "grad_norm": 0.572559118270874,
      "learning_rate": 0.0002556,
      "loss": 2.0769,
      "step": 866
    },
    {
      "epoch": 1.3872,
      "grad_norm": 1.8745307922363281,
      "learning_rate": 0.0002559,
      "loss": 1.9341,
      "step": 867
    },
    {
      "epoch": 1.3888,
      "grad_norm": 2.8381495475769043,
      "learning_rate": 0.0002562,
      "loss": 2.0994,
      "step": 868
    },
    {
      "epoch": 1.3904,
      "grad_norm": 1.837712287902832,
      "learning_rate": 0.00025649999999999995,
      "loss": 1.6848,
      "step": 869
    },
    {
      "epoch": 1.392,
      "grad_norm": 1.0406761169433594,
      "learning_rate": 0.00025679999999999995,
      "loss": 1.9728,
      "step": 870
    },
    {
      "epoch": 1.3936,
      "grad_norm": 0.8133671879768372,
      "learning_rate": 0.00025709999999999996,
      "loss": 1.9183,
      "step": 871
    },
    {
      "epoch": 1.3952,
      "grad_norm": 1.488303780555725,
      "learning_rate": 0.00025739999999999997,
      "loss": 1.7447,
      "step": 872
    },
    {
      "epoch": 1.3968,
      "grad_norm": 0.8098030686378479,
      "learning_rate": 0.0002577,
      "loss": 2.1065,
      "step": 873
    },
    {
      "epoch": 1.3984,
      "grad_norm": 1.3492127656936646,
      "learning_rate": 0.000258,
      "loss": 1.8567,
      "step": 874
    },
    {
      "epoch": 1.4,
      "grad_norm": NaN,
      "learning_rate": 0.000258,
      "loss": 0.0,
      "step": 875
    },
    {
      "epoch": 1.4016,
      "grad_norm": 3.2372701168060303,
      "learning_rate": 0.0002583,
      "loss": 2.1654,
      "step": 876
    },
    {
      "epoch": 1.4032,
      "grad_norm": 1.9243760108947754,
      "learning_rate": 0.0002586,
      "loss": 1.8519,
      "step": 877
    },
    {
      "epoch": 1.4048,
      "grad_norm": 1.633375883102417,
      "learning_rate": 0.00025889999999999995,
      "loss": 1.9246,
      "step": 878
    },
    {
      "epoch": 1.4064,
      "grad_norm": 1.862678050994873,
      "learning_rate": 0.00025919999999999996,
      "loss": 1.796,
      "step": 879
    },
    {
      "epoch": 1.408,
      "grad_norm": 1.930555820465088,
      "learning_rate": 0.00025949999999999997,
      "loss": 2.1167,
      "step": 880
    },
    {
      "epoch": 1.4096,
      "grad_norm": 3.6139817237854004,
      "learning_rate": 0.00025979999999999997,
      "loss": 1.8125,
      "step": 881
    },
    {
      "epoch": 1.4112,
      "grad_norm": 4.2841691970825195,
      "learning_rate": 0.0002601,
      "loss": 1.6891,
      "step": 882
    },
    {
      "epoch": 1.4128,
      "grad_norm": 4.878454685211182,
      "learning_rate": 0.0002604,
      "loss": 1.9731,
      "step": 883
    },
    {
      "epoch": 1.4144,
      "grad_norm": 2.765392541885376,
      "learning_rate": 0.0002607,
      "loss": 2.3051,
      "step": 884
    },
    {
      "epoch": 1.416,
      "grad_norm": 5.951148986816406,
      "learning_rate": 0.000261,
      "loss": 2.044,
      "step": 885
    },
    {
      "epoch": 1.4176,
      "grad_norm": 6.356194496154785,
      "learning_rate": 0.00026129999999999995,
      "loss": 2.267,
      "step": 886
    },
    {
      "epoch": 1.4192,
      "grad_norm": 7.16682767868042,
      "learning_rate": 0.00026159999999999996,
      "loss": 2.3927,
      "step": 887
    },
    {
      "epoch": 1.4208,
      "grad_norm": 6.482820987701416,
      "learning_rate": 0.00026189999999999997,
      "loss": 2.2649,
      "step": 888
    },
    {
      "epoch": 1.4224,
      "grad_norm": 6.568836688995361,
      "learning_rate": 0.0002622,
      "loss": 2.4487,
      "step": 889
    },
    {
      "epoch": 1.424,
      "grad_norm": 6.718606472015381,
      "learning_rate": 0.0002625,
      "loss": 2.3971,
      "step": 890
    },
    {
      "epoch": 1.4256,
      "grad_norm": 5.949743747711182,
      "learning_rate": 0.0002628,
      "loss": 2.2921,
      "step": 891
    },
    {
      "epoch": 1.4272,
      "grad_norm": 4.38700532913208,
      "learning_rate": 0.0002631,
      "loss": 2.0761,
      "step": 892
    },
    {
      "epoch": 1.4288,
      "grad_norm": 4.077221393585205,
      "learning_rate": 0.00026339999999999995,
      "loss": 2.1059,
      "step": 893
    },
    {
      "epoch": 1.4304000000000001,
      "grad_norm": 1.6001068353652954,
      "learning_rate": 0.00026369999999999996,
      "loss": 2.1777,
      "step": 894
    },
    {
      "epoch": 1.432,
      "grad_norm": 1.2680809497833252,
      "learning_rate": 0.00026399999999999997,
      "loss": 2.216,
      "step": 895
    },
    {
      "epoch": 1.4336,
      "grad_norm": 0.9712734222412109,
      "learning_rate": 0.0002643,
      "loss": 1.9073,
      "step": 896
    },
    {
      "epoch": 1.4352,
      "grad_norm": 2.31636381149292,
      "learning_rate": 0.0002646,
      "loss": 1.8749,
      "step": 897
    },
    {
      "epoch": 1.4368,
      "grad_norm": 3.8894119262695312,
      "learning_rate": 0.0002649,
      "loss": 2.1202,
      "step": 898
    },
    {
      "epoch": 1.4384000000000001,
      "grad_norm": 5.789621353149414,
      "learning_rate": 0.0002652,
      "loss": 1.9118,
      "step": 899
    },
    {
      "epoch": 1.44,
      "grad_norm": 7.5779619216918945,
      "learning_rate": 0.0002655,
      "loss": 2.2179,
      "step": 900
    },
    {
      "epoch": 1.4416,
      "grad_norm": 10.712891578674316,
      "learning_rate": 0.00026579999999999996,
      "loss": 2.8742,
      "step": 901
    },
    {
      "epoch": 1.4432,
      "grad_norm": 8.757124900817871,
      "learning_rate": 0.00026609999999999996,
      "loss": 2.4353,
      "step": 902
    },
    {
      "epoch": 1.4447999999999999,
      "grad_norm": 9.56799602508545,
      "learning_rate": 0.00026639999999999997,
      "loss": 2.646,
      "step": 903
    },
    {
      "epoch": 1.4464000000000001,
      "grad_norm": 8.285284996032715,
      "learning_rate": 0.0002667,
      "loss": 2.5576,
      "step": 904
    },
    {
      "epoch": 1.448,
      "grad_norm": 7.641500473022461,
      "learning_rate": 0.000267,
      "loss": 2.4627,
      "step": 905
    },
    {
      "epoch": 1.4496,
      "grad_norm": 9.177940368652344,
      "learning_rate": 0.0002673,
      "loss": 2.4342,
      "step": 906
    },
    {
      "epoch": 1.4512,
      "grad_norm": 8.318049430847168,
      "learning_rate": 0.0002676,
      "loss": 2.5166,
      "step": 907
    },
    {
      "epoch": 1.4527999999999999,
      "grad_norm": 6.994287967681885,
      "learning_rate": 0.0002679,
      "loss": 2.4509,
      "step": 908
    },
    {
      "epoch": 1.4544000000000001,
      "grad_norm": 6.329995632171631,
      "learning_rate": 0.00026819999999999996,
      "loss": 2.4563,
      "step": 909
    },
    {
      "epoch": 1.456,
      "grad_norm": 5.76509952545166,
      "learning_rate": 0.00026849999999999997,
      "loss": 2.2929,
      "step": 910
    },
    {
      "epoch": 1.4576,
      "grad_norm": 3.3530473709106445,
      "learning_rate": 0.0002688,
      "loss": 2.0108,
      "step": 911
    },
    {
      "epoch": 1.4592,
      "grad_norm": 2.6256699562072754,
      "learning_rate": 0.0002691,
      "loss": 2.0606,
      "step": 912
    },
    {
      "epoch": 1.4607999999999999,
      "grad_norm": 1.4539761543273926,
      "learning_rate": 0.0002694,
      "loss": 1.9538,
      "step": 913
    },
    {
      "epoch": 1.4624,
      "grad_norm": 1.3113408088684082,
      "learning_rate": 0.0002697,
      "loss": 2.1957,
      "step": 914
    },
    {
      "epoch": 1.464,
      "grad_norm": 1.1808632612228394,
      "learning_rate": 0.00027,
      "loss": 2.0123,
      "step": 915
    },
    {
      "epoch": 1.4656,
      "grad_norm": 0.9282050728797913,
      "learning_rate": 0.00027029999999999996,
      "loss": 2.0029,
      "step": 916
    },
    {
      "epoch": 1.4672,
      "grad_norm": 1.2517030239105225,
      "learning_rate": 0.00027059999999999996,
      "loss": 1.9543,
      "step": 917
    },
    {
      "epoch": 1.4687999999999999,
      "grad_norm": 1.2844178676605225,
      "learning_rate": 0.00027089999999999997,
      "loss": 1.8131,
      "step": 918
    },
    {
      "epoch": 1.4704,
      "grad_norm": 0.7779868841171265,
      "learning_rate": 0.0002712,
      "loss": 1.9653,
      "step": 919
    },
    {
      "epoch": 1.472,
      "grad_norm": 1.8325669765472412,
      "learning_rate": 0.0002715,
      "loss": 1.8809,
      "step": 920
    },
    {
      "epoch": 1.4736,
      "grad_norm": 2.3614306449890137,
      "learning_rate": 0.0002718,
      "loss": 1.9198,
      "step": 921
    },
    {
      "epoch": 1.4752,
      "grad_norm": 1.5548219680786133,
      "learning_rate": 0.0002721,
      "loss": 2.319,
      "step": 922
    },
    {
      "epoch": 1.4768,
      "grad_norm": 1.010625958442688,
      "learning_rate": 0.0002724,
      "loss": 2.2114,
      "step": 923
    },
    {
      "epoch": 1.4784,
      "grad_norm": 2.4790525436401367,
      "learning_rate": 0.00027269999999999996,
      "loss": 2.4394,
      "step": 924
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.139253616333008,
      "learning_rate": 0.00027299999999999997,
      "loss": 2.2607,
      "step": 925
    },
    {
      "epoch": 1.4816,
      "grad_norm": 21.243789672851562,
      "learning_rate": 0.0002733,
      "loss": 4.0305,
      "step": 926
    },
    {
      "epoch": 1.4832,
      "grad_norm": 6.695805549621582,
      "learning_rate": 0.0002736,
      "loss": 2.5432,
      "step": 927
    },
    {
      "epoch": 1.4848,
      "grad_norm": 2.8859128952026367,
      "learning_rate": 0.0002739,
      "loss": 2.1313,
      "step": 928
    },
    {
      "epoch": 1.4864,
      "grad_norm": 2.9990243911743164,
      "learning_rate": 0.0002742,
      "loss": 2.0824,
      "step": 929
    },
    {
      "epoch": 1.488,
      "grad_norm": 0.9504282474517822,
      "learning_rate": 0.0002745,
      "loss": 1.9647,
      "step": 930
    },
    {
      "epoch": 1.4896,
      "grad_norm": 1.416487693786621,
      "learning_rate": 0.0002748,
      "loss": 1.9534,
      "step": 931
    },
    {
      "epoch": 1.4912,
      "grad_norm": 3.924936532974243,
      "learning_rate": 0.00027509999999999996,
      "loss": 2.1581,
      "step": 932
    },
    {
      "epoch": 1.4928,
      "grad_norm": 4.775065898895264,
      "learning_rate": 0.00027539999999999997,
      "loss": 2.0693,
      "step": 933
    },
    {
      "epoch": 1.4944,
      "grad_norm": 4.829035758972168,
      "learning_rate": 0.0002757,
      "loss": 2.0134,
      "step": 934
    },
    {
      "epoch": 1.496,
      "grad_norm": 4.46183443069458,
      "learning_rate": 0.000276,
      "loss": 2.2973,
      "step": 935
    },
    {
      "epoch": 1.4976,
      "grad_norm": 5.705532550811768,
      "learning_rate": 0.0002763,
      "loss": 2.2353,
      "step": 936
    },
    {
      "epoch": 1.4992,
      "grad_norm": 5.170881748199463,
      "learning_rate": 0.0002766,
      "loss": 2.4058,
      "step": 937
    },
    {
      "epoch": 1.5008,
      "grad_norm": 5.087926864624023,
      "learning_rate": 0.0002769,
      "loss": 2.006,
      "step": 938
    },
    {
      "epoch": 1.5024,
      "grad_norm": 5.493293762207031,
      "learning_rate": 0.0002772,
      "loss": 2.2158,
      "step": 939
    },
    {
      "epoch": 1.504,
      "grad_norm": 4.74140739440918,
      "learning_rate": 0.00027749999999999997,
      "loss": 2.2086,
      "step": 940
    },
    {
      "epoch": 1.5056,
      "grad_norm": 3.2799718379974365,
      "learning_rate": 0.0002778,
      "loss": 2.1634,
      "step": 941
    },
    {
      "epoch": 1.5072,
      "grad_norm": 2.608619451522827,
      "learning_rate": 0.0002781,
      "loss": 2.2917,
      "step": 942
    },
    {
      "epoch": 1.5088,
      "grad_norm": 1.8219605684280396,
      "learning_rate": 0.0002784,
      "loss": 2.0337,
      "step": 943
    },
    {
      "epoch": 1.5104,
      "grad_norm": 0.5471847653388977,
      "learning_rate": 0.0002787,
      "loss": 2.0357,
      "step": 944
    },
    {
      "epoch": 1.512,
      "grad_norm": 1.5796411037445068,
      "learning_rate": 0.000279,
      "loss": 1.8157,
      "step": 945
    },
    {
      "epoch": 1.5135999999999998,
      "grad_norm": 3.0464274883270264,
      "learning_rate": 0.0002793,
      "loss": 1.9289,
      "step": 946
    },
    {
      "epoch": 1.5152,
      "grad_norm": 4.224644660949707,
      "learning_rate": 0.00027959999999999997,
      "loss": 2.1435,
      "step": 947
    },
    {
      "epoch": 1.5168,
      "grad_norm": 5.403804302215576,
      "learning_rate": 0.0002799,
      "loss": 1.9621,
      "step": 948
    },
    {
      "epoch": 1.5184,
      "grad_norm": 4.696282863616943,
      "learning_rate": 0.0002802,
      "loss": 2.2405,
      "step": 949
    },
    {
      "epoch": 1.52,
      "grad_norm": 5.692913055419922,
      "learning_rate": 0.0002805,
      "loss": 2.2135,
      "step": 950
    },
    {
      "epoch": 1.5215999999999998,
      "grad_norm": 6.66227912902832,
      "learning_rate": 0.0002808,
      "loss": 2.1851,
      "step": 951
    },
    {
      "epoch": 1.5232,
      "grad_norm": 7.124788761138916,
      "learning_rate": 0.0002811,
      "loss": 2.1455,
      "step": 952
    },
    {
      "epoch": 1.5248,
      "grad_norm": 6.634387016296387,
      "learning_rate": 0.00028139999999999996,
      "loss": 2.2038,
      "step": 953
    },
    {
      "epoch": 1.5264,
      "grad_norm": 4.773592948913574,
      "learning_rate": 0.00028169999999999996,
      "loss": 1.9655,
      "step": 954
    },
    {
      "epoch": 1.528,
      "grad_norm": 6.511046409606934,
      "learning_rate": 0.00028199999999999997,
      "loss": 2.1953,
      "step": 955
    },
    {
      "epoch": 1.5295999999999998,
      "grad_norm": 5.800004005432129,
      "learning_rate": 0.0002823,
      "loss": 2.298,
      "step": 956
    },
    {
      "epoch": 1.5312000000000001,
      "grad_norm": 8.844927787780762,
      "learning_rate": 0.0002826,
      "loss": 2.6741,
      "step": 957
    },
    {
      "epoch": 1.5328,
      "grad_norm": 2.801509141921997,
      "learning_rate": 0.00028289999999999994,
      "loss": 2.0405,
      "step": 958
    },
    {
      "epoch": 1.5344,
      "grad_norm": 1.441400170326233,
      "learning_rate": 0.00028319999999999994,
      "loss": 2.0097,
      "step": 959
    },
    {
      "epoch": 1.536,
      "grad_norm": 0.6606685519218445,
      "learning_rate": 0.00028349999999999995,
      "loss": 1.9012,
      "step": 960
    },
    {
      "epoch": 1.5375999999999999,
      "grad_norm": 1.0121657848358154,
      "learning_rate": 0.00028379999999999996,
      "loss": 2.1164,
      "step": 961
    },
    {
      "epoch": 1.5392000000000001,
      "grad_norm": 2.11448073387146,
      "learning_rate": 0.00028409999999999997,
      "loss": 2.1646,
      "step": 962
    },
    {
      "epoch": 1.5408,
      "grad_norm": 1.660666823387146,
      "learning_rate": 0.0002844,
      "loss": 2.0593,
      "step": 963
    },
    {
      "epoch": 1.5424,
      "grad_norm": 0.7296435236930847,
      "learning_rate": 0.0002847,
      "loss": 1.9912,
      "step": 964
    },
    {
      "epoch": 1.544,
      "grad_norm": 0.8172574639320374,
      "learning_rate": 0.000285,
      "loss": 2.1308,
      "step": 965
    },
    {
      "epoch": 1.5455999999999999,
      "grad_norm": 3.529291868209839,
      "learning_rate": 0.00028529999999999994,
      "loss": 2.4858,
      "step": 966
    },
    {
      "epoch": 1.5472000000000001,
      "grad_norm": 3.8260555267333984,
      "learning_rate": 0.00028559999999999995,
      "loss": 2.3045,
      "step": 967
    },
    {
      "epoch": 1.5488,
      "grad_norm": 5.841991901397705,
      "learning_rate": 0.00028589999999999996,
      "loss": 2.5007,
      "step": 968
    },
    {
      "epoch": 1.5504,
      "grad_norm": 5.58250093460083,
      "learning_rate": 0.00028619999999999996,
      "loss": 2.1947,
      "step": 969
    },
    {
      "epoch": 1.552,
      "grad_norm": 6.479895114898682,
      "learning_rate": 0.00028649999999999997,
      "loss": 2.2422,
      "step": 970
    },
    {
      "epoch": 1.5535999999999999,
      "grad_norm": 5.577583312988281,
      "learning_rate": 0.0002868,
      "loss": 2.3023,
      "step": 971
    },
    {
      "epoch": 1.5552000000000001,
      "grad_norm": 4.665249824523926,
      "learning_rate": 0.0002871,
      "loss": 2.7231,
      "step": 972
    },
    {
      "epoch": 1.5568,
      "grad_norm": 3.4380602836608887,
      "learning_rate": 0.00028739999999999994,
      "loss": 2.3567,
      "step": 973
    },
    {
      "epoch": 1.5584,
      "grad_norm": 2.9674761295318604,
      "learning_rate": 0.00028769999999999995,
      "loss": 2.7469,
      "step": 974
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.04423189163208,
      "learning_rate": 0.00028799999999999995,
      "loss": 2.4228,
      "step": 975
    },
    {
      "epoch": 1.5615999999999999,
      "grad_norm": 10.190044403076172,
      "learning_rate": 0.00028829999999999996,
      "loss": 3.0674,
      "step": 976
    },
    {
      "epoch": 1.5632000000000001,
      "grad_norm": 2.3500773906707764,
      "learning_rate": 0.00028859999999999997,
      "loss": 2.4471,
      "step": 977
    },
    {
      "epoch": 1.5648,
      "grad_norm": 1.5877519845962524,
      "learning_rate": 0.0002889,
      "loss": 2.3215,
      "step": 978
    },
    {
      "epoch": 1.5664,
      "grad_norm": 2.7796225547790527,
      "learning_rate": 0.0002892,
      "loss": 2.5779,
      "step": 979
    },
    {
      "epoch": 1.568,
      "grad_norm": 2.8195817470550537,
      "learning_rate": 0.0002895,
      "loss": 2.5889,
      "step": 980
    },
    {
      "epoch": 1.5695999999999999,
      "grad_norm": 2.0445921421051025,
      "learning_rate": 0.00028979999999999994,
      "loss": 2.4993,
      "step": 981
    },
    {
      "epoch": 1.5712000000000002,
      "grad_norm": 3.8158059120178223,
      "learning_rate": 0.00029009999999999995,
      "loss": 2.29,
      "step": 982
    },
    {
      "epoch": 1.5728,
      "grad_norm": 5.886443614959717,
      "learning_rate": 0.00029039999999999996,
      "loss": 2.4405,
      "step": 983
    },
    {
      "epoch": 1.5744,
      "grad_norm": 4.135772228240967,
      "learning_rate": 0.00029069999999999996,
      "loss": 2.4418,
      "step": 984
    },
    {
      "epoch": 1.576,
      "grad_norm": 6.405320644378662,
      "learning_rate": 0.00029099999999999997,
      "loss": 2.4061,
      "step": 985
    },
    {
      "epoch": 1.5776,
      "grad_norm": 5.528068542480469,
      "learning_rate": 0.0002913,
      "loss": 2.0997,
      "step": 986
    },
    {
      "epoch": 1.5792000000000002,
      "grad_norm": 5.618749618530273,
      "learning_rate": 0.0002916,
      "loss": 2.4048,
      "step": 987
    },
    {
      "epoch": 1.5808,
      "grad_norm": 5.455833911895752,
      "learning_rate": 0.0002919,
      "loss": 2.3788,
      "step": 988
    },
    {
      "epoch": 1.5824,
      "grad_norm": 5.045185089111328,
      "learning_rate": 0.00029219999999999995,
      "loss": 2.1703,
      "step": 989
    },
    {
      "epoch": 1.584,
      "grad_norm": 3.192173480987549,
      "learning_rate": 0.00029249999999999995,
      "loss": 2.4022,
      "step": 990
    },
    {
      "epoch": 1.5856,
      "grad_norm": 3.1793525218963623,
      "learning_rate": 0.00029279999999999996,
      "loss": 2.1956,
      "step": 991
    },
    {
      "epoch": 1.5872000000000002,
      "grad_norm": 1.323548674583435,
      "learning_rate": 0.00029309999999999997,
      "loss": 2.1388,
      "step": 992
    },
    {
      "epoch": 1.5888,
      "grad_norm": 1.1508042812347412,
      "learning_rate": 0.0002934,
      "loss": 2.1403,
      "step": 993
    },
    {
      "epoch": 1.5904,
      "grad_norm": 2.786349058151245,
      "learning_rate": 0.0002937,
      "loss": 2.0843,
      "step": 994
    },
    {
      "epoch": 1.592,
      "grad_norm": 4.274806499481201,
      "learning_rate": 0.000294,
      "loss": 2.2627,
      "step": 995
    },
    {
      "epoch": 1.5936,
      "grad_norm": 4.96270751953125,
      "learning_rate": 0.00029429999999999994,
      "loss": 2.2727,
      "step": 996
    },
    {
      "epoch": 1.5952,
      "grad_norm": 5.281583786010742,
      "learning_rate": 0.00029459999999999995,
      "loss": 2.2626,
      "step": 997
    },
    {
      "epoch": 1.5968,
      "grad_norm": 6.537198066711426,
      "learning_rate": 0.00029489999999999996,
      "loss": 2.258,
      "step": 998
    },
    {
      "epoch": 1.5984,
      "grad_norm": 7.0249223709106445,
      "learning_rate": 0.00029519999999999997,
      "loss": 2.3156,
      "step": 999
    },
    {
      "epoch": 1.6,
      "grad_norm": 5.909872055053711,
      "learning_rate": 0.00029549999999999997,
      "loss": 2.3959,
      "step": 1000
    },
    {
      "epoch": 1.6016,
      "grad_norm": 7.637903213500977,
      "learning_rate": 0.0002958,
      "loss": 2.4885,
      "step": 1001
    },
    {
      "epoch": 1.6032,
      "grad_norm": 6.988182067871094,
      "learning_rate": 0.0002961,
      "loss": 2.3817,
      "step": 1002
    },
    {
      "epoch": 1.6048,
      "grad_norm": 6.992365837097168,
      "learning_rate": 0.0002964,
      "loss": 2.4426,
      "step": 1003
    },
    {
      "epoch": 1.6064,
      "grad_norm": 5.621988296508789,
      "learning_rate": 0.00029669999999999995,
      "loss": 2.397,
      "step": 1004
    },
    {
      "epoch": 1.608,
      "grad_norm": 3.53421688079834,
      "learning_rate": 0.00029699999999999996,
      "loss": 2.403,
      "step": 1005
    },
    {
      "epoch": 1.6096,
      "grad_norm": 2.6446614265441895,
      "learning_rate": 0.00029729999999999996,
      "loss": 2.2512,
      "step": 1006
    },
    {
      "epoch": 1.6112,
      "grad_norm": 2.235408306121826,
      "learning_rate": 0.00029759999999999997,
      "loss": 2.0068,
      "step": 1007
    },
    {
      "epoch": 1.6128,
      "grad_norm": 1.4316028356552124,
      "learning_rate": 0.0002979,
      "loss": 2.1133,
      "step": 1008
    },
    {
      "epoch": 1.6143999999999998,
      "grad_norm": 1.0931628942489624,
      "learning_rate": 0.0002982,
      "loss": 2.1428,
      "step": 1009
    },
    {
      "epoch": 1.616,
      "grad_norm": 1.0988737344741821,
      "learning_rate": 0.0002985,
      "loss": 2.212,
      "step": 1010
    },
    {
      "epoch": 1.6176,
      "grad_norm": 0.8665049076080322,
      "learning_rate": 0.0002988,
      "loss": 2.2145,
      "step": 1011
    },
    {
      "epoch": 1.6192,
      "grad_norm": 0.6521317362785339,
      "learning_rate": 0.00029909999999999995,
      "loss": 2.2136,
      "step": 1012
    },
    {
      "epoch": 1.6208,
      "grad_norm": 1.2333879470825195,
      "learning_rate": 0.00029939999999999996,
      "loss": 2.2025,
      "step": 1013
    },
    {
      "epoch": 1.6223999999999998,
      "grad_norm": 1.2490397691726685,
      "learning_rate": 0.00029969999999999997,
      "loss": 2.3032,
      "step": 1014
    },
    {
      "epoch": 1.624,
      "grad_norm": 1.9451225996017456,
      "learning_rate": 0.0003,
      "loss": 2.6045,
      "step": 1015
    },
    {
      "epoch": 1.6256,
      "grad_norm": 3.870406150817871,
      "learning_rate": 0.0003002999999999999,
      "loss": 2.2674,
      "step": 1016
    },
    {
      "epoch": 1.6272,
      "grad_norm": 3.619330644607544,
      "learning_rate": 0.0003006,
      "loss": 2.2744,
      "step": 1017
    },
    {
      "epoch": 1.6288,
      "grad_norm": 4.24730920791626,
      "learning_rate": 0.00030089999999999994,
      "loss": 2.3574,
      "step": 1018
    },
    {
      "epoch": 1.6303999999999998,
      "grad_norm": 4.763134002685547,
      "learning_rate": 0.00030119999999999995,
      "loss": 2.4282,
      "step": 1019
    },
    {
      "epoch": 1.6320000000000001,
      "grad_norm": 4.33074426651001,
      "learning_rate": 0.00030149999999999996,
      "loss": 2.6336,
      "step": 1020
    },
    {
      "epoch": 1.6336,
      "grad_norm": 2.6049580574035645,
      "learning_rate": 0.00030179999999999996,
      "loss": 2.0806,
      "step": 1021
    },
    {
      "epoch": 1.6352,
      "grad_norm": 6.9189839363098145,
      "learning_rate": 0.0003020999999999999,
      "loss": 2.5478,
      "step": 1022
    },
    {
      "epoch": 1.6368,
      "grad_norm": 1.222205638885498,
      "learning_rate": 0.0003024,
      "loss": 2.7747,
      "step": 1023
    },
    {
      "epoch": 1.6383999999999999,
      "grad_norm": 1.9943503141403198,
      "learning_rate": 0.00030269999999999993,
      "loss": 2.5852,
      "step": 1024
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 0.903025209903717,
      "learning_rate": 0.000303,
      "loss": 2.8456,
      "step": 1025
    },
    {
      "epoch": 1.6416,
      "grad_norm": 17.016794204711914,
      "learning_rate": 0.00030329999999999995,
      "loss": 3.5966,
      "step": 1026
    },
    {
      "epoch": 1.6432,
      "grad_norm": 3.820300340652466,
      "learning_rate": 0.00030359999999999995,
      "loss": 2.6173,
      "step": 1027
    },
    {
      "epoch": 1.6448,
      "grad_norm": 6.402599811553955,
      "learning_rate": 0.00030389999999999996,
      "loss": 2.834,
      "step": 1028
    },
    {
      "epoch": 1.6463999999999999,
      "grad_norm": 10.509306907653809,
      "learning_rate": 0.00030419999999999997,
      "loss": 3.2254,
      "step": 1029
    },
    {
      "epoch": 1.6480000000000001,
      "grad_norm": 2.164959192276001,
      "learning_rate": 0.0003044999999999999,
      "loss": 2.3757,
      "step": 1030
    },
    {
      "epoch": 1.6496,
      "grad_norm": 1.8674250841140747,
      "learning_rate": 0.0003048,
      "loss": 2.371,
      "step": 1031
    },
    {
      "epoch": 1.6512,
      "grad_norm": 4.218185901641846,
      "learning_rate": 0.00030509999999999994,
      "loss": 2.5602,
      "step": 1032
    },
    {
      "epoch": 1.6528,
      "grad_norm": 4.413148880004883,
      "learning_rate": 0.0003054,
      "loss": 2.4103,
      "step": 1033
    },
    {
      "epoch": 1.6543999999999999,
      "grad_norm": 5.600552558898926,
      "learning_rate": 0.00030569999999999995,
      "loss": 2.2613,
      "step": 1034
    },
    {
      "epoch": 1.6560000000000001,
      "grad_norm": 4.799594402313232,
      "learning_rate": 0.00030599999999999996,
      "loss": 2.3748,
      "step": 1035
    },
    {
      "epoch": 1.6576,
      "grad_norm": 1.1949158906936646,
      "learning_rate": 0.00030629999999999996,
      "loss": 2.3916,
      "step": 1036
    },
    {
      "epoch": 1.6592,
      "grad_norm": 4.209189414978027,
      "learning_rate": 0.00030659999999999997,
      "loss": 2.3753,
      "step": 1037
    },
    {
      "epoch": 1.6608,
      "grad_norm": 4.924483299255371,
      "learning_rate": 0.0003068999999999999,
      "loss": 2.2942,
      "step": 1038
    },
    {
      "epoch": 1.6623999999999999,
      "grad_norm": 5.148475170135498,
      "learning_rate": 0.0003072,
      "loss": 2.2493,
      "step": 1039
    },
    {
      "epoch": 1.6640000000000001,
      "grad_norm": 4.989164352416992,
      "learning_rate": 0.00030749999999999994,
      "loss": 2.1704,
      "step": 1040
    },
    {
      "epoch": 1.6656,
      "grad_norm": 4.440720558166504,
      "learning_rate": 0.0003078,
      "loss": 2.4185,
      "step": 1041
    },
    {
      "epoch": 1.6672,
      "grad_norm": 3.280564308166504,
      "learning_rate": 0.00030809999999999995,
      "loss": 2.1599,
      "step": 1042
    },
    {
      "epoch": 1.6688,
      "grad_norm": 1.5916945934295654,
      "learning_rate": 0.00030839999999999996,
      "loss": 2.1695,
      "step": 1043
    },
    {
      "epoch": 1.6703999999999999,
      "grad_norm": 1.1902886629104614,
      "learning_rate": 0.00030869999999999997,
      "loss": 2.1445,
      "step": 1044
    },
    {
      "epoch": 1.6720000000000002,
      "grad_norm": 1.2258431911468506,
      "learning_rate": 0.000309,
      "loss": 2.1879,
      "step": 1045
    },
    {
      "epoch": 1.6736,
      "grad_norm": 2.241992473602295,
      "learning_rate": 0.00030929999999999993,
      "loss": 1.9961,
      "step": 1046
    },
    {
      "epoch": 1.6752,
      "grad_norm": 3.9534943103790283,
      "learning_rate": 0.0003096,
      "loss": 2.074,
      "step": 1047
    },
    {
      "epoch": 1.6768,
      "grad_norm": 5.947170257568359,
      "learning_rate": 0.00030989999999999994,
      "loss": 2.2004,
      "step": 1048
    },
    {
      "epoch": 1.6784,
      "grad_norm": 7.540464878082275,
      "learning_rate": 0.0003102,
      "loss": 2.4244,
      "step": 1049
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 4.6932172775268555,
      "learning_rate": 0.00031049999999999996,
      "loss": 2.1152,
      "step": 1050
    },
    {
      "epoch": 1.6816,
      "grad_norm": 6.5101318359375,
      "learning_rate": 0.00031079999999999997,
      "loss": 2.3487,
      "step": 1051
    },
    {
      "epoch": 1.6832,
      "grad_norm": 5.6864013671875,
      "learning_rate": 0.00031109999999999997,
      "loss": 2.4663,
      "step": 1052
    },
    {
      "epoch": 1.6848,
      "grad_norm": 5.695480823516846,
      "learning_rate": 0.0003114,
      "loss": 2.2667,
      "step": 1053
    },
    {
      "epoch": 1.6864,
      "grad_norm": 5.523344993591309,
      "learning_rate": 0.00031169999999999993,
      "loss": 2.199,
      "step": 1054
    },
    {
      "epoch": 1.688,
      "grad_norm": 4.021401405334473,
      "learning_rate": 0.000312,
      "loss": 2.2399,
      "step": 1055
    },
    {
      "epoch": 1.6896,
      "grad_norm": 3.751222848892212,
      "learning_rate": 0.00031229999999999995,
      "loss": 2.235,
      "step": 1056
    },
    {
      "epoch": 1.6912,
      "grad_norm": 2.249674081802368,
      "learning_rate": 0.0003126,
      "loss": 2.1857,
      "step": 1057
    },
    {
      "epoch": 1.6928,
      "grad_norm": 2.001965284347534,
      "learning_rate": 0.00031289999999999996,
      "loss": 2.1195,
      "step": 1058
    },
    {
      "epoch": 1.6944,
      "grad_norm": 1.0671782493591309,
      "learning_rate": 0.00031319999999999997,
      "loss": 2.1389,
      "step": 1059
    },
    {
      "epoch": 1.696,
      "grad_norm": 0.9789913296699524,
      "learning_rate": 0.0003135,
      "loss": 2.4445,
      "step": 1060
    },
    {
      "epoch": 1.6976,
      "grad_norm": 1.2904689311981201,
      "learning_rate": 0.0003138,
      "loss": 2.1766,
      "step": 1061
    },
    {
      "epoch": 1.6992,
      "grad_norm": 0.7292619943618774,
      "learning_rate": 0.00031409999999999994,
      "loss": 2.221,
      "step": 1062
    },
    {
      "epoch": 1.7008,
      "grad_norm": 0.7377645373344421,
      "learning_rate": 0.0003144,
      "loss": 2.1054,
      "step": 1063
    },
    {
      "epoch": 1.7024,
      "grad_norm": 1.674381136894226,
      "learning_rate": 0.00031469999999999995,
      "loss": 2.362,
      "step": 1064
    },
    {
      "epoch": 1.704,
      "grad_norm": 6.733413219451904,
      "learning_rate": 0.00031499999999999996,
      "loss": 2.634,
      "step": 1065
    },
    {
      "epoch": 1.7056,
      "grad_norm": 3.1459693908691406,
      "learning_rate": 0.00031529999999999997,
      "loss": 2.3274,
      "step": 1066
    },
    {
      "epoch": 1.7072,
      "grad_norm": 3.5573384761810303,
      "learning_rate": 0.0003156,
      "loss": 2.7282,
      "step": 1067
    },
    {
      "epoch": 1.7088,
      "grad_norm": 3.3276679515838623,
      "learning_rate": 0.0003158999999999999,
      "loss": 2.4335,
      "step": 1068
    },
    {
      "epoch": 1.7104,
      "grad_norm": 3.3725104331970215,
      "learning_rate": 0.0003162,
      "loss": 2.6206,
      "step": 1069
    },
    {
      "epoch": 1.712,
      "grad_norm": 1.2234220504760742,
      "learning_rate": 0.00031649999999999994,
      "loss": 2.4624,
      "step": 1070
    },
    {
      "epoch": 1.7136,
      "grad_norm": 0.8122461438179016,
      "learning_rate": 0.0003168,
      "loss": 2.5879,
      "step": 1071
    },
    {
      "epoch": 1.7151999999999998,
      "grad_norm": 0.7520931363105774,
      "learning_rate": 0.00031709999999999996,
      "loss": 2.4474,
      "step": 1072
    },
    {
      "epoch": 1.7168,
      "grad_norm": 2.023834228515625,
      "learning_rate": 0.00031739999999999996,
      "loss": 2.873,
      "step": 1073
    },
    {
      "epoch": 1.7184,
      "grad_norm": 1.4827693700790405,
      "learning_rate": 0.00031769999999999997,
      "loss": 2.5504,
      "step": 1074
    },
    {
      "epoch": 1.72,
      "grad_norm": NaN,
      "learning_rate": 0.00031769999999999997,
      "loss": 2.2876,
      "step": 1075
    },
    {
      "epoch": 1.7216,
      "grad_norm": 16.413217544555664,
      "learning_rate": 0.000318,
      "loss": 3.5108,
      "step": 1076
    },
    {
      "epoch": 1.7231999999999998,
      "grad_norm": 8.193089485168457,
      "learning_rate": 0.00031829999999999993,
      "loss": 3.0809,
      "step": 1077
    },
    {
      "epoch": 1.7248,
      "grad_norm": 4.528853416442871,
      "learning_rate": 0.0003186,
      "loss": 2.8905,
      "step": 1078
    },
    {
      "epoch": 1.7264,
      "grad_norm": 2.9132778644561768,
      "learning_rate": 0.00031889999999999995,
      "loss": 2.8106,
      "step": 1079
    },
    {
      "epoch": 1.728,
      "grad_norm": 6.130316257476807,
      "learning_rate": 0.0003192,
      "loss": 3.121,
      "step": 1080
    },
    {
      "epoch": 1.7296,
      "grad_norm": 1.5412960052490234,
      "learning_rate": 0.00031949999999999996,
      "loss": 2.7423,
      "step": 1081
    },
    {
      "epoch": 1.7311999999999999,
      "grad_norm": 2.8891286849975586,
      "learning_rate": 0.00031979999999999997,
      "loss": 2.6641,
      "step": 1082
    },
    {
      "epoch": 1.7328000000000001,
      "grad_norm": 1.3349493741989136,
      "learning_rate": 0.0003201,
      "loss": 2.7299,
      "step": 1083
    },
    {
      "epoch": 1.7344,
      "grad_norm": 2.5229907035827637,
      "learning_rate": 0.0003204,
      "loss": 2.7078,
      "step": 1084
    },
    {
      "epoch": 1.736,
      "grad_norm": 3.7961184978485107,
      "learning_rate": 0.00032069999999999993,
      "loss": 2.4799,
      "step": 1085
    },
    {
      "epoch": 1.7376,
      "grad_norm": 3.6919217109680176,
      "learning_rate": 0.000321,
      "loss": 2.4731,
      "step": 1086
    },
    {
      "epoch": 1.7391999999999999,
      "grad_norm": 3.6608409881591797,
      "learning_rate": 0.00032129999999999995,
      "loss": 2.6901,
      "step": 1087
    },
    {
      "epoch": 1.7408000000000001,
      "grad_norm": 2.5811784267425537,
      "learning_rate": 0.0003216,
      "loss": 2.4138,
      "step": 1088
    },
    {
      "epoch": 1.7424,
      "grad_norm": 1.4929311275482178,
      "learning_rate": 0.00032189999999999996,
      "loss": 2.3692,
      "step": 1089
    },
    {
      "epoch": 1.744,
      "grad_norm": 1.622512698173523,
      "learning_rate": 0.00032219999999999997,
      "loss": 2.4005,
      "step": 1090
    },
    {
      "epoch": 1.7456,
      "grad_norm": 1.0638054609298706,
      "learning_rate": 0.0003225,
      "loss": 2.4661,
      "step": 1091
    },
    {
      "epoch": 1.7471999999999999,
      "grad_norm": 1.3987395763397217,
      "learning_rate": 0.0003228,
      "loss": 2.4535,
      "step": 1092
    },
    {
      "epoch": 1.7488000000000001,
      "grad_norm": 3.8728277683258057,
      "learning_rate": 0.00032309999999999994,
      "loss": 2.5941,
      "step": 1093
    },
    {
      "epoch": 1.7504,
      "grad_norm": 2.725276470184326,
      "learning_rate": 0.0003234,
      "loss": 2.553,
      "step": 1094
    },
    {
      "epoch": 1.752,
      "grad_norm": 2.4425482749938965,
      "learning_rate": 0.00032369999999999995,
      "loss": 2.2451,
      "step": 1095
    },
    {
      "epoch": 1.7536,
      "grad_norm": 2.31581711769104,
      "learning_rate": 0.000324,
      "loss": 2.4025,
      "step": 1096
    },
    {
      "epoch": 1.7551999999999999,
      "grad_norm": 6.327169418334961,
      "learning_rate": 0.00032429999999999997,
      "loss": 2.6523,
      "step": 1097
    },
    {
      "epoch": 1.7568000000000001,
      "grad_norm": 6.215856552124023,
      "learning_rate": 0.0003246,
      "loss": 2.7057,
      "step": 1098
    },
    {
      "epoch": 1.7584,
      "grad_norm": 0.9872040748596191,
      "learning_rate": 0.0003249,
      "loss": 2.4095,
      "step": 1099
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.473762035369873,
      "learning_rate": 0.0003252,
      "loss": 2.3173,
      "step": 1100
    },
    {
      "epoch": 1.7616,
      "grad_norm": 1.889335036277771,
      "learning_rate": 0.00032549999999999994,
      "loss": 2.4215,
      "step": 1101
    },
    {
      "epoch": 1.7631999999999999,
      "grad_norm": 2.3463101387023926,
      "learning_rate": 0.0003258,
      "loss": 2.2987,
      "step": 1102
    },
    {
      "epoch": 1.7648000000000001,
      "grad_norm": 1.228926420211792,
      "learning_rate": 0.00032609999999999996,
      "loss": 2.2642,
      "step": 1103
    },
    {
      "epoch": 1.7664,
      "grad_norm": 0.8833368420600891,
      "learning_rate": 0.0003264,
      "loss": 2.2548,
      "step": 1104
    },
    {
      "epoch": 1.768,
      "grad_norm": 0.7233026027679443,
      "learning_rate": 0.00032669999999999997,
      "loss": 2.4638,
      "step": 1105
    },
    {
      "epoch": 1.7696,
      "grad_norm": 0.7442961931228638,
      "learning_rate": 0.000327,
      "loss": 2.3391,
      "step": 1106
    },
    {
      "epoch": 1.7711999999999999,
      "grad_norm": 0.688629150390625,
      "learning_rate": 0.0003273,
      "loss": 2.1627,
      "step": 1107
    },
    {
      "epoch": 1.7728000000000002,
      "grad_norm": 2.3164734840393066,
      "learning_rate": 0.0003276,
      "loss": 2.6653,
      "step": 1108
    },
    {
      "epoch": 1.7744,
      "grad_norm": 0.7344738245010376,
      "learning_rate": 0.00032789999999999995,
      "loss": 2.3615,
      "step": 1109
    },
    {
      "epoch": 1.776,
      "grad_norm": 3.150681734085083,
      "learning_rate": 0.0003282,
      "loss": 2.2903,
      "step": 1110
    },
    {
      "epoch": 1.7776,
      "grad_norm": 3.1520416736602783,
      "learning_rate": 0.00032849999999999996,
      "loss": 2.3161,
      "step": 1111
    },
    {
      "epoch": 1.7792,
      "grad_norm": 1.8366395235061646,
      "learning_rate": 0.0003288,
      "loss": 2.3981,
      "step": 1112
    },
    {
      "epoch": 1.7808000000000002,
      "grad_norm": 1.1598656177520752,
      "learning_rate": 0.0003291,
      "loss": 2.279,
      "step": 1113
    },
    {
      "epoch": 1.7824,
      "grad_norm": 1.057368278503418,
      "learning_rate": 0.0003294,
      "loss": 2.4606,
      "step": 1114
    },
    {
      "epoch": 1.784,
      "grad_norm": 0.8108821511268616,
      "learning_rate": 0.0003297,
      "loss": 2.3197,
      "step": 1115
    },
    {
      "epoch": 1.7856,
      "grad_norm": 0.7972817420959473,
      "learning_rate": 0.00033,
      "loss": 2.3071,
      "step": 1116
    },
    {
      "epoch": 1.7872,
      "grad_norm": 0.7329958081245422,
      "learning_rate": 0.00033029999999999995,
      "loss": 2.36,
      "step": 1117
    },
    {
      "epoch": 1.7888,
      "grad_norm": 0.9914326667785645,
      "learning_rate": 0.0003306,
      "loss": 2.494,
      "step": 1118
    },
    {
      "epoch": 1.7904,
      "grad_norm": 1.2104322910308838,
      "learning_rate": 0.00033089999999999997,
      "loss": 2.1681,
      "step": 1119
    },
    {
      "epoch": 1.792,
      "grad_norm": 2.939289093017578,
      "learning_rate": 0.0003312,
      "loss": 2.707,
      "step": 1120
    },
    {
      "epoch": 1.7936,
      "grad_norm": 1.4465129375457764,
      "learning_rate": 0.0003315,
      "loss": 2.6272,
      "step": 1121
    },
    {
      "epoch": 1.7952,
      "grad_norm": 0.9196242094039917,
      "learning_rate": 0.0003318,
      "loss": 2.7562,
      "step": 1122
    },
    {
      "epoch": 1.7968,
      "grad_norm": 3.128715991973877,
      "learning_rate": 0.00033209999999999994,
      "loss": 2.7036,
      "step": 1123
    },
    {
      "epoch": 1.7984,
      "grad_norm": 1.085696816444397,
      "learning_rate": 0.0003324,
      "loss": 2.412,
      "step": 1124
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.5047450065612793,
      "learning_rate": 0.00033269999999999996,
      "loss": 2.7249,
      "step": 1125
    },
    {
      "epoch": 1.8016,
      "grad_norm": 4.3478922843933105,
      "learning_rate": 0.000333,
      "loss": 2.7462,
      "step": 1126
    },
    {
      "epoch": 1.8032,
      "grad_norm": 3.4352104663848877,
      "learning_rate": 0.00033329999999999997,
      "loss": 2.7354,
      "step": 1127
    },
    {
      "epoch": 1.8048,
      "grad_norm": 8.34579849243164,
      "learning_rate": 0.0003336,
      "loss": 2.9036,
      "step": 1128
    },
    {
      "epoch": 1.8064,
      "grad_norm": 1.7377263307571411,
      "learning_rate": 0.0003339,
      "loss": 2.6318,
      "step": 1129
    },
    {
      "epoch": 1.808,
      "grad_norm": 0.8710009455680847,
      "learning_rate": 0.0003342,
      "loss": 2.4611,
      "step": 1130
    },
    {
      "epoch": 1.8096,
      "grad_norm": 0.7961373329162598,
      "learning_rate": 0.00033449999999999994,
      "loss": 2.6149,
      "step": 1131
    },
    {
      "epoch": 1.8112,
      "grad_norm": 1.2493680715560913,
      "learning_rate": 0.0003348,
      "loss": 2.4834,
      "step": 1132
    },
    {
      "epoch": 1.8128,
      "grad_norm": 2.2496654987335205,
      "learning_rate": 0.00033509999999999996,
      "loss": 2.4858,
      "step": 1133
    },
    {
      "epoch": 1.8144,
      "grad_norm": 1.7312769889831543,
      "learning_rate": 0.0003354,
      "loss": 2.5253,
      "step": 1134
    },
    {
      "epoch": 1.8159999999999998,
      "grad_norm": 1.8472027778625488,
      "learning_rate": 0.0003357,
      "loss": 2.8019,
      "step": 1135
    },
    {
      "epoch": 1.8176,
      "grad_norm": 3.3026609420776367,
      "learning_rate": 0.000336,
      "loss": 2.383,
      "step": 1136
    },
    {
      "epoch": 1.8192,
      "grad_norm": 2.8907511234283447,
      "learning_rate": 0.0003363,
      "loss": 2.4224,
      "step": 1137
    },
    {
      "epoch": 1.8208,
      "grad_norm": 2.530062437057495,
      "learning_rate": 0.0003366,
      "loss": 2.2473,
      "step": 1138
    },
    {
      "epoch": 1.8224,
      "grad_norm": 1.1952489614486694,
      "learning_rate": 0.00033689999999999995,
      "loss": 2.3729,
      "step": 1139
    },
    {
      "epoch": 1.8239999999999998,
      "grad_norm": 1.2493127584457397,
      "learning_rate": 0.0003372,
      "loss": 2.2322,
      "step": 1140
    },
    {
      "epoch": 1.8256000000000001,
      "grad_norm": 1.3810757398605347,
      "learning_rate": 0.00033749999999999996,
      "loss": 2.1936,
      "step": 1141
    },
    {
      "epoch": 1.8272,
      "grad_norm": 0.6716127395629883,
      "learning_rate": 0.0003377999999999999,
      "loss": 2.1006,
      "step": 1142
    },
    {
      "epoch": 1.8288,
      "grad_norm": 4.641638278961182,
      "learning_rate": 0.0003381,
      "loss": 2.5418,
      "step": 1143
    },
    {
      "epoch": 1.8304,
      "grad_norm": 0.7420514225959778,
      "learning_rate": 0.00033839999999999993,
      "loss": 2.1303,
      "step": 1144
    },
    {
      "epoch": 1.8319999999999999,
      "grad_norm": 0.6666918992996216,
      "learning_rate": 0.0003387,
      "loss": 2.2456,
      "step": 1145
    },
    {
      "epoch": 1.8336000000000001,
      "grad_norm": 0.5805254578590393,
      "learning_rate": 0.00033899999999999995,
      "loss": 2.2268,
      "step": 1146
    },
    {
      "epoch": 1.8352,
      "grad_norm": 0.6321543455123901,
      "learning_rate": 0.00033929999999999995,
      "loss": 2.2048,
      "step": 1147
    },
    {
      "epoch": 1.8368,
      "grad_norm": 3.640864849090576,
      "learning_rate": 0.00033959999999999996,
      "loss": 2.5881,
      "step": 1148
    },
    {
      "epoch": 1.8384,
      "grad_norm": 2.1340978145599365,
      "learning_rate": 0.00033989999999999997,
      "loss": 2.1501,
      "step": 1149
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 2.5168700218200684,
      "learning_rate": 0.0003401999999999999,
      "loss": 2.4225,
      "step": 1150
    },
    {
      "epoch": 1.8416000000000001,
      "grad_norm": 1.6082960367202759,
      "learning_rate": 0.0003405,
      "loss": 2.172,
      "step": 1151
    },
    {
      "epoch": 1.8432,
      "grad_norm": 2.326335906982422,
      "learning_rate": 0.00034079999999999994,
      "loss": 2.1434,
      "step": 1152
    },
    {
      "epoch": 1.8448,
      "grad_norm": 0.920198380947113,
      "learning_rate": 0.0003411,
      "loss": 2.1625,
      "step": 1153
    },
    {
      "epoch": 1.8464,
      "grad_norm": 1.2494739294052124,
      "learning_rate": 0.00034139999999999995,
      "loss": 2.1452,
      "step": 1154
    },
    {
      "epoch": 1.8479999999999999,
      "grad_norm": 1.2549406290054321,
      "learning_rate": 0.00034169999999999996,
      "loss": 2.171,
      "step": 1155
    },
    {
      "epoch": 1.8496000000000001,
      "grad_norm": 1.5478543043136597,
      "learning_rate": 0.00034199999999999996,
      "loss": 2.1439,
      "step": 1156
    },
    {
      "epoch": 1.8512,
      "grad_norm": 1.768579125404358,
      "learning_rate": 0.00034229999999999997,
      "loss": 2.056,
      "step": 1157
    },
    {
      "epoch": 1.8528,
      "grad_norm": 0.6443532109260559,
      "learning_rate": 0.0003425999999999999,
      "loss": 2.3397,
      "step": 1158
    },
    {
      "epoch": 1.8544,
      "grad_norm": 0.5668714046478271,
      "learning_rate": 0.0003429,
      "loss": 2.2165,
      "step": 1159
    },
    {
      "epoch": 1.8559999999999999,
      "grad_norm": 1.3049060106277466,
      "learning_rate": 0.00034319999999999994,
      "loss": 2.33,
      "step": 1160
    },
    {
      "epoch": 1.8576000000000001,
      "grad_norm": 0.6785088777542114,
      "learning_rate": 0.0003435,
      "loss": 2.1462,
      "step": 1161
    },
    {
      "epoch": 1.8592,
      "grad_norm": 1.5797127485275269,
      "learning_rate": 0.00034379999999999995,
      "loss": 2.5508,
      "step": 1162
    },
    {
      "epoch": 1.8608,
      "grad_norm": 1.1962186098098755,
      "learning_rate": 0.00034409999999999996,
      "loss": 2.3856,
      "step": 1163
    },
    {
      "epoch": 1.8624,
      "grad_norm": 0.6989690661430359,
      "learning_rate": 0.00034439999999999997,
      "loss": 2.0005,
      "step": 1164
    },
    {
      "epoch": 1.8639999999999999,
      "grad_norm": 0.8127622604370117,
      "learning_rate": 0.0003447,
      "loss": 2.3053,
      "step": 1165
    },
    {
      "epoch": 1.8656000000000001,
      "grad_norm": 0.8483240604400635,
      "learning_rate": 0.00034499999999999993,
      "loss": 2.1876,
      "step": 1166
    },
    {
      "epoch": 1.8672,
      "grad_norm": 0.9150612950325012,
      "learning_rate": 0.0003453,
      "loss": 2.5235,
      "step": 1167
    },
    {
      "epoch": 1.8688,
      "grad_norm": 0.6177669167518616,
      "learning_rate": 0.00034559999999999994,
      "loss": 2.2692,
      "step": 1168
    },
    {
      "epoch": 1.8704,
      "grad_norm": 0.7125779986381531,
      "learning_rate": 0.00034589999999999995,
      "loss": 2.3864,
      "step": 1169
    },
    {
      "epoch": 1.8719999999999999,
      "grad_norm": 0.5423337817192078,
      "learning_rate": 0.00034619999999999996,
      "loss": 2.3914,
      "step": 1170
    },
    {
      "epoch": 1.8736000000000002,
      "grad_norm": 0.8027876019477844,
      "learning_rate": 0.00034649999999999997,
      "loss": 2.2606,
      "step": 1171
    },
    {
      "epoch": 1.8752,
      "grad_norm": 3.676344156265259,
      "learning_rate": 0.0003467999999999999,
      "loss": 2.435,
      "step": 1172
    },
    {
      "epoch": 1.8768,
      "grad_norm": 0.8745720386505127,
      "learning_rate": 0.0003471,
      "loss": 2.4396,
      "step": 1173
    },
    {
      "epoch": 1.8784,
      "grad_norm": 2.438420534133911,
      "learning_rate": 0.00034739999999999993,
      "loss": 2.505,
      "step": 1174
    },
    {
      "epoch": 1.88,
      "grad_norm": NaN,
      "learning_rate": 0.00034739999999999993,
      "loss": 3.2354,
      "step": 1175
    },
    {
      "epoch": 1.8816000000000002,
      "grad_norm": 13.595325469970703,
      "learning_rate": 0.0003477,
      "loss": 3.0164,
      "step": 1176
    },
    {
      "epoch": 1.8832,
      "grad_norm": 4.952884674072266,
      "learning_rate": 0.00034799999999999995,
      "loss": 2.7017,
      "step": 1177
    },
    {
      "epoch": 1.8848,
      "grad_norm": 3.7639901638031006,
      "learning_rate": 0.00034829999999999996,
      "loss": 2.4942,
      "step": 1178
    },
    {
      "epoch": 1.8864,
      "grad_norm": 5.62662935256958,
      "learning_rate": 0.00034859999999999996,
      "loss": 2.7815,
      "step": 1179
    },
    {
      "epoch": 1.888,
      "grad_norm": 1.9343209266662598,
      "learning_rate": 0.00034889999999999997,
      "loss": 2.5347,
      "step": 1180
    },
    {
      "epoch": 1.8896,
      "grad_norm": 0.9629626870155334,
      "learning_rate": 0.0003491999999999999,
      "loss": 2.4285,
      "step": 1181
    },
    {
      "epoch": 1.8912,
      "grad_norm": 3.4893319606781006,
      "learning_rate": 0.0003495,
      "loss": 2.4941,
      "step": 1182
    },
    {
      "epoch": 1.8928,
      "grad_norm": 5.90111780166626,
      "learning_rate": 0.00034979999999999994,
      "loss": 2.3566,
      "step": 1183
    },
    {
      "epoch": 1.8944,
      "grad_norm": 6.313168525695801,
      "learning_rate": 0.0003501,
      "loss": 2.3439,
      "step": 1184
    },
    {
      "epoch": 1.896,
      "grad_norm": 5.150593280792236,
      "learning_rate": 0.00035039999999999995,
      "loss": 2.5063,
      "step": 1185
    },
    {
      "epoch": 1.8976,
      "grad_norm": 5.239500522613525,
      "learning_rate": 0.00035069999999999996,
      "loss": 2.1988,
      "step": 1186
    },
    {
      "epoch": 1.8992,
      "grad_norm": 5.032492160797119,
      "learning_rate": 0.00035099999999999997,
      "loss": 2.47,
      "step": 1187
    },
    {
      "epoch": 1.9008,
      "grad_norm": 4.160557270050049,
      "learning_rate": 0.0003513,
      "loss": 2.477,
      "step": 1188
    },
    {
      "epoch": 1.9024,
      "grad_norm": 2.1352810859680176,
      "learning_rate": 0.0003515999999999999,
      "loss": 2.2105,
      "step": 1189
    },
    {
      "epoch": 1.904,
      "grad_norm": 2.577263832092285,
      "learning_rate": 0.0003519,
      "loss": 2.1445,
      "step": 1190
    },
    {
      "epoch": 1.9056,
      "grad_norm": 1.5833125114440918,
      "learning_rate": 0.00035219999999999994,
      "loss": 2.0875,
      "step": 1191
    },
    {
      "epoch": 1.9072,
      "grad_norm": 0.9110488295555115,
      "learning_rate": 0.0003525,
      "loss": 2.357,
      "step": 1192
    },
    {
      "epoch": 1.9088,
      "grad_norm": 2.1670477390289307,
      "learning_rate": 0.00035279999999999996,
      "loss": 2.2269,
      "step": 1193
    },
    {
      "epoch": 1.9104,
      "grad_norm": 2.896484136581421,
      "learning_rate": 0.00035309999999999996,
      "loss": 2.277,
      "step": 1194
    },
    {
      "epoch": 1.912,
      "grad_norm": 2.396368980407715,
      "learning_rate": 0.00035339999999999997,
      "loss": 2.2654,
      "step": 1195
    },
    {
      "epoch": 1.9136,
      "grad_norm": 2.8805601596832275,
      "learning_rate": 0.0003537,
      "loss": 2.1887,
      "step": 1196
    },
    {
      "epoch": 1.9152,
      "grad_norm": 1.5967847108840942,
      "learning_rate": 0.00035399999999999993,
      "loss": 2.3864,
      "step": 1197
    },
    {
      "epoch": 1.9167999999999998,
      "grad_norm": 3.0907437801361084,
      "learning_rate": 0.0003543,
      "loss": 2.0803,
      "step": 1198
    },
    {
      "epoch": 1.9184,
      "grad_norm": 3.411078691482544,
      "learning_rate": 0.00035459999999999995,
      "loss": 2.4314,
      "step": 1199
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.378351926803589,
      "learning_rate": 0.0003549,
      "loss": 2.2706,
      "step": 1200
    },
    {
      "epoch": 1.9216,
      "grad_norm": 0.8546525835990906,
      "learning_rate": 0.00035519999999999996,
      "loss": 2.0895,
      "step": 1201
    },
    {
      "epoch": 1.9232,
      "grad_norm": 1.635798454284668,
      "learning_rate": 0.00035549999999999997,
      "loss": 2.1679,
      "step": 1202
    },
    {
      "epoch": 1.9247999999999998,
      "grad_norm": 1.9297326803207397,
      "learning_rate": 0.0003558,
      "loss": 2.2493,
      "step": 1203
    },
    {
      "epoch": 1.9264000000000001,
      "grad_norm": 2.8344545364379883,
      "learning_rate": 0.0003561,
      "loss": 2.0785,
      "step": 1204
    },
    {
      "epoch": 1.928,
      "grad_norm": 2.0780208110809326,
      "learning_rate": 0.00035639999999999994,
      "loss": 2.3996,
      "step": 1205
    },
    {
      "epoch": 1.9296,
      "grad_norm": 1.769015908241272,
      "learning_rate": 0.0003567,
      "loss": 1.9828,
      "step": 1206
    },
    {
      "epoch": 1.9312,
      "grad_norm": 1.2962875366210938,
      "learning_rate": 0.00035699999999999995,
      "loss": 2.0324,
      "step": 1207
    },
    {
      "epoch": 1.9327999999999999,
      "grad_norm": 1.9676580429077148,
      "learning_rate": 0.0003573,
      "loss": 2.228,
      "step": 1208
    },
    {
      "epoch": 1.9344000000000001,
      "grad_norm": 1.318317174911499,
      "learning_rate": 0.00035759999999999996,
      "loss": 2.0663,
      "step": 1209
    },
    {
      "epoch": 1.936,
      "grad_norm": 1.430823564529419,
      "learning_rate": 0.00035789999999999997,
      "loss": 2.2146,
      "step": 1210
    },
    {
      "epoch": 1.9376,
      "grad_norm": 1.1980717182159424,
      "learning_rate": 0.0003582,
      "loss": 2.2954,
      "step": 1211
    },
    {
      "epoch": 1.9392,
      "grad_norm": 0.9021552801132202,
      "learning_rate": 0.0003585,
      "loss": 2.3383,
      "step": 1212
    },
    {
      "epoch": 1.9407999999999999,
      "grad_norm": 0.9370974898338318,
      "learning_rate": 0.00035879999999999994,
      "loss": 2.3008,
      "step": 1213
    },
    {
      "epoch": 1.9424000000000001,
      "grad_norm": 0.6908053755760193,
      "learning_rate": 0.0003591,
      "loss": 2.1052,
      "step": 1214
    },
    {
      "epoch": 1.944,
      "grad_norm": 1.6524698734283447,
      "learning_rate": 0.00035939999999999995,
      "loss": 2.4055,
      "step": 1215
    },
    {
      "epoch": 1.9456,
      "grad_norm": 2.5479085445404053,
      "learning_rate": 0.00035969999999999996,
      "loss": 2.4952,
      "step": 1216
    },
    {
      "epoch": 1.9472,
      "grad_norm": 0.8158350586891174,
      "learning_rate": 0.00035999999999999997,
      "loss": 2.0211,
      "step": 1217
    },
    {
      "epoch": 1.9487999999999999,
      "grad_norm": 1.3673202991485596,
      "learning_rate": 0.0003603,
      "loss": 2.3557,
      "step": 1218
    },
    {
      "epoch": 1.9504000000000001,
      "grad_norm": 2.5113394260406494,
      "learning_rate": 0.00036059999999999993,
      "loss": 2.1276,
      "step": 1219
    },
    {
      "epoch": 1.952,
      "grad_norm": 1.964048147201538,
      "learning_rate": 0.0003609,
      "loss": 2.3532,
      "step": 1220
    },
    {
      "epoch": 1.9536,
      "grad_norm": 1.1110976934432983,
      "learning_rate": 0.00036119999999999994,
      "loss": 2.082,
      "step": 1221
    },
    {
      "epoch": 1.9552,
      "grad_norm": 1.0433621406555176,
      "learning_rate": 0.0003615,
      "loss": 2.2084,
      "step": 1222
    },
    {
      "epoch": 1.9567999999999999,
      "grad_norm": 0.9254918694496155,
      "learning_rate": 0.00036179999999999996,
      "loss": 2.5833,
      "step": 1223
    },
    {
      "epoch": 1.9584000000000001,
      "grad_norm": 1.4809350967407227,
      "learning_rate": 0.00036209999999999997,
      "loss": 2.3376,
      "step": 1224
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.355405569076538,
      "learning_rate": 0.00036239999999999997,
      "loss": 3.0309,
      "step": 1225
    },
    {
      "epoch": 1.9616,
      "grad_norm": 17.264118194580078,
      "learning_rate": 0.0003627,
      "loss": 3.2238,
      "step": 1226
    },
    {
      "epoch": 1.9632,
      "grad_norm": 1.5916332006454468,
      "learning_rate": 0.00036299999999999993,
      "loss": 2.3729,
      "step": 1227
    },
    {
      "epoch": 1.9647999999999999,
      "grad_norm": 2.5827670097351074,
      "learning_rate": 0.0003633,
      "loss": 2.4696,
      "step": 1228
    },
    {
      "epoch": 1.9664000000000001,
      "grad_norm": 1.2073217630386353,
      "learning_rate": 0.00036359999999999995,
      "loss": 2.241,
      "step": 1229
    },
    {
      "epoch": 1.968,
      "grad_norm": 1.464860200881958,
      "learning_rate": 0.0003639,
      "loss": 2.3808,
      "step": 1230
    },
    {
      "epoch": 1.9696,
      "grad_norm": 3.0144131183624268,
      "learning_rate": 0.00036419999999999996,
      "loss": 2.1668,
      "step": 1231
    },
    {
      "epoch": 1.9712,
      "grad_norm": 3.701151132583618,
      "learning_rate": 0.00036449999999999997,
      "loss": 2.1334,
      "step": 1232
    },
    {
      "epoch": 1.9727999999999999,
      "grad_norm": 2.9317760467529297,
      "learning_rate": 0.0003648,
      "loss": 2.0689,
      "step": 1233
    },
    {
      "epoch": 1.9744000000000002,
      "grad_norm": 1.4119415283203125,
      "learning_rate": 0.0003651,
      "loss": 1.8842,
      "step": 1234
    },
    {
      "epoch": 1.976,
      "grad_norm": 1.5282409191131592,
      "learning_rate": 0.00036539999999999994,
      "loss": 2.0602,
      "step": 1235
    },
    {
      "epoch": 1.9776,
      "grad_norm": 1.0516180992126465,
      "learning_rate": 0.0003657,
      "loss": 2.1239,
      "step": 1236
    },
    {
      "epoch": 1.9792,
      "grad_norm": 0.7870113253593445,
      "learning_rate": 0.00036599999999999995,
      "loss": 2.1571,
      "step": 1237
    },
    {
      "epoch": 1.9808,
      "grad_norm": 2.4591481685638428,
      "learning_rate": 0.0003663,
      "loss": 1.8778,
      "step": 1238
    },
    {
      "epoch": 1.9824000000000002,
      "grad_norm": 1.552952527999878,
      "learning_rate": 0.00036659999999999997,
      "loss": 2.1993,
      "step": 1239
    },
    {
      "epoch": 1.984,
      "grad_norm": 4.520159721374512,
      "learning_rate": 0.0003669,
      "loss": 2.1846,
      "step": 1240
    },
    {
      "epoch": 1.9856,
      "grad_norm": 2.377891778945923,
      "learning_rate": 0.0003672,
      "loss": 1.9337,
      "step": 1241
    },
    {
      "epoch": 1.9872,
      "grad_norm": 0.9092377424240112,
      "learning_rate": 0.0003675,
      "loss": 2.068,
      "step": 1242
    },
    {
      "epoch": 1.9888,
      "grad_norm": 2.321300506591797,
      "learning_rate": 0.00036779999999999994,
      "loss": 2.0708,
      "step": 1243
    },
    {
      "epoch": 1.9904,
      "grad_norm": 0.7131252884864807,
      "learning_rate": 0.0003681,
      "loss": 2.1614,
      "step": 1244
    },
    {
      "epoch": 1.992,
      "grad_norm": 0.8142818212509155,
      "learning_rate": 0.00036839999999999996,
      "loss": 2.1221,
      "step": 1245
    },
    {
      "epoch": 1.9936,
      "grad_norm": 1.1560027599334717,
      "learning_rate": 0.0003687,
      "loss": 2.434,
      "step": 1246
    },
    {
      "epoch": 1.9952,
      "grad_norm": 2.076456069946289,
      "learning_rate": 0.00036899999999999997,
      "loss": 2.3639,
      "step": 1247
    },
    {
      "epoch": 1.9968,
      "grad_norm": 3.1738593578338623,
      "learning_rate": 0.0003693,
      "loss": 2.463,
      "step": 1248
    },
    {
      "epoch": 1.9984,
      "grad_norm": 1.0733180046081543,
      "learning_rate": 0.0003696,
      "loss": 2.7723,
      "step": 1249
    },
    {
      "epoch": 2.0,
      "grad_norm": 4.47441291809082,
      "learning_rate": 0.0003699,
      "loss": 2.8313,
      "step": 1250
    },
    {
      "epoch": 2.0016,
      "grad_norm": 16.142398834228516,
      "learning_rate": 0.00037019999999999995,
      "loss": 3.2352,
      "step": 1251
    },
    {
      "epoch": 2.0032,
      "grad_norm": 1.3956218957901,
      "learning_rate": 0.0003705,
      "loss": 2.2324,
      "step": 1252
    },
    {
      "epoch": 2.0048,
      "grad_norm": 3.2037904262542725,
      "learning_rate": 0.00037079999999999996,
      "loss": 2.4111,
      "step": 1253
    },
    {
      "epoch": 2.0064,
      "grad_norm": 3.279060125350952,
      "learning_rate": 0.0003711,
      "loss": 2.4119,
      "step": 1254
    },
    {
      "epoch": 2.008,
      "grad_norm": 2.2401888370513916,
      "learning_rate": 0.0003714,
      "loss": 2.1714,
      "step": 1255
    },
    {
      "epoch": 2.0096,
      "grad_norm": 1.0563182830810547,
      "learning_rate": 0.0003717,
      "loss": 2.5566,
      "step": 1256
    },
    {
      "epoch": 2.0112,
      "grad_norm": 2.3503923416137695,
      "learning_rate": 0.000372,
      "loss": 2.2229,
      "step": 1257
    },
    {
      "epoch": 2.0128,
      "grad_norm": 2.3854825496673584,
      "learning_rate": 0.0003723,
      "loss": 2.1712,
      "step": 1258
    },
    {
      "epoch": 2.0144,
      "grad_norm": 1.7842551469802856,
      "learning_rate": 0.00037259999999999995,
      "loss": 2.2321,
      "step": 1259
    },
    {
      "epoch": 2.016,
      "grad_norm": 0.7852015495300293,
      "learning_rate": 0.0003729,
      "loss": 2.3389,
      "step": 1260
    },
    {
      "epoch": 2.0176,
      "grad_norm": 1.1106822490692139,
      "learning_rate": 0.00037319999999999996,
      "loss": 1.9826,
      "step": 1261
    },
    {
      "epoch": 2.0192,
      "grad_norm": 0.7619666457176208,
      "learning_rate": 0.0003735,
      "loss": 1.9273,
      "step": 1262
    },
    {
      "epoch": 2.0208,
      "grad_norm": 0.7985825538635254,
      "learning_rate": 0.0003738,
      "loss": 1.978,
      "step": 1263
    },
    {
      "epoch": 2.0224,
      "grad_norm": 0.5993479490280151,
      "learning_rate": 0.0003741,
      "loss": 2.0277,
      "step": 1264
    },
    {
      "epoch": 2.024,
      "grad_norm": 5.699611186981201,
      "learning_rate": 0.0003744,
      "loss": 2.3771,
      "step": 1265
    },
    {
      "epoch": 2.0256,
      "grad_norm": 1.6110634803771973,
      "learning_rate": 0.0003747,
      "loss": 2.2158,
      "step": 1266
    },
    {
      "epoch": 2.0272,
      "grad_norm": 2.9092864990234375,
      "learning_rate": 0.00037499999999999995,
      "loss": 2.0358,
      "step": 1267
    },
    {
      "epoch": 2.0288,
      "grad_norm": 1.1097922325134277,
      "learning_rate": 0.00037529999999999996,
      "loss": 2.1937,
      "step": 1268
    },
    {
      "epoch": 2.0304,
      "grad_norm": 2.0541391372680664,
      "learning_rate": 0.00037559999999999997,
      "loss": 2.2668,
      "step": 1269
    },
    {
      "epoch": 2.032,
      "grad_norm": 0.8676146268844604,
      "learning_rate": 0.0003758999999999999,
      "loss": 2.0615,
      "step": 1270
    },
    {
      "epoch": 2.0336,
      "grad_norm": 1.396476149559021,
      "learning_rate": 0.0003762,
      "loss": 2.0727,
      "step": 1271
    },
    {
      "epoch": 2.0352,
      "grad_norm": 0.6552128791809082,
      "learning_rate": 0.00037649999999999994,
      "loss": 1.957,
      "step": 1272
    },
    {
      "epoch": 2.0368,
      "grad_norm": 0.5469757318496704,
      "learning_rate": 0.00037679999999999994,
      "loss": 1.9888,
      "step": 1273
    },
    {
      "epoch": 2.0384,
      "grad_norm": 1.1260696649551392,
      "learning_rate": 0.00037709999999999995,
      "loss": 2.0644,
      "step": 1274
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.48484399914741516,
      "learning_rate": 0.00037739999999999996,
      "loss": 2.09,
      "step": 1275
    },
    {
      "epoch": 2.0416,
      "grad_norm": 1.1584820747375488,
      "learning_rate": 0.0003776999999999999,
      "loss": 2.0482,
      "step": 1276
    },
    {
      "epoch": 2.0432,
      "grad_norm": 1.8108872175216675,
      "learning_rate": 0.00037799999999999997,
      "loss": 2.0385,
      "step": 1277
    },
    {
      "epoch": 2.0448,
      "grad_norm": 1.7837122678756714,
      "learning_rate": 0.0003782999999999999,
      "loss": 1.9413,
      "step": 1278
    },
    {
      "epoch": 2.0464,
      "grad_norm": 1.3678404092788696,
      "learning_rate": 0.0003786,
      "loss": 1.968,
      "step": 1279
    },
    {
      "epoch": 2.048,
      "grad_norm": 0.7513062953948975,
      "learning_rate": 0.00037889999999999994,
      "loss": 1.9819,
      "step": 1280
    },
    {
      "epoch": 2.0496,
      "grad_norm": 0.7749692797660828,
      "learning_rate": 0.00037919999999999995,
      "loss": 1.9809,
      "step": 1281
    },
    {
      "epoch": 2.0512,
      "grad_norm": 1.3065149784088135,
      "learning_rate": 0.00037949999999999995,
      "loss": 1.9025,
      "step": 1282
    },
    {
      "epoch": 2.0528,
      "grad_norm": 0.6770661473274231,
      "learning_rate": 0.00037979999999999996,
      "loss": 2.1342,
      "step": 1283
    },
    {
      "epoch": 2.0544,
      "grad_norm": 1.5681331157684326,
      "learning_rate": 0.0003800999999999999,
      "loss": 2.0686,
      "step": 1284
    },
    {
      "epoch": 2.056,
      "grad_norm": 1.1625335216522217,
      "learning_rate": 0.0003804,
      "loss": 2.0118,
      "step": 1285
    },
    {
      "epoch": 2.0576,
      "grad_norm": 0.9901454448699951,
      "learning_rate": 0.00038069999999999993,
      "loss": 2.0614,
      "step": 1286
    },
    {
      "epoch": 2.0592,
      "grad_norm": 1.948578119277954,
      "learning_rate": 0.000381,
      "loss": 2.0299,
      "step": 1287
    },
    {
      "epoch": 2.0608,
      "grad_norm": 1.5582636594772339,
      "learning_rate": 0.00038129999999999994,
      "loss": 2.0481,
      "step": 1288
    },
    {
      "epoch": 2.0624,
      "grad_norm": 1.2568862438201904,
      "learning_rate": 0.00038159999999999995,
      "loss": 2.3433,
      "step": 1289
    },
    {
      "epoch": 2.064,
      "grad_norm": 1.8581323623657227,
      "learning_rate": 0.00038189999999999996,
      "loss": 2.0881,
      "step": 1290
    },
    {
      "epoch": 2.0656,
      "grad_norm": 1.954257607460022,
      "learning_rate": 0.00038219999999999997,
      "loss": 2.6312,
      "step": 1291
    },
    {
      "epoch": 2.0672,
      "grad_norm": 2.38853120803833,
      "learning_rate": 0.0003824999999999999,
      "loss": 1.9754,
      "step": 1292
    },
    {
      "epoch": 2.0688,
      "grad_norm": 0.8991557955741882,
      "learning_rate": 0.0003828,
      "loss": 2.2999,
      "step": 1293
    },
    {
      "epoch": 2.0704,
      "grad_norm": 2.9160866737365723,
      "learning_rate": 0.00038309999999999993,
      "loss": 2.0209,
      "step": 1294
    },
    {
      "epoch": 2.072,
      "grad_norm": 2.4676144123077393,
      "learning_rate": 0.0003834,
      "loss": 2.1019,
      "step": 1295
    },
    {
      "epoch": 2.0736,
      "grad_norm": 1.0132110118865967,
      "learning_rate": 0.00038369999999999995,
      "loss": 2.355,
      "step": 1296
    },
    {
      "epoch": 2.0752,
      "grad_norm": 1.3484665155410767,
      "learning_rate": 0.00038399999999999996,
      "loss": 2.1014,
      "step": 1297
    },
    {
      "epoch": 2.0768,
      "grad_norm": 2.196345567703247,
      "learning_rate": 0.00038429999999999996,
      "loss": 2.1293,
      "step": 1298
    },
    {
      "epoch": 2.0784,
      "grad_norm": 2.6476728916168213,
      "learning_rate": 0.00038459999999999997,
      "loss": 2.347,
      "step": 1299
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.3819998502731323,
      "learning_rate": 0.0003848999999999999,
      "loss": 2.6989,
      "step": 1300
    },
    {
      "epoch": 2.0816,
      "grad_norm": 8.731172561645508,
      "learning_rate": 0.0003852,
      "loss": 2.7856,
      "step": 1301
    },
    {
      "epoch": 2.0832,
      "grad_norm": 11.080965042114258,
      "learning_rate": 0.00038549999999999994,
      "loss": 2.9622,
      "step": 1302
    },
    {
      "epoch": 2.0848,
      "grad_norm": 2.8074939250946045,
      "learning_rate": 0.0003858,
      "loss": 2.3932,
      "step": 1303
    },
    {
      "epoch": 2.0864,
      "grad_norm": 2.6564383506774902,
      "learning_rate": 0.00038609999999999995,
      "loss": 2.2092,
      "step": 1304
    },
    {
      "epoch": 2.088,
      "grad_norm": 4.33972692489624,
      "learning_rate": 0.00038639999999999996,
      "loss": 2.0047,
      "step": 1305
    },
    {
      "epoch": 2.0896,
      "grad_norm": 1.5930198431015015,
      "learning_rate": 0.00038669999999999997,
      "loss": 2.2548,
      "step": 1306
    },
    {
      "epoch": 2.0912,
      "grad_norm": 4.321974754333496,
      "learning_rate": 0.000387,
      "loss": 2.0923,
      "step": 1307
    },
    {
      "epoch": 2.0928,
      "grad_norm": 3.0230000019073486,
      "learning_rate": 0.00038729999999999993,
      "loss": 2.2425,
      "step": 1308
    },
    {
      "epoch": 2.0944,
      "grad_norm": 4.086137294769287,
      "learning_rate": 0.0003876,
      "loss": 1.9095,
      "step": 1309
    },
    {
      "epoch": 2.096,
      "grad_norm": 3.24074387550354,
      "learning_rate": 0.00038789999999999994,
      "loss": 1.9992,
      "step": 1310
    },
    {
      "epoch": 2.0976,
      "grad_norm": 2.870512008666992,
      "learning_rate": 0.0003882,
      "loss": 1.7777,
      "step": 1311
    },
    {
      "epoch": 2.0992,
      "grad_norm": 1.1426403522491455,
      "learning_rate": 0.00038849999999999996,
      "loss": 2.0465,
      "step": 1312
    },
    {
      "epoch": 2.1008,
      "grad_norm": 8.122888565063477,
      "learning_rate": 0.00038879999999999996,
      "loss": 2.5261,
      "step": 1313
    },
    {
      "epoch": 2.1024,
      "grad_norm": 1.0429184436798096,
      "learning_rate": 0.00038909999999999997,
      "loss": 2.1316,
      "step": 1314
    },
    {
      "epoch": 2.104,
      "grad_norm": 2.0756289958953857,
      "learning_rate": 0.0003894,
      "loss": 2.1585,
      "step": 1315
    },
    {
      "epoch": 2.1056,
      "grad_norm": 2.4256415367126465,
      "learning_rate": 0.00038969999999999993,
      "loss": 2.2013,
      "step": 1316
    },
    {
      "epoch": 2.1072,
      "grad_norm": 0.8627563118934631,
      "learning_rate": 0.00039,
      "loss": 1.8589,
      "step": 1317
    },
    {
      "epoch": 2.1088,
      "grad_norm": 1.7571260929107666,
      "learning_rate": 0.00039029999999999995,
      "loss": 1.8394,
      "step": 1318
    },
    {
      "epoch": 2.1104,
      "grad_norm": 1.1963249444961548,
      "learning_rate": 0.00039059999999999995,
      "loss": 2.2086,
      "step": 1319
    },
    {
      "epoch": 2.112,
      "grad_norm": 0.7731038331985474,
      "learning_rate": 0.00039089999999999996,
      "loss": 1.8113,
      "step": 1320
    },
    {
      "epoch": 2.1136,
      "grad_norm": 0.5587062835693359,
      "learning_rate": 0.00039119999999999997,
      "loss": 1.8982,
      "step": 1321
    },
    {
      "epoch": 2.1152,
      "grad_norm": 0.5626364946365356,
      "learning_rate": 0.0003914999999999999,
      "loss": 1.8954,
      "step": 1322
    },
    {
      "epoch": 2.1168,
      "grad_norm": 1.408499002456665,
      "learning_rate": 0.0003918,
      "loss": 1.7425,
      "step": 1323
    },
    {
      "epoch": 2.1184,
      "grad_norm": 1.6526440382003784,
      "learning_rate": 0.00039209999999999994,
      "loss": 2.1664,
      "step": 1324
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.4821324050426483,
      "learning_rate": 0.0003924,
      "loss": 1.9262,
      "step": 1325
    },
    {
      "epoch": 2.1216,
      "grad_norm": 0.7852998375892639,
      "learning_rate": 0.00039269999999999995,
      "loss": 1.6703,
      "step": 1326
    },
    {
      "epoch": 2.1232,
      "grad_norm": 3.967268943786621,
      "learning_rate": 0.00039299999999999996,
      "loss": 1.8964,
      "step": 1327
    },
    {
      "epoch": 2.1248,
      "grad_norm": 0.44754117727279663,
      "learning_rate": 0.00039329999999999996,
      "loss": 2.0235,
      "step": 1328
    },
    {
      "epoch": 2.1264,
      "grad_norm": 0.6954207420349121,
      "learning_rate": 0.00039359999999999997,
      "loss": 1.9802,
      "step": 1329
    },
    {
      "epoch": 2.128,
      "grad_norm": 1.3386781215667725,
      "learning_rate": 0.0003938999999999999,
      "loss": 1.9033,
      "step": 1330
    },
    {
      "epoch": 2.1296,
      "grad_norm": 1.4398391246795654,
      "learning_rate": 0.0003942,
      "loss": 2.1433,
      "step": 1331
    },
    {
      "epoch": 2.1312,
      "grad_norm": 3.3130927085876465,
      "learning_rate": 0.00039449999999999994,
      "loss": 2.2894,
      "step": 1332
    },
    {
      "epoch": 2.1328,
      "grad_norm": 0.6074516177177429,
      "learning_rate": 0.0003948,
      "loss": 1.6613,
      "step": 1333
    },
    {
      "epoch": 2.1344,
      "grad_norm": 0.8905891180038452,
      "learning_rate": 0.00039509999999999995,
      "loss": 1.9249,
      "step": 1334
    },
    {
      "epoch": 2.136,
      "grad_norm": 0.693198025226593,
      "learning_rate": 0.00039539999999999996,
      "loss": 2.1552,
      "step": 1335
    },
    {
      "epoch": 2.1376,
      "grad_norm": 1.595231056213379,
      "learning_rate": 0.00039569999999999997,
      "loss": 2.1719,
      "step": 1336
    },
    {
      "epoch": 2.1391999999999998,
      "grad_norm": 0.9253241419792175,
      "learning_rate": 0.000396,
      "loss": 2.2147,
      "step": 1337
    },
    {
      "epoch": 2.1408,
      "grad_norm": 0.9581746459007263,
      "learning_rate": 0.00039629999999999993,
      "loss": 1.7626,
      "step": 1338
    },
    {
      "epoch": 2.1424,
      "grad_norm": 0.6418152451515198,
      "learning_rate": 0.0003966,
      "loss": 2.1862,
      "step": 1339
    },
    {
      "epoch": 2.144,
      "grad_norm": 2.4077084064483643,
      "learning_rate": 0.00039689999999999994,
      "loss": 1.7163,
      "step": 1340
    },
    {
      "epoch": 2.1456,
      "grad_norm": 0.8226627111434937,
      "learning_rate": 0.0003972,
      "loss": 2.1605,
      "step": 1341
    },
    {
      "epoch": 2.1471999999999998,
      "grad_norm": 0.8403061628341675,
      "learning_rate": 0.00039749999999999996,
      "loss": 1.9728,
      "step": 1342
    },
    {
      "epoch": 2.1488,
      "grad_norm": 0.5522119402885437,
      "learning_rate": 0.00039779999999999997,
      "loss": 1.7164,
      "step": 1343
    },
    {
      "epoch": 2.1504,
      "grad_norm": 0.8088909387588501,
      "learning_rate": 0.0003981,
      "loss": 2.069,
      "step": 1344
    },
    {
      "epoch": 2.152,
      "grad_norm": 0.649395763874054,
      "learning_rate": 0.0003984,
      "loss": 2.0172,
      "step": 1345
    },
    {
      "epoch": 2.1536,
      "grad_norm": 1.245216965675354,
      "learning_rate": 0.00039869999999999993,
      "loss": 2.0648,
      "step": 1346
    },
    {
      "epoch": 2.1552,
      "grad_norm": 2.028209686279297,
      "learning_rate": 0.000399,
      "loss": 2.2123,
      "step": 1347
    },
    {
      "epoch": 2.1568,
      "grad_norm": 1.16299569606781,
      "learning_rate": 0.00039929999999999995,
      "loss": 2.1696,
      "step": 1348
    },
    {
      "epoch": 2.1584,
      "grad_norm": 2.0417158603668213,
      "learning_rate": 0.0003996,
      "loss": 2.5852,
      "step": 1349
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.194480538368225,
      "learning_rate": 0.00039989999999999996,
      "loss": 2.6632,
      "step": 1350
    },
    {
      "epoch": 2.1616,
      "grad_norm": 4.301017761230469,
      "learning_rate": 0.00040019999999999997,
      "loss": 2.2968,
      "step": 1351
    },
    {
      "epoch": 2.1632,
      "grad_norm": 5.509984970092773,
      "learning_rate": 0.0004005,
      "loss": 2.2294,
      "step": 1352
    },
    {
      "epoch": 2.1648,
      "grad_norm": 2.9739537239074707,
      "learning_rate": 0.0004008,
      "loss": 2.4747,
      "step": 1353
    },
    {
      "epoch": 2.1664,
      "grad_norm": 5.930892467498779,
      "learning_rate": 0.00040109999999999994,
      "loss": 2.4353,
      "step": 1354
    },
    {
      "epoch": 2.168,
      "grad_norm": 3.7599174976348877,
      "learning_rate": 0.0004014,
      "loss": 2.3522,
      "step": 1355
    },
    {
      "epoch": 2.1696,
      "grad_norm": 1.8498942852020264,
      "learning_rate": 0.00040169999999999995,
      "loss": 2.6316,
      "step": 1356
    },
    {
      "epoch": 2.1712,
      "grad_norm": 6.10044002532959,
      "learning_rate": 0.000402,
      "loss": 2.7012,
      "step": 1357
    },
    {
      "epoch": 2.1728,
      "grad_norm": 4.401482582092285,
      "learning_rate": 0.00040229999999999997,
      "loss": 2.4794,
      "step": 1358
    },
    {
      "epoch": 2.1744,
      "grad_norm": 5.523442268371582,
      "learning_rate": 0.0004026,
      "loss": 2.4327,
      "step": 1359
    },
    {
      "epoch": 2.176,
      "grad_norm": 4.25037956237793,
      "learning_rate": 0.0004029,
      "loss": 2.2722,
      "step": 1360
    },
    {
      "epoch": 2.1776,
      "grad_norm": 5.356450080871582,
      "learning_rate": 0.0004032,
      "loss": 2.9387,
      "step": 1361
    },
    {
      "epoch": 2.1792,
      "grad_norm": 3.4604556560516357,
      "learning_rate": 0.00040349999999999994,
      "loss": 2.5264,
      "step": 1362
    },
    {
      "epoch": 2.1808,
      "grad_norm": 4.26166296005249,
      "learning_rate": 0.0004038,
      "loss": 2.3071,
      "step": 1363
    },
    {
      "epoch": 2.1824,
      "grad_norm": 4.863035202026367,
      "learning_rate": 0.00040409999999999996,
      "loss": 2.2555,
      "step": 1364
    },
    {
      "epoch": 2.184,
      "grad_norm": 4.790585041046143,
      "learning_rate": 0.0004044,
      "loss": 2.383,
      "step": 1365
    },
    {
      "epoch": 2.1856,
      "grad_norm": 4.248513698577881,
      "learning_rate": 0.00040469999999999997,
      "loss": 2.3042,
      "step": 1366
    },
    {
      "epoch": 2.1872,
      "grad_norm": 3.236246109008789,
      "learning_rate": 0.000405,
      "loss": 2.3719,
      "step": 1367
    },
    {
      "epoch": 2.1888,
      "grad_norm": 1.0238962173461914,
      "learning_rate": 0.00040529999999999993,
      "loss": 2.3266,
      "step": 1368
    },
    {
      "epoch": 2.1904,
      "grad_norm": 0.859204888343811,
      "learning_rate": 0.0004056,
      "loss": 2.3052,
      "step": 1369
    },
    {
      "epoch": 2.192,
      "grad_norm": 0.8815178275108337,
      "learning_rate": 0.00040589999999999995,
      "loss": 2.3872,
      "step": 1370
    },
    {
      "epoch": 2.1936,
      "grad_norm": 1.2759977579116821,
      "learning_rate": 0.0004062,
      "loss": 2.1615,
      "step": 1371
    },
    {
      "epoch": 2.1952,
      "grad_norm": 1.6016004085540771,
      "learning_rate": 0.00040649999999999996,
      "loss": 2.2023,
      "step": 1372
    },
    {
      "epoch": 2.1968,
      "grad_norm": 1.93936026096344,
      "learning_rate": 0.00040679999999999997,
      "loss": 2.1016,
      "step": 1373
    },
    {
      "epoch": 2.1984,
      "grad_norm": 0.9935839772224426,
      "learning_rate": 0.0004071,
      "loss": 2.3746,
      "step": 1374
    },
    {
      "epoch": 2.2,
      "grad_norm": 2.0738706588745117,
      "learning_rate": 0.0004074,
      "loss": 2.1396,
      "step": 1375
    },
    {
      "epoch": 2.2016,
      "grad_norm": 0.7379969954490662,
      "learning_rate": 0.00040769999999999994,
      "loss": 2.0896,
      "step": 1376
    },
    {
      "epoch": 2.2032,
      "grad_norm": 1.2633837461471558,
      "learning_rate": 0.000408,
      "loss": 2.1598,
      "step": 1377
    },
    {
      "epoch": 2.2048,
      "grad_norm": 0.7961741089820862,
      "learning_rate": 0.00040829999999999995,
      "loss": 2.1767,
      "step": 1378
    },
    {
      "epoch": 2.2064,
      "grad_norm": 1.836298942565918,
      "learning_rate": 0.0004086,
      "loss": 2.3359,
      "step": 1379
    },
    {
      "epoch": 2.208,
      "grad_norm": 2.328185796737671,
      "learning_rate": 0.00040889999999999996,
      "loss": 2.3435,
      "step": 1380
    },
    {
      "epoch": 2.2096,
      "grad_norm": 1.825183629989624,
      "learning_rate": 0.00040919999999999997,
      "loss": 2.5522,
      "step": 1381
    },
    {
      "epoch": 2.2112,
      "grad_norm": 0.8028872609138489,
      "learning_rate": 0.0004095,
      "loss": 2.3269,
      "step": 1382
    },
    {
      "epoch": 2.2128,
      "grad_norm": 0.9807519316673279,
      "learning_rate": 0.0004098,
      "loss": 2.4156,
      "step": 1383
    },
    {
      "epoch": 2.2144,
      "grad_norm": 2.0771546363830566,
      "learning_rate": 0.00041009999999999994,
      "loss": 2.0652,
      "step": 1384
    },
    {
      "epoch": 2.216,
      "grad_norm": 2.1903600692749023,
      "learning_rate": 0.0004104,
      "loss": 2.2988,
      "step": 1385
    },
    {
      "epoch": 2.2176,
      "grad_norm": 2.105729579925537,
      "learning_rate": 0.00041069999999999995,
      "loss": 2.3518,
      "step": 1386
    },
    {
      "epoch": 2.2192,
      "grad_norm": 2.26141619682312,
      "learning_rate": 0.000411,
      "loss": 2.4327,
      "step": 1387
    },
    {
      "epoch": 2.2208,
      "grad_norm": 2.7038395404815674,
      "learning_rate": 0.00041129999999999997,
      "loss": 2.2783,
      "step": 1388
    },
    {
      "epoch": 2.2224,
      "grad_norm": 0.9944401383399963,
      "learning_rate": 0.0004116,
      "loss": 2.4459,
      "step": 1389
    },
    {
      "epoch": 2.224,
      "grad_norm": 0.8764882683753967,
      "learning_rate": 0.0004119,
      "loss": 2.3234,
      "step": 1390
    },
    {
      "epoch": 2.2256,
      "grad_norm": 3.0021326541900635,
      "learning_rate": 0.0004122,
      "loss": 2.5689,
      "step": 1391
    },
    {
      "epoch": 2.2272,
      "grad_norm": 2.121433734893799,
      "learning_rate": 0.00041249999999999994,
      "loss": 2.2978,
      "step": 1392
    },
    {
      "epoch": 2.2288,
      "grad_norm": 4.0318121910095215,
      "learning_rate": 0.00041279999999999995,
      "loss": 2.3756,
      "step": 1393
    },
    {
      "epoch": 2.2304,
      "grad_norm": 4.119312763214111,
      "learning_rate": 0.00041309999999999996,
      "loss": 2.4183,
      "step": 1394
    },
    {
      "epoch": 2.232,
      "grad_norm": 6.8856940269470215,
      "learning_rate": 0.0004133999999999999,
      "loss": 2.6106,
      "step": 1395
    },
    {
      "epoch": 2.2336,
      "grad_norm": 5.660776138305664,
      "learning_rate": 0.00041369999999999997,
      "loss": 2.5119,
      "step": 1396
    },
    {
      "epoch": 2.2352,
      "grad_norm": 4.50926399230957,
      "learning_rate": 0.0004139999999999999,
      "loss": 2.1634,
      "step": 1397
    },
    {
      "epoch": 2.2368,
      "grad_norm": 6.12561559677124,
      "learning_rate": 0.0004143,
      "loss": 2.7285,
      "step": 1398
    },
    {
      "epoch": 2.2384,
      "grad_norm": 2.332390546798706,
      "learning_rate": 0.00041459999999999994,
      "loss": 2.4774,
      "step": 1399
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.783649444580078,
      "learning_rate": 0.00041489999999999995,
      "loss": 2.7869,
      "step": 1400
    },
    {
      "epoch": 2.2416,
      "grad_norm": 15.439468383789062,
      "learning_rate": 0.00041519999999999995,
      "loss": 3.6933,
      "step": 1401
    },
    {
      "epoch": 2.2432,
      "grad_norm": 4.923689842224121,
      "learning_rate": 0.00041549999999999996,
      "loss": 2.9789,
      "step": 1402
    },
    {
      "epoch": 2.2448,
      "grad_norm": 10.209508895874023,
      "learning_rate": 0.0004157999999999999,
      "loss": 2.9776,
      "step": 1403
    },
    {
      "epoch": 2.2464,
      "grad_norm": 4.802323818206787,
      "learning_rate": 0.0004161,
      "loss": 2.8077,
      "step": 1404
    },
    {
      "epoch": 2.248,
      "grad_norm": 10.365413665771484,
      "learning_rate": 0.00041639999999999993,
      "loss": 3.0581,
      "step": 1405
    },
    {
      "epoch": 2.2496,
      "grad_norm": 3.0222530364990234,
      "learning_rate": 0.0004167,
      "loss": 2.5003,
      "step": 1406
    },
    {
      "epoch": 2.2512,
      "grad_norm": 4.738245010375977,
      "learning_rate": 0.00041699999999999994,
      "loss": 2.664,
      "step": 1407
    },
    {
      "epoch": 2.2528,
      "grad_norm": 0.694865882396698,
      "learning_rate": 0.00041729999999999995,
      "loss": 2.661,
      "step": 1408
    },
    {
      "epoch": 2.2544,
      "grad_norm": 1.4679259061813354,
      "learning_rate": 0.00041759999999999996,
      "loss": 2.5017,
      "step": 1409
    },
    {
      "epoch": 2.2560000000000002,
      "grad_norm": 3.7848410606384277,
      "learning_rate": 0.00041789999999999997,
      "loss": 2.6454,
      "step": 1410
    },
    {
      "epoch": 2.2576,
      "grad_norm": 2.437657594680786,
      "learning_rate": 0.0004181999999999999,
      "loss": 2.3759,
      "step": 1411
    },
    {
      "epoch": 2.2592,
      "grad_norm": 0.982265830039978,
      "learning_rate": 0.0004185,
      "loss": 2.6115,
      "step": 1412
    },
    {
      "epoch": 2.2608,
      "grad_norm": 5.4903788566589355,
      "learning_rate": 0.00041879999999999993,
      "loss": 2.2263,
      "step": 1413
    },
    {
      "epoch": 2.2624,
      "grad_norm": 6.109436511993408,
      "learning_rate": 0.0004191,
      "loss": 2.2023,
      "step": 1414
    },
    {
      "epoch": 2.2640000000000002,
      "grad_norm": 8.365518569946289,
      "learning_rate": 0.00041939999999999995,
      "loss": 2.5806,
      "step": 1415
    },
    {
      "epoch": 2.2656,
      "grad_norm": 8.561690330505371,
      "learning_rate": 0.00041969999999999996,
      "loss": 2.7747,
      "step": 1416
    },
    {
      "epoch": 2.2672,
      "grad_norm": 8.934793472290039,
      "learning_rate": 0.00041999999999999996,
      "loss": 2.6602,
      "step": 1417
    },
    {
      "epoch": 2.2688,
      "grad_norm": 4.877744197845459,
      "learning_rate": 0.00042029999999999997,
      "loss": 2.6439,
      "step": 1418
    },
    {
      "epoch": 2.2704,
      "grad_norm": 7.499762535095215,
      "learning_rate": 0.0004205999999999999,
      "loss": 2.4732,
      "step": 1419
    },
    {
      "epoch": 2.2720000000000002,
      "grad_norm": 6.877169609069824,
      "learning_rate": 0.0004209,
      "loss": 2.5265,
      "step": 1420
    },
    {
      "epoch": 2.2736,
      "grad_norm": 5.535276889801025,
      "learning_rate": 0.00042119999999999994,
      "loss": 2.3668,
      "step": 1421
    },
    {
      "epoch": 2.2752,
      "grad_norm": 4.566375255584717,
      "learning_rate": 0.00042149999999999995,
      "loss": 2.4487,
      "step": 1422
    },
    {
      "epoch": 2.2768,
      "grad_norm": 2.4168081283569336,
      "learning_rate": 0.00042179999999999995,
      "loss": 2.426,
      "step": 1423
    },
    {
      "epoch": 2.2784,
      "grad_norm": 3.585942506790161,
      "learning_rate": 0.00042209999999999996,
      "loss": 3.1391,
      "step": 1424
    },
    {
      "epoch": 2.2800000000000002,
      "grad_norm": 1.2044767141342163,
      "learning_rate": 0.0004223999999999999,
      "loss": 2.4168,
      "step": 1425
    },
    {
      "epoch": 2.2816,
      "grad_norm": 1.4629987478256226,
      "learning_rate": 0.0004227,
      "loss": 2.2756,
      "step": 1426
    },
    {
      "epoch": 2.2832,
      "grad_norm": 1.5924323797225952,
      "learning_rate": 0.00042299999999999993,
      "loss": 2.2438,
      "step": 1427
    },
    {
      "epoch": 2.2848,
      "grad_norm": 0.9790437817573547,
      "learning_rate": 0.0004233,
      "loss": 2.3787,
      "step": 1428
    },
    {
      "epoch": 2.2864,
      "grad_norm": 2.070406675338745,
      "learning_rate": 0.00042359999999999994,
      "loss": 2.5208,
      "step": 1429
    },
    {
      "epoch": 2.288,
      "grad_norm": 1.5404846668243408,
      "learning_rate": 0.00042389999999999995,
      "loss": 2.2397,
      "step": 1430
    },
    {
      "epoch": 2.2896,
      "grad_norm": 1.684266448020935,
      "learning_rate": 0.00042419999999999996,
      "loss": 2.4266,
      "step": 1431
    },
    {
      "epoch": 2.2912,
      "grad_norm": 2.2368626594543457,
      "learning_rate": 0.00042449999999999996,
      "loss": 2.2046,
      "step": 1432
    },
    {
      "epoch": 2.2928,
      "grad_norm": 1.125388264656067,
      "learning_rate": 0.0004247999999999999,
      "loss": 2.2177,
      "step": 1433
    },
    {
      "epoch": 2.2944,
      "grad_norm": 1.5939106941223145,
      "learning_rate": 0.0004251,
      "loss": 2.3616,
      "step": 1434
    },
    {
      "epoch": 2.296,
      "grad_norm": 1.2981842756271362,
      "learning_rate": 0.00042539999999999993,
      "loss": 2.3863,
      "step": 1435
    },
    {
      "epoch": 2.2976,
      "grad_norm": 0.7831336259841919,
      "learning_rate": 0.0004257,
      "loss": 2.6792,
      "step": 1436
    },
    {
      "epoch": 2.2992,
      "grad_norm": 1.4698004722595215,
      "learning_rate": 0.00042599999999999995,
      "loss": 2.3886,
      "step": 1437
    },
    {
      "epoch": 2.3008,
      "grad_norm": 0.9203685522079468,
      "learning_rate": 0.00042629999999999995,
      "loss": 2.3127,
      "step": 1438
    },
    {
      "epoch": 2.3024,
      "grad_norm": 0.5544130206108093,
      "learning_rate": 0.00042659999999999996,
      "loss": 2.3799,
      "step": 1439
    },
    {
      "epoch": 2.304,
      "grad_norm": 2.3812172412872314,
      "learning_rate": 0.00042689999999999997,
      "loss": 2.4408,
      "step": 1440
    },
    {
      "epoch": 2.3056,
      "grad_norm": 2.6237330436706543,
      "learning_rate": 0.0004271999999999999,
      "loss": 2.3087,
      "step": 1441
    },
    {
      "epoch": 2.3072,
      "grad_norm": 2.7588069438934326,
      "learning_rate": 0.0004275,
      "loss": 2.1371,
      "step": 1442
    },
    {
      "epoch": 2.3088,
      "grad_norm": 0.6106075048446655,
      "learning_rate": 0.00042779999999999994,
      "loss": 2.2978,
      "step": 1443
    },
    {
      "epoch": 2.3104,
      "grad_norm": 0.6980108022689819,
      "learning_rate": 0.0004281,
      "loss": 2.4839,
      "step": 1444
    },
    {
      "epoch": 2.312,
      "grad_norm": 1.6969398260116577,
      "learning_rate": 0.00042839999999999995,
      "loss": 2.5316,
      "step": 1445
    },
    {
      "epoch": 2.3136,
      "grad_norm": 1.0797035694122314,
      "learning_rate": 0.00042869999999999996,
      "loss": 2.3753,
      "step": 1446
    },
    {
      "epoch": 2.3152,
      "grad_norm": 1.6315916776657104,
      "learning_rate": 0.00042899999999999997,
      "loss": 2.9357,
      "step": 1447
    },
    {
      "epoch": 2.3168,
      "grad_norm": 2.026221990585327,
      "learning_rate": 0.00042929999999999997,
      "loss": 2.4578,
      "step": 1448
    },
    {
      "epoch": 2.3184,
      "grad_norm": 1.5287202596664429,
      "learning_rate": 0.0004295999999999999,
      "loss": 2.5209,
      "step": 1449
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.8067626953125,
      "learning_rate": 0.0004299,
      "loss": 3.0858,
      "step": 1450
    },
    {
      "epoch": 2.3216,
      "grad_norm": 16.87346076965332,
      "learning_rate": 0.00043019999999999994,
      "loss": 3.6091,
      "step": 1451
    },
    {
      "epoch": 2.3232,
      "grad_norm": 2.06990385055542,
      "learning_rate": 0.0004305,
      "loss": 2.7344,
      "step": 1452
    },
    {
      "epoch": 2.3247999999999998,
      "grad_norm": 2.008976459503174,
      "learning_rate": 0.00043079999999999995,
      "loss": 2.7445,
      "step": 1453
    },
    {
      "epoch": 2.3264,
      "grad_norm": 1.7746312618255615,
      "learning_rate": 0.00043109999999999996,
      "loss": 2.8305,
      "step": 1454
    },
    {
      "epoch": 2.328,
      "grad_norm": 3.5500175952911377,
      "learning_rate": 0.00043139999999999997,
      "loss": 2.884,
      "step": 1455
    },
    {
      "epoch": 2.3296,
      "grad_norm": 5.436251163482666,
      "learning_rate": 0.0004317,
      "loss": 2.774,
      "step": 1456
    },
    {
      "epoch": 2.3312,
      "grad_norm": 7.481227874755859,
      "learning_rate": 0.00043199999999999993,
      "loss": 2.6914,
      "step": 1457
    },
    {
      "epoch": 2.3327999999999998,
      "grad_norm": 4.893389701843262,
      "learning_rate": 0.0004323,
      "loss": 2.5741,
      "step": 1458
    },
    {
      "epoch": 2.3344,
      "grad_norm": 7.032483100891113,
      "learning_rate": 0.00043259999999999994,
      "loss": 2.5954,
      "step": 1459
    },
    {
      "epoch": 2.336,
      "grad_norm": 6.124364852905273,
      "learning_rate": 0.0004329,
      "loss": 2.6022,
      "step": 1460
    },
    {
      "epoch": 2.3376,
      "grad_norm": 7.075193881988525,
      "learning_rate": 0.00043319999999999996,
      "loss": 2.6718,
      "step": 1461
    },
    {
      "epoch": 2.3392,
      "grad_norm": 4.350131988525391,
      "learning_rate": 0.00043349999999999997,
      "loss": 2.5274,
      "step": 1462
    },
    {
      "epoch": 2.3407999999999998,
      "grad_norm": 1.6107730865478516,
      "learning_rate": 0.0004338,
      "loss": 2.3757,
      "step": 1463
    },
    {
      "epoch": 2.3424,
      "grad_norm": 2.455488443374634,
      "learning_rate": 0.0004341,
      "loss": 2.6995,
      "step": 1464
    },
    {
      "epoch": 2.344,
      "grad_norm": 1.2672028541564941,
      "learning_rate": 0.00043439999999999993,
      "loss": 2.5708,
      "step": 1465
    },
    {
      "epoch": 2.3456,
      "grad_norm": 2.2092881202697754,
      "learning_rate": 0.0004347,
      "loss": 2.5716,
      "step": 1466
    },
    {
      "epoch": 2.3472,
      "grad_norm": 1.2420680522918701,
      "learning_rate": 0.00043499999999999995,
      "loss": 2.294,
      "step": 1467
    },
    {
      "epoch": 2.3487999999999998,
      "grad_norm": 2.2376654148101807,
      "learning_rate": 0.00043529999999999996,
      "loss": 2.2936,
      "step": 1468
    },
    {
      "epoch": 2.3504,
      "grad_norm": 3.4342873096466064,
      "learning_rate": 0.00043559999999999996,
      "loss": 2.4192,
      "step": 1469
    },
    {
      "epoch": 2.352,
      "grad_norm": 5.39082670211792,
      "learning_rate": 0.00043589999999999997,
      "loss": 2.6571,
      "step": 1470
    },
    {
      "epoch": 2.3536,
      "grad_norm": 1.075791597366333,
      "learning_rate": 0.0004361999999999999,
      "loss": 2.2135,
      "step": 1471
    },
    {
      "epoch": 2.3552,
      "grad_norm": 2.4903030395507812,
      "learning_rate": 0.0004365,
      "loss": 2.4113,
      "step": 1472
    },
    {
      "epoch": 2.3568,
      "grad_norm": 2.7636349201202393,
      "learning_rate": 0.00043679999999999994,
      "loss": 2.2446,
      "step": 1473
    },
    {
      "epoch": 2.3584,
      "grad_norm": 3.5851831436157227,
      "learning_rate": 0.0004371,
      "loss": 2.333,
      "step": 1474
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.596482515335083,
      "learning_rate": 0.00043739999999999995,
      "loss": 2.4006,
      "step": 1475
    },
    {
      "epoch": 2.3616,
      "grad_norm": 3.66230845451355,
      "learning_rate": 0.00043769999999999996,
      "loss": 2.336,
      "step": 1476
    },
    {
      "epoch": 2.3632,
      "grad_norm": 3.6934595108032227,
      "learning_rate": 0.00043799999999999997,
      "loss": 2.4821,
      "step": 1477
    },
    {
      "epoch": 2.3648,
      "grad_norm": 1.861146330833435,
      "learning_rate": 0.0004383,
      "loss": 2.3221,
      "step": 1478
    },
    {
      "epoch": 2.3664,
      "grad_norm": 3.078958511352539,
      "learning_rate": 0.00043859999999999993,
      "loss": 2.4531,
      "step": 1479
    },
    {
      "epoch": 2.368,
      "grad_norm": 0.9115749597549438,
      "learning_rate": 0.0004389,
      "loss": 2.3416,
      "step": 1480
    },
    {
      "epoch": 2.3696,
      "grad_norm": 3.4467458724975586,
      "learning_rate": 0.00043919999999999994,
      "loss": 2.2444,
      "step": 1481
    },
    {
      "epoch": 2.3712,
      "grad_norm": 0.5655205845832825,
      "learning_rate": 0.0004395,
      "loss": 2.6449,
      "step": 1482
    },
    {
      "epoch": 2.3728,
      "grad_norm": 3.295214891433716,
      "learning_rate": 0.00043979999999999996,
      "loss": 2.3346,
      "step": 1483
    },
    {
      "epoch": 2.3744,
      "grad_norm": 4.051139831542969,
      "learning_rate": 0.00044009999999999996,
      "loss": 2.2891,
      "step": 1484
    },
    {
      "epoch": 2.376,
      "grad_norm": 1.997973084449768,
      "learning_rate": 0.00044039999999999997,
      "loss": 2.2741,
      "step": 1485
    },
    {
      "epoch": 2.3776,
      "grad_norm": 1.6853876113891602,
      "learning_rate": 0.0004407,
      "loss": 2.4009,
      "step": 1486
    },
    {
      "epoch": 2.3792,
      "grad_norm": 1.9763381481170654,
      "learning_rate": 0.00044099999999999993,
      "loss": 2.3812,
      "step": 1487
    },
    {
      "epoch": 2.3808,
      "grad_norm": 1.633191466331482,
      "learning_rate": 0.0004413,
      "loss": 2.3768,
      "step": 1488
    },
    {
      "epoch": 2.3824,
      "grad_norm": 1.3585143089294434,
      "learning_rate": 0.00044159999999999995,
      "loss": 2.2952,
      "step": 1489
    },
    {
      "epoch": 2.384,
      "grad_norm": 0.6596494913101196,
      "learning_rate": 0.0004419,
      "loss": 2.6077,
      "step": 1490
    },
    {
      "epoch": 2.3856,
      "grad_norm": 1.646826982498169,
      "learning_rate": 0.00044219999999999996,
      "loss": 2.3303,
      "step": 1491
    },
    {
      "epoch": 2.3872,
      "grad_norm": 1.6970372200012207,
      "learning_rate": 0.00044249999999999997,
      "loss": 2.3328,
      "step": 1492
    },
    {
      "epoch": 2.3888,
      "grad_norm": 2.27344012260437,
      "learning_rate": 0.0004428,
      "loss": 2.6301,
      "step": 1493
    },
    {
      "epoch": 2.3904,
      "grad_norm": 0.710404098033905,
      "learning_rate": 0.0004431,
      "loss": 2.4525,
      "step": 1494
    },
    {
      "epoch": 2.392,
      "grad_norm": 0.9620774388313293,
      "learning_rate": 0.00044339999999999994,
      "loss": 2.7767,
      "step": 1495
    },
    {
      "epoch": 2.3936,
      "grad_norm": 1.4343668222427368,
      "learning_rate": 0.0004437,
      "loss": 2.546,
      "step": 1496
    },
    {
      "epoch": 2.3952,
      "grad_norm": 2.0133700370788574,
      "learning_rate": 0.00044399999999999995,
      "loss": 2.7277,
      "step": 1497
    },
    {
      "epoch": 2.3968,
      "grad_norm": 1.0265851020812988,
      "learning_rate": 0.0004443,
      "loss": 2.4666,
      "step": 1498
    },
    {
      "epoch": 2.3984,
      "grad_norm": 4.100027561187744,
      "learning_rate": 0.00044459999999999996,
      "loss": 3.0378,
      "step": 1499
    },
    {
      "epoch": 2.4,
      "grad_norm": 5.678374767303467,
      "learning_rate": 0.00044489999999999997,
      "loss": 3.3142,
      "step": 1500
    },
    {
      "epoch": 2.4016,
      "grad_norm": 4.942265510559082,
      "learning_rate": 0.0004452,
      "loss": 3.2102,
      "step": 1501
    },
    {
      "epoch": 2.4032,
      "grad_norm": 1.7186299562454224,
      "learning_rate": 0.0004455,
      "loss": 2.9047,
      "step": 1502
    },
    {
      "epoch": 2.4048,
      "grad_norm": 2.8937320709228516,
      "learning_rate": 0.00044579999999999994,
      "loss": 3.0197,
      "step": 1503
    },
    {
      "epoch": 2.4064,
      "grad_norm": 3.7428622245788574,
      "learning_rate": 0.0004461,
      "loss": 2.9995,
      "step": 1504
    },
    {
      "epoch": 2.408,
      "grad_norm": 4.141154766082764,
      "learning_rate": 0.00044639999999999995,
      "loss": 2.9252,
      "step": 1505
    },
    {
      "epoch": 2.4096,
      "grad_norm": 4.670098304748535,
      "learning_rate": 0.0004467,
      "loss": 3.0031,
      "step": 1506
    },
    {
      "epoch": 2.4112,
      "grad_norm": 5.129536151885986,
      "learning_rate": 0.00044699999999999997,
      "loss": 2.7867,
      "step": 1507
    },
    {
      "epoch": 2.4128,
      "grad_norm": 5.81210470199585,
      "learning_rate": 0.0004473,
      "loss": 2.9749,
      "step": 1508
    },
    {
      "epoch": 2.4144,
      "grad_norm": 2.4536852836608887,
      "learning_rate": 0.0004476,
      "loss": 2.6915,
      "step": 1509
    },
    {
      "epoch": 2.416,
      "grad_norm": 2.283811569213867,
      "learning_rate": 0.0004479,
      "loss": 2.6715,
      "step": 1510
    },
    {
      "epoch": 2.4176,
      "grad_norm": 1.1368249654769897,
      "learning_rate": 0.00044819999999999994,
      "loss": 2.5841,
      "step": 1511
    },
    {
      "epoch": 2.4192,
      "grad_norm": 2.950226068496704,
      "learning_rate": 0.0004485,
      "loss": 2.7656,
      "step": 1512
    },
    {
      "epoch": 2.4208,
      "grad_norm": 3.2112069129943848,
      "learning_rate": 0.00044879999999999996,
      "loss": 2.5429,
      "step": 1513
    },
    {
      "epoch": 2.4224,
      "grad_norm": 3.645280361175537,
      "learning_rate": 0.0004491,
      "loss": 2.5638,
      "step": 1514
    },
    {
      "epoch": 2.424,
      "grad_norm": 1.3241567611694336,
      "learning_rate": 0.0004494,
      "loss": 2.8091,
      "step": 1515
    },
    {
      "epoch": 2.4256,
      "grad_norm": 2.1697170734405518,
      "learning_rate": 0.0004497,
      "loss": 2.5652,
      "step": 1516
    },
    {
      "epoch": 2.4272,
      "grad_norm": 0.6105273962020874,
      "learning_rate": 0.00045,
      "loss": 2.5103,
      "step": 1517
    },
    {
      "epoch": 2.4288,
      "grad_norm": 0.6202393174171448,
      "learning_rate": 0.00045029999999999994,
      "loss": 2.6103,
      "step": 1518
    },
    {
      "epoch": 2.4304,
      "grad_norm": 1.3199430704116821,
      "learning_rate": 0.00045059999999999995,
      "loss": 2.6113,
      "step": 1519
    },
    {
      "epoch": 2.432,
      "grad_norm": 1.5840743780136108,
      "learning_rate": 0.0004508999999999999,
      "loss": 2.6316,
      "step": 1520
    },
    {
      "epoch": 2.4336,
      "grad_norm": 1.0554815530776978,
      "learning_rate": 0.00045119999999999996,
      "loss": 2.483,
      "step": 1521
    },
    {
      "epoch": 2.4352,
      "grad_norm": 2.019838333129883,
      "learning_rate": 0.0004514999999999999,
      "loss": 2.623,
      "step": 1522
    },
    {
      "epoch": 2.4368,
      "grad_norm": 1.290846586227417,
      "learning_rate": 0.0004518,
      "loss": 2.562,
      "step": 1523
    },
    {
      "epoch": 2.4384,
      "grad_norm": 1.3342317342758179,
      "learning_rate": 0.00045209999999999993,
      "loss": 2.7231,
      "step": 1524
    },
    {
      "epoch": 2.44,
      "grad_norm": 2.423088788986206,
      "learning_rate": 0.00045239999999999994,
      "loss": 2.6006,
      "step": 1525
    },
    {
      "epoch": 2.4416,
      "grad_norm": 1.3409308195114136,
      "learning_rate": 0.00045269999999999994,
      "loss": 2.6124,
      "step": 1526
    },
    {
      "epoch": 2.4432,
      "grad_norm": 1.8538460731506348,
      "learning_rate": 0.00045299999999999995,
      "loss": 2.3889,
      "step": 1527
    },
    {
      "epoch": 2.4448,
      "grad_norm": 1.0645954608917236,
      "learning_rate": 0.0004532999999999999,
      "loss": 2.4413,
      "step": 1528
    },
    {
      "epoch": 2.4464,
      "grad_norm": 1.1003177165985107,
      "learning_rate": 0.00045359999999999997,
      "loss": 2.7019,
      "step": 1529
    },
    {
      "epoch": 2.448,
      "grad_norm": 1.1214135885238647,
      "learning_rate": 0.0004538999999999999,
      "loss": 2.6847,
      "step": 1530
    },
    {
      "epoch": 2.4496,
      "grad_norm": 0.5774716734886169,
      "learning_rate": 0.0004542,
      "loss": 2.7017,
      "step": 1531
    },
    {
      "epoch": 2.4512,
      "grad_norm": 4.226199150085449,
      "learning_rate": 0.00045449999999999993,
      "loss": 2.5284,
      "step": 1532
    },
    {
      "epoch": 2.4528,
      "grad_norm": 1.6718403100967407,
      "learning_rate": 0.00045479999999999994,
      "loss": 2.5032,
      "step": 1533
    },
    {
      "epoch": 2.4544,
      "grad_norm": 0.8635501861572266,
      "learning_rate": 0.00045509999999999995,
      "loss": 2.4638,
      "step": 1534
    },
    {
      "epoch": 2.456,
      "grad_norm": 0.8180009722709656,
      "learning_rate": 0.00045539999999999996,
      "loss": 2.5861,
      "step": 1535
    },
    {
      "epoch": 2.4576000000000002,
      "grad_norm": 1.2235063314437866,
      "learning_rate": 0.0004556999999999999,
      "loss": 2.6967,
      "step": 1536
    },
    {
      "epoch": 2.4592,
      "grad_norm": 1.6099307537078857,
      "learning_rate": 0.00045599999999999997,
      "loss": 2.7573,
      "step": 1537
    },
    {
      "epoch": 2.4608,
      "grad_norm": 0.6623131036758423,
      "learning_rate": 0.0004562999999999999,
      "loss": 2.3741,
      "step": 1538
    },
    {
      "epoch": 2.4624,
      "grad_norm": 0.9379790425300598,
      "learning_rate": 0.0004566,
      "loss": 2.6461,
      "step": 1539
    },
    {
      "epoch": 2.464,
      "grad_norm": 1.9863440990447998,
      "learning_rate": 0.00045689999999999994,
      "loss": 2.5278,
      "step": 1540
    },
    {
      "epoch": 2.4656000000000002,
      "grad_norm": 1.1242375373840332,
      "learning_rate": 0.00045719999999999995,
      "loss": 2.6311,
      "step": 1541
    },
    {
      "epoch": 2.4672,
      "grad_norm": 1.4005846977233887,
      "learning_rate": 0.00045749999999999995,
      "loss": 2.5263,
      "step": 1542
    },
    {
      "epoch": 2.4688,
      "grad_norm": 3.9240052700042725,
      "learning_rate": 0.00045779999999999996,
      "loss": 2.7778,
      "step": 1543
    },
    {
      "epoch": 2.4704,
      "grad_norm": 1.3024487495422363,
      "learning_rate": 0.0004580999999999999,
      "loss": 2.8233,
      "step": 1544
    },
    {
      "epoch": 2.472,
      "grad_norm": 2.5846259593963623,
      "learning_rate": 0.0004584,
      "loss": 2.5476,
      "step": 1545
    },
    {
      "epoch": 2.4736000000000002,
      "grad_norm": 0.9445663690567017,
      "learning_rate": 0.00045869999999999993,
      "loss": 2.7712,
      "step": 1546
    },
    {
      "epoch": 2.4752,
      "grad_norm": 2.509721279144287,
      "learning_rate": 0.000459,
      "loss": 2.6738,
      "step": 1547
    },
    {
      "epoch": 2.4768,
      "grad_norm": 2.4532852172851562,
      "learning_rate": 0.00045929999999999994,
      "loss": 2.7306,
      "step": 1548
    },
    {
      "epoch": 2.4784,
      "grad_norm": 2.668494462966919,
      "learning_rate": 0.00045959999999999995,
      "loss": 2.7596,
      "step": 1549
    },
    {
      "epoch": 2.48,
      "grad_norm": NaN,
      "learning_rate": 0.00045959999999999995,
      "loss": 2.7976,
      "step": 1550
    },
    {
      "epoch": 2.4816,
      "grad_norm": 6.9989013671875,
      "learning_rate": 0.00045989999999999996,
      "loss": 3.2758,
      "step": 1551
    },
    {
      "epoch": 2.4832,
      "grad_norm": 5.862189769744873,
      "learning_rate": 0.00046019999999999996,
      "loss": 3.071,
      "step": 1552
    },
    {
      "epoch": 2.4848,
      "grad_norm": 8.821229934692383,
      "learning_rate": 0.0004604999999999999,
      "loss": 3.192,
      "step": 1553
    },
    {
      "epoch": 2.4864,
      "grad_norm": 5.29599666595459,
      "learning_rate": 0.0004608,
      "loss": 3.1139,
      "step": 1554
    },
    {
      "epoch": 2.488,
      "grad_norm": 3.378632068634033,
      "learning_rate": 0.00046109999999999993,
      "loss": 3.1756,
      "step": 1555
    },
    {
      "epoch": 2.4896,
      "grad_norm": 7.168362140655518,
      "learning_rate": 0.0004614,
      "loss": 3.141,
      "step": 1556
    },
    {
      "epoch": 2.4912,
      "grad_norm": 2.826796770095825,
      "learning_rate": 0.00046169999999999995,
      "loss": 2.991,
      "step": 1557
    },
    {
      "epoch": 2.4928,
      "grad_norm": 1.08731210231781,
      "learning_rate": 0.00046199999999999995,
      "loss": 2.7976,
      "step": 1558
    },
    {
      "epoch": 2.4944,
      "grad_norm": 1.3502941131591797,
      "learning_rate": 0.00046229999999999996,
      "loss": 2.8825,
      "step": 1559
    },
    {
      "epoch": 2.496,
      "grad_norm": 0.9165865182876587,
      "learning_rate": 0.00046259999999999997,
      "loss": 2.7296,
      "step": 1560
    },
    {
      "epoch": 2.4976,
      "grad_norm": 0.846776008605957,
      "learning_rate": 0.0004628999999999999,
      "loss": 2.9291,
      "step": 1561
    },
    {
      "epoch": 2.4992,
      "grad_norm": 1.5572160482406616,
      "learning_rate": 0.0004632,
      "loss": 2.7399,
      "step": 1562
    },
    {
      "epoch": 2.5008,
      "grad_norm": 1.5787986516952515,
      "learning_rate": 0.00046349999999999994,
      "loss": 2.839,
      "step": 1563
    },
    {
      "epoch": 2.5023999999999997,
      "grad_norm": 2.3490312099456787,
      "learning_rate": 0.0004638,
      "loss": 3.2249,
      "step": 1564
    },
    {
      "epoch": 2.504,
      "grad_norm": 5.96341609954834,
      "learning_rate": 0.00046409999999999995,
      "loss": 2.565,
      "step": 1565
    },
    {
      "epoch": 2.5056000000000003,
      "grad_norm": 6.891876697540283,
      "learning_rate": 0.00046439999999999996,
      "loss": 2.7132,
      "step": 1566
    },
    {
      "epoch": 2.5072,
      "grad_norm": 8.918244361877441,
      "learning_rate": 0.00046469999999999997,
      "loss": 2.7519,
      "step": 1567
    },
    {
      "epoch": 2.5088,
      "grad_norm": 9.990086555480957,
      "learning_rate": 0.00046499999999999997,
      "loss": 2.7456,
      "step": 1568
    },
    {
      "epoch": 2.5103999999999997,
      "grad_norm": 8.708830833435059,
      "learning_rate": 0.0004652999999999999,
      "loss": 2.6391,
      "step": 1569
    },
    {
      "epoch": 2.512,
      "grad_norm": 6.798332214355469,
      "learning_rate": 0.0004656,
      "loss": 2.6381,
      "step": 1570
    },
    {
      "epoch": 2.5136,
      "grad_norm": 7.431624412536621,
      "learning_rate": 0.00046589999999999994,
      "loss": 2.6923,
      "step": 1571
    },
    {
      "epoch": 2.5152,
      "grad_norm": 6.813911437988281,
      "learning_rate": 0.00046619999999999995,
      "loss": 2.7874,
      "step": 1572
    },
    {
      "epoch": 2.5168,
      "grad_norm": 3.9901123046875,
      "learning_rate": 0.00046649999999999996,
      "loss": 2.6047,
      "step": 1573
    },
    {
      "epoch": 2.5183999999999997,
      "grad_norm": 2.224478006362915,
      "learning_rate": 0.00046679999999999996,
      "loss": 2.8424,
      "step": 1574
    },
    {
      "epoch": 2.52,
      "grad_norm": 4.089131832122803,
      "learning_rate": 0.0004670999999999999,
      "loss": 2.8194,
      "step": 1575
    },
    {
      "epoch": 2.5216,
      "grad_norm": 2.967945098876953,
      "learning_rate": 0.0004674,
      "loss": 2.6133,
      "step": 1576
    },
    {
      "epoch": 2.5232,
      "grad_norm": 2.259937286376953,
      "learning_rate": 0.00046769999999999993,
      "loss": 2.6445,
      "step": 1577
    },
    {
      "epoch": 2.5248,
      "grad_norm": 2.3867623805999756,
      "learning_rate": 0.000468,
      "loss": 2.6527,
      "step": 1578
    },
    {
      "epoch": 2.5263999999999998,
      "grad_norm": 0.7020841836929321,
      "learning_rate": 0.00046829999999999994,
      "loss": 2.6492,
      "step": 1579
    },
    {
      "epoch": 2.528,
      "grad_norm": 2.115121841430664,
      "learning_rate": 0.00046859999999999995,
      "loss": 2.5377,
      "step": 1580
    },
    {
      "epoch": 2.5296,
      "grad_norm": 1.013954997062683,
      "learning_rate": 0.00046889999999999996,
      "loss": 2.4602,
      "step": 1581
    },
    {
      "epoch": 2.5312,
      "grad_norm": 5.609471797943115,
      "learning_rate": 0.00046919999999999997,
      "loss": 2.7264,
      "step": 1582
    },
    {
      "epoch": 2.5328,
      "grad_norm": 1.7620587348937988,
      "learning_rate": 0.0004694999999999999,
      "loss": 2.7404,
      "step": 1583
    },
    {
      "epoch": 2.5343999999999998,
      "grad_norm": 2.578216075897217,
      "learning_rate": 0.0004698,
      "loss": 2.6936,
      "step": 1584
    },
    {
      "epoch": 2.536,
      "grad_norm": 2.9530296325683594,
      "learning_rate": 0.00047009999999999993,
      "loss": 2.7589,
      "step": 1585
    },
    {
      "epoch": 2.5376,
      "grad_norm": 2.248521566390991,
      "learning_rate": 0.0004704,
      "loss": 2.6856,
      "step": 1586
    },
    {
      "epoch": 2.5392,
      "grad_norm": 0.7185359001159668,
      "learning_rate": 0.00047069999999999995,
      "loss": 2.5873,
      "step": 1587
    },
    {
      "epoch": 2.5408,
      "grad_norm": 0.950563371181488,
      "learning_rate": 0.00047099999999999996,
      "loss": 2.702,
      "step": 1588
    },
    {
      "epoch": 2.5423999999999998,
      "grad_norm": 4.2564191818237305,
      "learning_rate": 0.00047129999999999996,
      "loss": 2.5006,
      "step": 1589
    },
    {
      "epoch": 2.544,
      "grad_norm": 0.7628245949745178,
      "learning_rate": 0.00047159999999999997,
      "loss": 2.6586,
      "step": 1590
    },
    {
      "epoch": 2.5456,
      "grad_norm": 3.4643051624298096,
      "learning_rate": 0.0004718999999999999,
      "loss": 2.5925,
      "step": 1591
    },
    {
      "epoch": 2.5472,
      "grad_norm": 2.054396152496338,
      "learning_rate": 0.0004722,
      "loss": 2.6902,
      "step": 1592
    },
    {
      "epoch": 2.5488,
      "grad_norm": 1.0989121198654175,
      "learning_rate": 0.00047249999999999994,
      "loss": 2.4568,
      "step": 1593
    },
    {
      "epoch": 2.5504,
      "grad_norm": 2.788877248764038,
      "learning_rate": 0.0004728,
      "loss": 2.4971,
      "step": 1594
    },
    {
      "epoch": 2.552,
      "grad_norm": 2.4059903621673584,
      "learning_rate": 0.00047309999999999995,
      "loss": 2.6616,
      "step": 1595
    },
    {
      "epoch": 2.5536,
      "grad_norm": 2.420016288757324,
      "learning_rate": 0.00047339999999999996,
      "loss": 2.6371,
      "step": 1596
    },
    {
      "epoch": 2.5552,
      "grad_norm": 3.306741952896118,
      "learning_rate": 0.00047369999999999997,
      "loss": 2.7256,
      "step": 1597
    },
    {
      "epoch": 2.5568,
      "grad_norm": 1.3698875904083252,
      "learning_rate": 0.000474,
      "loss": 2.6461,
      "step": 1598
    },
    {
      "epoch": 2.5584,
      "grad_norm": 3.0524322986602783,
      "learning_rate": 0.00047429999999999993,
      "loss": 2.8663,
      "step": 1599
    },
    {
      "epoch": 2.56,
      "grad_norm": 4.398044586181641,
      "learning_rate": 0.0004746,
      "loss": 3.3413,
      "step": 1600
    },
    {
      "epoch": 2.5616,
      "grad_norm": 11.20898151397705,
      "learning_rate": 0.00047489999999999994,
      "loss": 3.4181,
      "step": 1601
    },
    {
      "epoch": 2.5632,
      "grad_norm": 2.485570192337036,
      "learning_rate": 0.0004752,
      "loss": 2.9986,
      "step": 1602
    },
    {
      "epoch": 2.5648,
      "grad_norm": 9.538570404052734,
      "learning_rate": 0.00047549999999999996,
      "loss": 3.2206,
      "step": 1603
    },
    {
      "epoch": 2.5664,
      "grad_norm": 4.369180679321289,
      "learning_rate": 0.00047579999999999996,
      "loss": 2.9533,
      "step": 1604
    },
    {
      "epoch": 2.568,
      "grad_norm": 9.760275840759277,
      "learning_rate": 0.00047609999999999997,
      "loss": 3.2309,
      "step": 1605
    },
    {
      "epoch": 2.5696,
      "grad_norm": 1.91250741481781,
      "learning_rate": 0.0004764,
      "loss": 2.7691,
      "step": 1606
    },
    {
      "epoch": 2.5712,
      "grad_norm": 0.9459549188613892,
      "learning_rate": 0.00047669999999999993,
      "loss": 2.8651,
      "step": 1607
    },
    {
      "epoch": 2.5728,
      "grad_norm": 0.77849942445755,
      "learning_rate": 0.000477,
      "loss": 2.9374,
      "step": 1608
    },
    {
      "epoch": 2.5744,
      "grad_norm": 3.6616194248199463,
      "learning_rate": 0.00047729999999999995,
      "loss": 2.8133,
      "step": 1609
    },
    {
      "epoch": 2.576,
      "grad_norm": 3.393961191177368,
      "learning_rate": 0.0004776,
      "loss": 2.7227,
      "step": 1610
    },
    {
      "epoch": 2.5776,
      "grad_norm": 1.0827534198760986,
      "learning_rate": 0.00047789999999999996,
      "loss": 2.9257,
      "step": 1611
    },
    {
      "epoch": 2.5792,
      "grad_norm": 1.3316205739974976,
      "learning_rate": 0.00047819999999999997,
      "loss": 2.7961,
      "step": 1612
    },
    {
      "epoch": 2.5808,
      "grad_norm": 2.686330795288086,
      "learning_rate": 0.0004785,
      "loss": 2.6238,
      "step": 1613
    },
    {
      "epoch": 2.5824,
      "grad_norm": 0.7391074895858765,
      "learning_rate": 0.0004788,
      "loss": 2.5468,
      "step": 1614
    },
    {
      "epoch": 2.584,
      "grad_norm": 3.1132357120513916,
      "learning_rate": 0.00047909999999999994,
      "loss": 2.5595,
      "step": 1615
    },
    {
      "epoch": 2.5856,
      "grad_norm": 1.5804221630096436,
      "learning_rate": 0.0004794,
      "loss": 2.6619,
      "step": 1616
    },
    {
      "epoch": 2.5872,
      "grad_norm": 0.633274257183075,
      "learning_rate": 0.00047969999999999995,
      "loss": 2.6271,
      "step": 1617
    },
    {
      "epoch": 2.5888,
      "grad_norm": 0.8176840543746948,
      "learning_rate": 0.00047999999999999996,
      "loss": 2.6379,
      "step": 1618
    },
    {
      "epoch": 2.5904,
      "grad_norm": 0.6381813287734985,
      "learning_rate": 0.00048029999999999997,
      "loss": 2.6628,
      "step": 1619
    },
    {
      "epoch": 2.592,
      "grad_norm": 0.7543144226074219,
      "learning_rate": 0.00048059999999999997,
      "loss": 2.6104,
      "step": 1620
    },
    {
      "epoch": 2.5936,
      "grad_norm": 1.0972641706466675,
      "learning_rate": 0.0004808999999999999,
      "loss": 2.6753,
      "step": 1621
    },
    {
      "epoch": 2.5952,
      "grad_norm": 1.9060057401657104,
      "learning_rate": 0.0004812,
      "loss": 2.5652,
      "step": 1622
    },
    {
      "epoch": 2.5968,
      "grad_norm": 1.4949616193771362,
      "learning_rate": 0.00048149999999999994,
      "loss": 2.6658,
      "step": 1623
    },
    {
      "epoch": 2.5984,
      "grad_norm": 1.245529055595398,
      "learning_rate": 0.0004818,
      "loss": 2.6667,
      "step": 1624
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.5955816507339478,
      "learning_rate": 0.00048209999999999995,
      "loss": 2.6539,
      "step": 1625
    },
    {
      "epoch": 2.6016,
      "grad_norm": 4.172550201416016,
      "learning_rate": 0.00048239999999999996,
      "loss": 2.6025,
      "step": 1626
    },
    {
      "epoch": 2.6032,
      "grad_norm": 1.587763786315918,
      "learning_rate": 0.00048269999999999997,
      "loss": 2.5869,
      "step": 1627
    },
    {
      "epoch": 2.6048,
      "grad_norm": 1.7045336961746216,
      "learning_rate": 0.000483,
      "loss": 2.5114,
      "step": 1628
    },
    {
      "epoch": 2.6064,
      "grad_norm": 1.0802538394927979,
      "learning_rate": 0.00048329999999999993,
      "loss": 2.6275,
      "step": 1629
    },
    {
      "epoch": 2.608,
      "grad_norm": 1.2180992364883423,
      "learning_rate": 0.0004836,
      "loss": 2.6264,
      "step": 1630
    },
    {
      "epoch": 2.6096,
      "grad_norm": 0.6582339406013489,
      "learning_rate": 0.00048389999999999994,
      "loss": 2.6329,
      "step": 1631
    },
    {
      "epoch": 2.6112,
      "grad_norm": 0.9185123443603516,
      "learning_rate": 0.0004842,
      "loss": 2.5624,
      "step": 1632
    },
    {
      "epoch": 2.6128,
      "grad_norm": 0.6815674304962158,
      "learning_rate": 0.00048449999999999996,
      "loss": 2.4889,
      "step": 1633
    },
    {
      "epoch": 2.6144,
      "grad_norm": 1.176547646522522,
      "learning_rate": 0.00048479999999999997,
      "loss": 2.5491,
      "step": 1634
    },
    {
      "epoch": 2.616,
      "grad_norm": 7.645500659942627,
      "learning_rate": 0.0004851,
      "loss": 2.5999,
      "step": 1635
    },
    {
      "epoch": 2.6176,
      "grad_norm": 0.7159596681594849,
      "learning_rate": 0.0004854,
      "loss": 2.6153,
      "step": 1636
    },
    {
      "epoch": 2.6192,
      "grad_norm": 0.8762513995170593,
      "learning_rate": 0.00048569999999999993,
      "loss": 2.4501,
      "step": 1637
    },
    {
      "epoch": 2.6208,
      "grad_norm": 2.3339498043060303,
      "learning_rate": 0.000486,
      "loss": 2.7459,
      "step": 1638
    },
    {
      "epoch": 2.6224,
      "grad_norm": 3.838904619216919,
      "learning_rate": 0.00048629999999999995,
      "loss": 2.7411,
      "step": 1639
    },
    {
      "epoch": 2.624,
      "grad_norm": 2.539436101913452,
      "learning_rate": 0.0004866,
      "loss": 2.4974,
      "step": 1640
    },
    {
      "epoch": 2.6256,
      "grad_norm": 1.0629886388778687,
      "learning_rate": 0.00048689999999999996,
      "loss": 2.6559,
      "step": 1641
    },
    {
      "epoch": 2.6272,
      "grad_norm": 0.8675243258476257,
      "learning_rate": 0.00048719999999999997,
      "loss": 2.5446,
      "step": 1642
    },
    {
      "epoch": 2.6288,
      "grad_norm": 1.6415584087371826,
      "learning_rate": 0.0004875,
      "loss": 2.3971,
      "step": 1643
    },
    {
      "epoch": 2.6304,
      "grad_norm": 0.995968222618103,
      "learning_rate": 0.00048779999999999993,
      "loss": 2.5962,
      "step": 1644
    },
    {
      "epoch": 2.632,
      "grad_norm": 0.7832150459289551,
      "learning_rate": 0.00048809999999999994,
      "loss": 2.6166,
      "step": 1645
    },
    {
      "epoch": 2.6336,
      "grad_norm": 2.025477170944214,
      "learning_rate": 0.0004883999999999999,
      "loss": 2.7621,
      "step": 1646
    },
    {
      "epoch": 2.6352,
      "grad_norm": 1.517505407333374,
      "learning_rate": 0.0004887,
      "loss": 2.8696,
      "step": 1647
    },
    {
      "epoch": 2.6368,
      "grad_norm": 1.3974066972732544,
      "learning_rate": 0.000489,
      "loss": 2.6362,
      "step": 1648
    },
    {
      "epoch": 2.6384,
      "grad_norm": 1.3067556619644165,
      "learning_rate": 0.0004892999999999999,
      "loss": 2.6683,
      "step": 1649
    },
    {
      "epoch": 2.64,
      "grad_norm": NaN,
      "learning_rate": 0.0004892999999999999,
      "loss": 2.3979,
      "step": 1650
    },
    {
      "epoch": 2.6416,
      "grad_norm": 7.526185035705566,
      "learning_rate": 0.0004896,
      "loss": 3.2359,
      "step": 1651
    },
    {
      "epoch": 2.6432,
      "grad_norm": 1.8751859664916992,
      "learning_rate": 0.0004898999999999999,
      "loss": 3.0194,
      "step": 1652
    },
    {
      "epoch": 2.6448,
      "grad_norm": 1.6169847249984741,
      "learning_rate": 0.0004901999999999999,
      "loss": 2.9794,
      "step": 1653
    },
    {
      "epoch": 2.6464,
      "grad_norm": 3.470064878463745,
      "learning_rate": 0.0004904999999999999,
      "loss": 3.23,
      "step": 1654
    },
    {
      "epoch": 2.648,
      "grad_norm": 1.2958786487579346,
      "learning_rate": 0.0004907999999999999,
      "loss": 3.0643,
      "step": 1655
    },
    {
      "epoch": 2.6496,
      "grad_norm": 3.670785903930664,
      "learning_rate": 0.0004911,
      "loss": 2.6688,
      "step": 1656
    },
    {
      "epoch": 2.6512000000000002,
      "grad_norm": 5.36950159072876,
      "learning_rate": 0.0004913999999999999,
      "loss": 2.6845,
      "step": 1657
    },
    {
      "epoch": 2.6528,
      "grad_norm": 5.3715338706970215,
      "learning_rate": 0.0004917,
      "loss": 2.807,
      "step": 1658
    },
    {
      "epoch": 2.6544,
      "grad_norm": 1.8697935342788696,
      "learning_rate": 0.0004919999999999999,
      "loss": 2.984,
      "step": 1659
    },
    {
      "epoch": 2.656,
      "grad_norm": 2.8437161445617676,
      "learning_rate": 0.0004923,
      "loss": 2.7468,
      "step": 1660
    },
    {
      "epoch": 2.6576,
      "grad_norm": 1.6597505807876587,
      "learning_rate": 0.0004925999999999999,
      "loss": 2.6693,
      "step": 1661
    },
    {
      "epoch": 2.6592000000000002,
      "grad_norm": 1.2704110145568848,
      "learning_rate": 0.0004929,
      "loss": 2.7273,
      "step": 1662
    },
    {
      "epoch": 2.6608,
      "grad_norm": 1.4806967973709106,
      "learning_rate": 0.0004932,
      "loss": 2.6624,
      "step": 1663
    },
    {
      "epoch": 2.6624,
      "grad_norm": 3.6257212162017822,
      "learning_rate": 0.0004935,
      "loss": 2.7391,
      "step": 1664
    },
    {
      "epoch": 2.664,
      "grad_norm": 3.1111960411071777,
      "learning_rate": 0.0004938,
      "loss": 2.5829,
      "step": 1665
    },
    {
      "epoch": 2.6656,
      "grad_norm": 3.902526617050171,
      "learning_rate": 0.0004940999999999999,
      "loss": 2.5868,
      "step": 1666
    },
    {
      "epoch": 2.6672000000000002,
      "grad_norm": 5.665694236755371,
      "learning_rate": 0.0004944,
      "loss": 2.7117,
      "step": 1667
    },
    {
      "epoch": 2.6688,
      "grad_norm": 2.3080103397369385,
      "learning_rate": 0.0004946999999999999,
      "loss": 2.512,
      "step": 1668
    },
    {
      "epoch": 2.6704,
      "grad_norm": 1.7370351552963257,
      "learning_rate": 0.0004949999999999999,
      "loss": 2.5534,
      "step": 1669
    },
    {
      "epoch": 2.672,
      "grad_norm": 1.2155604362487793,
      "learning_rate": 0.0004953,
      "loss": 2.5723,
      "step": 1670
    },
    {
      "epoch": 2.6736,
      "grad_norm": 1.4938063621520996,
      "learning_rate": 0.0004955999999999999,
      "loss": 2.4879,
      "step": 1671
    },
    {
      "epoch": 2.6752000000000002,
      "grad_norm": 4.0337419509887695,
      "learning_rate": 0.0004959,
      "loss": 2.6292,
      "step": 1672
    },
    {
      "epoch": 2.6768,
      "grad_norm": 2.6993560791015625,
      "learning_rate": 0.0004961999999999999,
      "loss": 2.7822,
      "step": 1673
    },
    {
      "epoch": 2.6784,
      "grad_norm": 1.474229097366333,
      "learning_rate": 0.0004965,
      "loss": 2.5086,
      "step": 1674
    },
    {
      "epoch": 2.68,
      "grad_norm": 2.241969108581543,
      "learning_rate": 0.0004967999999999999,
      "loss": 2.408,
      "step": 1675
    },
    {
      "epoch": 2.6816,
      "grad_norm": 1.253790259361267,
      "learning_rate": 0.0004971,
      "loss": 2.5079,
      "step": 1676
    },
    {
      "epoch": 2.6832000000000003,
      "grad_norm": 2.400538206100464,
      "learning_rate": 0.0004974,
      "loss": 2.5499,
      "step": 1677
    },
    {
      "epoch": 2.6848,
      "grad_norm": 2.866384267807007,
      "learning_rate": 0.0004977,
      "loss": 2.4777,
      "step": 1678
    },
    {
      "epoch": 2.6864,
      "grad_norm": 3.607046604156494,
      "learning_rate": 0.000498,
      "loss": 2.4503,
      "step": 1679
    },
    {
      "epoch": 2.6879999999999997,
      "grad_norm": 4.765000343322754,
      "learning_rate": 0.0004982999999999999,
      "loss": 2.5933,
      "step": 1680
    },
    {
      "epoch": 2.6896,
      "grad_norm": 2.517519950866699,
      "learning_rate": 0.0004986,
      "loss": 2.5683,
      "step": 1681
    },
    {
      "epoch": 2.6912000000000003,
      "grad_norm": 0.8712690472602844,
      "learning_rate": 0.0004988999999999999,
      "loss": 2.7788,
      "step": 1682
    },
    {
      "epoch": 2.6928,
      "grad_norm": 1.0803961753845215,
      "learning_rate": 0.0004991999999999999,
      "loss": 2.4722,
      "step": 1683
    },
    {
      "epoch": 2.6944,
      "grad_norm": 0.6999735832214355,
      "learning_rate": 0.0004994999999999999,
      "loss": 2.486,
      "step": 1684
    },
    {
      "epoch": 2.6959999999999997,
      "grad_norm": 1.2827504873275757,
      "learning_rate": 0.0004997999999999999,
      "loss": 2.48,
      "step": 1685
    },
    {
      "epoch": 2.6976,
      "grad_norm": 0.8345691561698914,
      "learning_rate": 0.0005001,
      "loss": 2.3659,
      "step": 1686
    },
    {
      "epoch": 2.6992000000000003,
      "grad_norm": 0.798511266708374,
      "learning_rate": 0.0005003999999999999,
      "loss": 2.4629,
      "step": 1687
    },
    {
      "epoch": 2.7008,
      "grad_norm": 1.9487131834030151,
      "learning_rate": 0.0005007,
      "loss": 2.523,
      "step": 1688
    },
    {
      "epoch": 2.7024,
      "grad_norm": 0.9477632641792297,
      "learning_rate": 0.0005009999999999999,
      "loss": 2.4581,
      "step": 1689
    },
    {
      "epoch": 2.7039999999999997,
      "grad_norm": 1.6193513870239258,
      "learning_rate": 0.0005013,
      "loss": 2.5933,
      "step": 1690
    },
    {
      "epoch": 2.7056,
      "grad_norm": 1.8013644218444824,
      "learning_rate": 0.0005015999999999999,
      "loss": 2.8349,
      "step": 1691
    },
    {
      "epoch": 2.7072000000000003,
      "grad_norm": 2.3376691341400146,
      "learning_rate": 0.0005019,
      "loss": 2.8021,
      "step": 1692
    },
    {
      "epoch": 2.7088,
      "grad_norm": 3.678694009780884,
      "learning_rate": 0.0005022,
      "loss": 2.6318,
      "step": 1693
    },
    {
      "epoch": 2.7104,
      "grad_norm": 1.4150782823562622,
      "learning_rate": 0.0005025,
      "loss": 2.8046,
      "step": 1694
    },
    {
      "epoch": 2.7119999999999997,
      "grad_norm": 3.379930019378662,
      "learning_rate": 0.0005028,
      "loss": 2.7794,
      "step": 1695
    },
    {
      "epoch": 2.7136,
      "grad_norm": 1.2813504934310913,
      "learning_rate": 0.0005030999999999999,
      "loss": 2.6174,
      "step": 1696
    },
    {
      "epoch": 2.7152,
      "grad_norm": 0.9052807688713074,
      "learning_rate": 0.0005034,
      "loss": 2.9687,
      "step": 1697
    },
    {
      "epoch": 2.7168,
      "grad_norm": 2.1118052005767822,
      "learning_rate": 0.0005036999999999999,
      "loss": 2.773,
      "step": 1698
    },
    {
      "epoch": 2.7184,
      "grad_norm": 1.609099268913269,
      "learning_rate": 0.0005039999999999999,
      "loss": 2.7635,
      "step": 1699
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": NaN,
      "learning_rate": 0.0005039999999999999,
      "loss": 3.1193,
      "step": 1700
    },
    {
      "epoch": 2.7216,
      "grad_norm": 13.232641220092773,
      "learning_rate": 0.0005043,
      "loss": 3.4776,
      "step": 1701
    },
    {
      "epoch": 2.7232,
      "grad_norm": 7.2539873123168945,
      "learning_rate": 0.0005045999999999999,
      "loss": 3.0714,
      "step": 1702
    },
    {
      "epoch": 2.7248,
      "grad_norm": 5.081768035888672,
      "learning_rate": 0.0005049,
      "loss": 3.1389,
      "step": 1703
    },
    {
      "epoch": 2.7264,
      "grad_norm": 2.3188507556915283,
      "learning_rate": 0.0005051999999999999,
      "loss": 3.0545,
      "step": 1704
    },
    {
      "epoch": 2.7279999999999998,
      "grad_norm": 3.5873944759368896,
      "learning_rate": 0.0005055,
      "loss": 3.0174,
      "step": 1705
    },
    {
      "epoch": 2.7296,
      "grad_norm": 4.156705379486084,
      "learning_rate": 0.0005057999999999999,
      "loss": 2.8348,
      "step": 1706
    },
    {
      "epoch": 2.7312,
      "grad_norm": 2.0585386753082275,
      "learning_rate": 0.0005061,
      "loss": 2.9599,
      "step": 1707
    },
    {
      "epoch": 2.7328,
      "grad_norm": 4.402909278869629,
      "learning_rate": 0.0005064,
      "loss": 2.9435,
      "step": 1708
    },
    {
      "epoch": 2.7344,
      "grad_norm": 1.3773367404937744,
      "learning_rate": 0.0005067,
      "loss": 2.7322,
      "step": 1709
    },
    {
      "epoch": 2.7359999999999998,
      "grad_norm": 1.3306688070297241,
      "learning_rate": 0.000507,
      "loss": 2.6582,
      "step": 1710
    },
    {
      "epoch": 2.7376,
      "grad_norm": 6.887178897857666,
      "learning_rate": 0.0005073,
      "loss": 2.7469,
      "step": 1711
    },
    {
      "epoch": 2.7392,
      "grad_norm": 5.434063911437988,
      "learning_rate": 0.0005076,
      "loss": 2.7386,
      "step": 1712
    },
    {
      "epoch": 2.7408,
      "grad_norm": 2.059262275695801,
      "learning_rate": 0.0005078999999999999,
      "loss": 2.7037,
      "step": 1713
    },
    {
      "epoch": 2.7424,
      "grad_norm": 3.2821879386901855,
      "learning_rate": 0.0005082,
      "loss": 2.6632,
      "step": 1714
    },
    {
      "epoch": 2.7439999999999998,
      "grad_norm": 1.6987167596817017,
      "learning_rate": 0.0005085,
      "loss": 2.8453,
      "step": 1715
    },
    {
      "epoch": 2.7456,
      "grad_norm": 1.0021125078201294,
      "learning_rate": 0.0005087999999999999,
      "loss": 2.7244,
      "step": 1716
    },
    {
      "epoch": 2.7472,
      "grad_norm": 1.5165038108825684,
      "learning_rate": 0.0005091,
      "loss": 2.6291,
      "step": 1717
    },
    {
      "epoch": 2.7488,
      "grad_norm": 5.8641767501831055,
      "learning_rate": 0.0005093999999999999,
      "loss": 2.8931,
      "step": 1718
    },
    {
      "epoch": 2.7504,
      "grad_norm": 1.7871204614639282,
      "learning_rate": 0.0005097,
      "loss": 2.586,
      "step": 1719
    },
    {
      "epoch": 2.752,
      "grad_norm": 1.9642881155014038,
      "learning_rate": 0.0005099999999999999,
      "loss": 2.593,
      "step": 1720
    },
    {
      "epoch": 2.7536,
      "grad_norm": 1.1813987493515015,
      "learning_rate": 0.0005103,
      "loss": 2.6729,
      "step": 1721
    },
    {
      "epoch": 2.7552,
      "grad_norm": 1.2921805381774902,
      "learning_rate": 0.0005105999999999999,
      "loss": 2.4355,
      "step": 1722
    },
    {
      "epoch": 2.7568,
      "grad_norm": 0.7591195702552795,
      "learning_rate": 0.0005109,
      "loss": 2.5492,
      "step": 1723
    },
    {
      "epoch": 2.7584,
      "grad_norm": 0.9900460243225098,
      "learning_rate": 0.0005112,
      "loss": 2.5241,
      "step": 1724
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.8340640068054199,
      "learning_rate": 0.0005115,
      "loss": 2.5323,
      "step": 1725
    },
    {
      "epoch": 2.7616,
      "grad_norm": 0.8422091007232666,
      "learning_rate": 0.0005118,
      "loss": 2.6332,
      "step": 1726
    },
    {
      "epoch": 2.7632,
      "grad_norm": 1.318156123161316,
      "learning_rate": 0.0005120999999999999,
      "loss": 2.5152,
      "step": 1727
    },
    {
      "epoch": 2.7648,
      "grad_norm": 0.7750735282897949,
      "learning_rate": 0.0005124,
      "loss": 2.4252,
      "step": 1728
    },
    {
      "epoch": 2.7664,
      "grad_norm": 1.509163737297058,
      "learning_rate": 0.0005126999999999999,
      "loss": 2.5499,
      "step": 1729
    },
    {
      "epoch": 2.768,
      "grad_norm": 0.9951829314231873,
      "learning_rate": 0.0005129999999999999,
      "loss": 2.555,
      "step": 1730
    },
    {
      "epoch": 2.7696,
      "grad_norm": 0.9104136228561401,
      "learning_rate": 0.0005133,
      "loss": 2.4509,
      "step": 1731
    },
    {
      "epoch": 2.7712,
      "grad_norm": 1.038901925086975,
      "learning_rate": 0.0005135999999999999,
      "loss": 2.5816,
      "step": 1732
    },
    {
      "epoch": 2.7728,
      "grad_norm": 2.0173180103302,
      "learning_rate": 0.0005139,
      "loss": 2.4119,
      "step": 1733
    },
    {
      "epoch": 2.7744,
      "grad_norm": 2.1461172103881836,
      "learning_rate": 0.0005141999999999999,
      "loss": 2.4564,
      "step": 1734
    },
    {
      "epoch": 2.776,
      "grad_norm": 0.8707074522972107,
      "learning_rate": 0.0005145,
      "loss": 2.5007,
      "step": 1735
    },
    {
      "epoch": 2.7776,
      "grad_norm": 1.6499031782150269,
      "learning_rate": 0.0005147999999999999,
      "loss": 2.6064,
      "step": 1736
    },
    {
      "epoch": 2.7792,
      "grad_norm": 0.86881422996521,
      "learning_rate": 0.0005151,
      "loss": 2.4206,
      "step": 1737
    },
    {
      "epoch": 2.7808,
      "grad_norm": 0.8201207518577576,
      "learning_rate": 0.0005154,
      "loss": 2.3982,
      "step": 1738
    },
    {
      "epoch": 2.7824,
      "grad_norm": 1.2034120559692383,
      "learning_rate": 0.0005157,
      "loss": 2.578,
      "step": 1739
    },
    {
      "epoch": 2.784,
      "grad_norm": 0.7777190804481506,
      "learning_rate": 0.000516,
      "loss": 2.3112,
      "step": 1740
    },
    {
      "epoch": 2.7856,
      "grad_norm": 0.82183837890625,
      "learning_rate": 0.0005163,
      "loss": 2.5456,
      "step": 1741
    },
    {
      "epoch": 2.7872,
      "grad_norm": 1.6097009181976318,
      "learning_rate": 0.0005166,
      "loss": 2.4209,
      "step": 1742
    },
    {
      "epoch": 2.7888,
      "grad_norm": 0.803339421749115,
      "learning_rate": 0.0005168999999999999,
      "loss": 2.6127,
      "step": 1743
    },
    {
      "epoch": 2.7904,
      "grad_norm": 1.109894871711731,
      "learning_rate": 0.0005172,
      "loss": 2.7093,
      "step": 1744
    },
    {
      "epoch": 2.792,
      "grad_norm": 3.9808509349823,
      "learning_rate": 0.0005175,
      "loss": 2.394,
      "step": 1745
    },
    {
      "epoch": 2.7936,
      "grad_norm": 1.2084410190582275,
      "learning_rate": 0.0005177999999999999,
      "loss": 2.8151,
      "step": 1746
    },
    {
      "epoch": 2.7952,
      "grad_norm": 1.0662058591842651,
      "learning_rate": 0.0005181,
      "loss": 2.5713,
      "step": 1747
    },
    {
      "epoch": 2.7968,
      "grad_norm": 0.6551415324211121,
      "learning_rate": 0.0005183999999999999,
      "loss": 2.5872,
      "step": 1748
    },
    {
      "epoch": 2.7984,
      "grad_norm": 1.0831410884857178,
      "learning_rate": 0.0005187,
      "loss": 2.4416,
      "step": 1749
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.6357882022857666,
      "learning_rate": 0.0005189999999999999,
      "loss": 3.438,
      "step": 1750
    },
    {
      "epoch": 2.8016,
      "grad_norm": 15.630077362060547,
      "learning_rate": 0.0005193,
      "loss": 3.6123,
      "step": 1751
    },
    {
      "epoch": 2.8032,
      "grad_norm": 4.824563980102539,
      "learning_rate": 0.0005195999999999999,
      "loss": 3.0755,
      "step": 1752
    },
    {
      "epoch": 2.8048,
      "grad_norm": 3.7035696506500244,
      "learning_rate": 0.0005199,
      "loss": 3.1672,
      "step": 1753
    },
    {
      "epoch": 2.8064,
      "grad_norm": 1.7311122417449951,
      "learning_rate": 0.0005202,
      "loss": 2.9867,
      "step": 1754
    },
    {
      "epoch": 2.808,
      "grad_norm": 1.3840744495391846,
      "learning_rate": 0.0005205,
      "loss": 2.8987,
      "step": 1755
    },
    {
      "epoch": 2.8096,
      "grad_norm": 5.936819076538086,
      "learning_rate": 0.0005208,
      "loss": 2.8573,
      "step": 1756
    },
    {
      "epoch": 2.8112,
      "grad_norm": 4.638219356536865,
      "learning_rate": 0.0005211,
      "loss": 2.6146,
      "step": 1757
    },
    {
      "epoch": 2.8128,
      "grad_norm": 5.056271553039551,
      "learning_rate": 0.0005214,
      "loss": 2.6315,
      "step": 1758
    },
    {
      "epoch": 2.8144,
      "grad_norm": 6.352563381195068,
      "learning_rate": 0.0005216999999999999,
      "loss": 2.7745,
      "step": 1759
    },
    {
      "epoch": 2.816,
      "grad_norm": 2.4548048973083496,
      "learning_rate": 0.000522,
      "loss": 2.7158,
      "step": 1760
    },
    {
      "epoch": 2.8176,
      "grad_norm": 1.3754136562347412,
      "learning_rate": 0.0005223,
      "loss": 2.7262,
      "step": 1761
    },
    {
      "epoch": 2.8192,
      "grad_norm": 1.041412353515625,
      "learning_rate": 0.0005225999999999999,
      "loss": 2.6656,
      "step": 1762
    },
    {
      "epoch": 2.8208,
      "grad_norm": 2.493197441101074,
      "learning_rate": 0.0005229,
      "loss": 2.4963,
      "step": 1763
    },
    {
      "epoch": 2.8224,
      "grad_norm": 0.7722348570823669,
      "learning_rate": 0.0005231999999999999,
      "loss": 2.5916,
      "step": 1764
    },
    {
      "epoch": 2.824,
      "grad_norm": 2.9039366245269775,
      "learning_rate": 0.0005235,
      "loss": 2.5123,
      "step": 1765
    },
    {
      "epoch": 2.8256,
      "grad_norm": 2.1121346950531006,
      "learning_rate": 0.0005237999999999999,
      "loss": 2.6058,
      "step": 1766
    },
    {
      "epoch": 2.8272,
      "grad_norm": 0.9812942743301392,
      "learning_rate": 0.0005241,
      "loss": 2.4736,
      "step": 1767
    },
    {
      "epoch": 2.8288,
      "grad_norm": 1.2289108037948608,
      "learning_rate": 0.0005244,
      "loss": 2.5537,
      "step": 1768
    },
    {
      "epoch": 2.8304,
      "grad_norm": 3.8981456756591797,
      "learning_rate": 0.0005247,
      "loss": 2.6518,
      "step": 1769
    },
    {
      "epoch": 2.832,
      "grad_norm": 2.036348342895508,
      "learning_rate": 0.000525,
      "loss": 2.5605,
      "step": 1770
    },
    {
      "epoch": 2.8336,
      "grad_norm": 1.4323660135269165,
      "learning_rate": 0.0005252999999999999,
      "loss": 2.4834,
      "step": 1771
    },
    {
      "epoch": 2.8352,
      "grad_norm": 1.9249393939971924,
      "learning_rate": 0.0005256,
      "loss": 2.5572,
      "step": 1772
    },
    {
      "epoch": 2.8368,
      "grad_norm": 1.6773697137832642,
      "learning_rate": 0.0005258999999999999,
      "loss": 2.3995,
      "step": 1773
    },
    {
      "epoch": 2.8384,
      "grad_norm": 1.1707098484039307,
      "learning_rate": 0.0005262,
      "loss": 2.5901,
      "step": 1774
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7177858948707581,
      "learning_rate": 0.0005265,
      "loss": 2.5273,
      "step": 1775
    },
    {
      "epoch": 2.8416,
      "grad_norm": 0.754425048828125,
      "learning_rate": 0.0005267999999999999,
      "loss": 2.4347,
      "step": 1776
    },
    {
      "epoch": 2.8432,
      "grad_norm": 2.790383815765381,
      "learning_rate": 0.0005271,
      "loss": 2.5219,
      "step": 1777
    },
    {
      "epoch": 2.8448,
      "grad_norm": 4.15537166595459,
      "learning_rate": 0.0005273999999999999,
      "loss": 2.5522,
      "step": 1778
    },
    {
      "epoch": 2.8464,
      "grad_norm": 3.3372390270233154,
      "learning_rate": 0.0005276999999999999,
      "loss": 2.5126,
      "step": 1779
    },
    {
      "epoch": 2.848,
      "grad_norm": 1.7653952836990356,
      "learning_rate": 0.0005279999999999999,
      "loss": 2.4318,
      "step": 1780
    },
    {
      "epoch": 2.8496,
      "grad_norm": 1.198250412940979,
      "learning_rate": 0.0005282999999999999,
      "loss": 2.5744,
      "step": 1781
    },
    {
      "epoch": 2.8512,
      "grad_norm": 2.5732247829437256,
      "learning_rate": 0.0005286,
      "loss": 2.4265,
      "step": 1782
    },
    {
      "epoch": 2.8528000000000002,
      "grad_norm": 1.0462865829467773,
      "learning_rate": 0.0005288999999999999,
      "loss": 2.4897,
      "step": 1783
    },
    {
      "epoch": 2.8544,
      "grad_norm": 0.891711950302124,
      "learning_rate": 0.0005292,
      "loss": 2.2267,
      "step": 1784
    },
    {
      "epoch": 2.856,
      "grad_norm": 1.0404731035232544,
      "learning_rate": 0.0005294999999999999,
      "loss": 2.467,
      "step": 1785
    },
    {
      "epoch": 2.8576,
      "grad_norm": 0.6127783060073853,
      "learning_rate": 0.0005298,
      "loss": 2.4414,
      "step": 1786
    },
    {
      "epoch": 2.8592,
      "grad_norm": 2.071681022644043,
      "learning_rate": 0.0005300999999999999,
      "loss": 2.5055,
      "step": 1787
    },
    {
      "epoch": 2.8608000000000002,
      "grad_norm": 1.3703131675720215,
      "learning_rate": 0.0005304,
      "loss": 2.4044,
      "step": 1788
    },
    {
      "epoch": 2.8624,
      "grad_norm": 1.315367341041565,
      "learning_rate": 0.0005306999999999999,
      "loss": 2.7501,
      "step": 1789
    },
    {
      "epoch": 2.864,
      "grad_norm": 1.6619805097579956,
      "learning_rate": 0.000531,
      "loss": 2.4622,
      "step": 1790
    },
    {
      "epoch": 2.8656,
      "grad_norm": 0.6953228116035461,
      "learning_rate": 0.0005313,
      "loss": 2.5714,
      "step": 1791
    },
    {
      "epoch": 2.8672,
      "grad_norm": 1.0954629182815552,
      "learning_rate": 0.0005315999999999999,
      "loss": 2.4817,
      "step": 1792
    },
    {
      "epoch": 2.8688000000000002,
      "grad_norm": 2.2827250957489014,
      "learning_rate": 0.0005319,
      "loss": 2.5893,
      "step": 1793
    },
    {
      "epoch": 2.8704,
      "grad_norm": 0.9044419527053833,
      "learning_rate": 0.0005321999999999999,
      "loss": 2.5491,
      "step": 1794
    },
    {
      "epoch": 2.872,
      "grad_norm": 1.5412472486495972,
      "learning_rate": 0.0005324999999999999,
      "loss": 2.8427,
      "step": 1795
    },
    {
      "epoch": 2.8736,
      "grad_norm": 1.7915852069854736,
      "learning_rate": 0.0005327999999999999,
      "loss": 2.7391,
      "step": 1796
    },
    {
      "epoch": 2.8752,
      "grad_norm": 0.6722069382667542,
      "learning_rate": 0.0005330999999999999,
      "loss": 2.6614,
      "step": 1797
    },
    {
      "epoch": 2.8768000000000002,
      "grad_norm": 3.3082215785980225,
      "learning_rate": 0.0005334,
      "loss": 2.8621,
      "step": 1798
    },
    {
      "epoch": 2.8784,
      "grad_norm": 1.5828150510787964,
      "learning_rate": 0.0005336999999999999,
      "loss": 2.7225,
      "step": 1799
    },
    {
      "epoch": 2.88,
      "grad_norm": NaN,
      "learning_rate": 0.0005336999999999999,
      "loss": 2.5517,
      "step": 1800
    },
    {
      "epoch": 2.8816,
      "grad_norm": 11.708396911621094,
      "learning_rate": 0.000534,
      "loss": 3.5065,
      "step": 1801
    },
    {
      "epoch": 2.8832,
      "grad_norm": 4.113176345825195,
      "learning_rate": 0.0005342999999999999,
      "loss": 3.1792,
      "step": 1802
    },
    {
      "epoch": 2.8848000000000003,
      "grad_norm": 2.708540916442871,
      "learning_rate": 0.0005346,
      "loss": 3.097,
      "step": 1803
    },
    {
      "epoch": 2.8864,
      "grad_norm": 1.2130831480026245,
      "learning_rate": 0.0005348999999999999,
      "loss": 2.9355,
      "step": 1804
    },
    {
      "epoch": 2.888,
      "grad_norm": 3.173293113708496,
      "learning_rate": 0.0005352,
      "loss": 2.4884,
      "step": 1805
    },
    {
      "epoch": 2.8895999999999997,
      "grad_norm": 1.250343918800354,
      "learning_rate": 0.0005355,
      "loss": 2.7102,
      "step": 1806
    },
    {
      "epoch": 2.8912,
      "grad_norm": 1.3402652740478516,
      "learning_rate": 0.0005358,
      "loss": 2.6662,
      "step": 1807
    },
    {
      "epoch": 2.8928000000000003,
      "grad_norm": 0.8727527856826782,
      "learning_rate": 0.0005361,
      "loss": 2.696,
      "step": 1808
    },
    {
      "epoch": 2.8944,
      "grad_norm": 2.339231014251709,
      "learning_rate": 0.0005363999999999999,
      "loss": 2.4603,
      "step": 1809
    },
    {
      "epoch": 2.896,
      "grad_norm": 13.718860626220703,
      "learning_rate": 0.0005367,
      "loss": 3.0912,
      "step": 1810
    },
    {
      "epoch": 2.8975999999999997,
      "grad_norm": 3.7470011711120605,
      "learning_rate": 0.0005369999999999999,
      "loss": 2.4037,
      "step": 1811
    },
    {
      "epoch": 2.8992,
      "grad_norm": 7.758830547332764,
      "learning_rate": 0.0005372999999999999,
      "loss": 2.7615,
      "step": 1812
    },
    {
      "epoch": 2.9008000000000003,
      "grad_norm": 1.4061205387115479,
      "learning_rate": 0.0005376,
      "loss": 2.6428,
      "step": 1813
    },
    {
      "epoch": 2.9024,
      "grad_norm": 1.3114807605743408,
      "learning_rate": 0.0005378999999999999,
      "loss": 2.5062,
      "step": 1814
    },
    {
      "epoch": 2.904,
      "grad_norm": 1.0546765327453613,
      "learning_rate": 0.0005382,
      "loss": 2.5246,
      "step": 1815
    },
    {
      "epoch": 2.9055999999999997,
      "grad_norm": 1.1753357648849487,
      "learning_rate": 0.0005384999999999999,
      "loss": 2.7387,
      "step": 1816
    },
    {
      "epoch": 2.9072,
      "grad_norm": 0.7613487839698792,
      "learning_rate": 0.0005388,
      "loss": 2.4745,
      "step": 1817
    },
    {
      "epoch": 2.9088000000000003,
      "grad_norm": 0.9472857713699341,
      "learning_rate": 0.0005390999999999999,
      "loss": 2.5202,
      "step": 1818
    },
    {
      "epoch": 2.9104,
      "grad_norm": 0.7422348856925964,
      "learning_rate": 0.0005394,
      "loss": 2.5207,
      "step": 1819
    },
    {
      "epoch": 2.912,
      "grad_norm": 4.3653883934021,
      "learning_rate": 0.0005396999999999999,
      "loss": 2.4471,
      "step": 1820
    },
    {
      "epoch": 2.9135999999999997,
      "grad_norm": 2.8848469257354736,
      "learning_rate": 0.00054,
      "loss": 2.2509,
      "step": 1821
    },
    {
      "epoch": 2.9152,
      "grad_norm": 1.0910775661468506,
      "learning_rate": 0.0005403,
      "loss": 2.3507,
      "step": 1822
    },
    {
      "epoch": 2.9168,
      "grad_norm": 1.115868330001831,
      "learning_rate": 0.0005405999999999999,
      "loss": 2.4938,
      "step": 1823
    },
    {
      "epoch": 2.9184,
      "grad_norm": 4.200908184051514,
      "learning_rate": 0.0005409,
      "loss": 2.8903,
      "step": 1824
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.9364967346191406,
      "learning_rate": 0.0005411999999999999,
      "loss": 2.3932,
      "step": 1825
    },
    {
      "epoch": 2.9215999999999998,
      "grad_norm": 1.9644137620925903,
      "learning_rate": 0.0005414999999999999,
      "loss": 2.3253,
      "step": 1826
    },
    {
      "epoch": 2.9232,
      "grad_norm": 0.847099244594574,
      "learning_rate": 0.0005417999999999999,
      "loss": 2.475,
      "step": 1827
    },
    {
      "epoch": 2.9248,
      "grad_norm": 4.294593811035156,
      "learning_rate": 0.0005420999999999999,
      "loss": 2.6673,
      "step": 1828
    },
    {
      "epoch": 2.9264,
      "grad_norm": 1.6129556894302368,
      "learning_rate": 0.0005424,
      "loss": 2.3189,
      "step": 1829
    },
    {
      "epoch": 2.928,
      "grad_norm": 1.0951628684997559,
      "learning_rate": 0.0005426999999999999,
      "loss": 2.4761,
      "step": 1830
    },
    {
      "epoch": 2.9295999999999998,
      "grad_norm": 0.8047678470611572,
      "learning_rate": 0.000543,
      "loss": 2.5185,
      "step": 1831
    },
    {
      "epoch": 2.9312,
      "grad_norm": 0.8008071184158325,
      "learning_rate": 0.0005432999999999999,
      "loss": 2.3002,
      "step": 1832
    },
    {
      "epoch": 2.9328,
      "grad_norm": 2.075387477874756,
      "learning_rate": 0.0005436,
      "loss": 2.2973,
      "step": 1833
    },
    {
      "epoch": 2.9344,
      "grad_norm": 0.7697364091873169,
      "learning_rate": 0.0005438999999999999,
      "loss": 2.4137,
      "step": 1834
    },
    {
      "epoch": 2.936,
      "grad_norm": 1.1987799406051636,
      "learning_rate": 0.0005442,
      "loss": 2.5328,
      "step": 1835
    },
    {
      "epoch": 2.9375999999999998,
      "grad_norm": 1.0034129619598389,
      "learning_rate": 0.0005445,
      "loss": 2.3681,
      "step": 1836
    },
    {
      "epoch": 2.9392,
      "grad_norm": 0.910660982131958,
      "learning_rate": 0.0005448,
      "loss": 2.5604,
      "step": 1837
    },
    {
      "epoch": 2.9408,
      "grad_norm": 4.149611949920654,
      "learning_rate": 0.0005451,
      "loss": 2.4479,
      "step": 1838
    },
    {
      "epoch": 2.9424,
      "grad_norm": 1.1839433908462524,
      "learning_rate": 0.0005453999999999999,
      "loss": 2.4518,
      "step": 1839
    },
    {
      "epoch": 2.944,
      "grad_norm": 3.1271791458129883,
      "learning_rate": 0.0005457,
      "loss": 2.5315,
      "step": 1840
    },
    {
      "epoch": 2.9455999999999998,
      "grad_norm": 1.6314308643341064,
      "learning_rate": 0.0005459999999999999,
      "loss": 2.3553,
      "step": 1841
    },
    {
      "epoch": 2.9472,
      "grad_norm": 1.4227911233901978,
      "learning_rate": 0.0005462999999999999,
      "loss": 2.4249,
      "step": 1842
    },
    {
      "epoch": 2.9488,
      "grad_norm": 1.3367630243301392,
      "learning_rate": 0.0005466,
      "loss": 2.3452,
      "step": 1843
    },
    {
      "epoch": 2.9504,
      "grad_norm": 1.0855189561843872,
      "learning_rate": 0.0005468999999999999,
      "loss": 2.243,
      "step": 1844
    },
    {
      "epoch": 2.952,
      "grad_norm": 2.145113945007324,
      "learning_rate": 0.0005472,
      "loss": 2.4281,
      "step": 1845
    },
    {
      "epoch": 2.9536,
      "grad_norm": 2.266225576400757,
      "learning_rate": 0.0005474999999999999,
      "loss": 2.5112,
      "step": 1846
    },
    {
      "epoch": 2.9552,
      "grad_norm": 1.2084014415740967,
      "learning_rate": 0.0005478,
      "loss": 2.6551,
      "step": 1847
    },
    {
      "epoch": 2.9568,
      "grad_norm": 2.3133509159088135,
      "learning_rate": 0.0005480999999999999,
      "loss": 2.8256,
      "step": 1848
    },
    {
      "epoch": 2.9584,
      "grad_norm": 2.073927879333496,
      "learning_rate": 0.0005484,
      "loss": 2.549,
      "step": 1849
    },
    {
      "epoch": 2.96,
      "grad_norm": NaN,
      "learning_rate": 0.0005484,
      "loss": 3.4224,
      "step": 1850
    },
    {
      "epoch": 2.9616,
      "grad_norm": 16.866920471191406,
      "learning_rate": 0.0005487,
      "loss": 3.5822,
      "step": 1851
    },
    {
      "epoch": 2.9632,
      "grad_norm": 6.754800319671631,
      "learning_rate": 0.000549,
      "loss": 3.0191,
      "step": 1852
    },
    {
      "epoch": 2.9648,
      "grad_norm": 1.5004948377609253,
      "learning_rate": 0.0005493,
      "loss": 2.8276,
      "step": 1853
    },
    {
      "epoch": 2.9664,
      "grad_norm": 14.171708106994629,
      "learning_rate": 0.0005496,
      "loss": 3.3777,
      "step": 1854
    },
    {
      "epoch": 2.968,
      "grad_norm": 1.8601189851760864,
      "learning_rate": 0.0005499,
      "loss": 2.5501,
      "step": 1855
    },
    {
      "epoch": 2.9696,
      "grad_norm": 2.106257677078247,
      "learning_rate": 0.0005501999999999999,
      "loss": 2.7187,
      "step": 1856
    },
    {
      "epoch": 2.9712,
      "grad_norm": 1.215472936630249,
      "learning_rate": 0.0005505,
      "loss": 2.6169,
      "step": 1857
    },
    {
      "epoch": 2.9728,
      "grad_norm": 1.326351523399353,
      "learning_rate": 0.0005507999999999999,
      "loss": 2.5181,
      "step": 1858
    },
    {
      "epoch": 2.9744,
      "grad_norm": 1.5959700345993042,
      "learning_rate": 0.0005510999999999999,
      "loss": 2.5987,
      "step": 1859
    },
    {
      "epoch": 2.976,
      "grad_norm": 1.368794322013855,
      "learning_rate": 0.0005514,
      "loss": 2.3588,
      "step": 1860
    },
    {
      "epoch": 2.9776,
      "grad_norm": 0.9404537677764893,
      "learning_rate": 0.0005516999999999999,
      "loss": 2.398,
      "step": 1861
    },
    {
      "epoch": 2.9792,
      "grad_norm": 3.2774293422698975,
      "learning_rate": 0.000552,
      "loss": 2.3012,
      "step": 1862
    },
    {
      "epoch": 2.9808,
      "grad_norm": 1.7845696210861206,
      "learning_rate": 0.0005522999999999999,
      "loss": 2.6416,
      "step": 1863
    },
    {
      "epoch": 2.9824,
      "grad_norm": 2.4613161087036133,
      "learning_rate": 0.0005526,
      "loss": 2.708,
      "step": 1864
    },
    {
      "epoch": 2.984,
      "grad_norm": 3.9170267581939697,
      "learning_rate": 0.0005528999999999999,
      "loss": 2.4808,
      "step": 1865
    },
    {
      "epoch": 2.9856,
      "grad_norm": 3.9187498092651367,
      "learning_rate": 0.0005532,
      "loss": 2.1382,
      "step": 1866
    },
    {
      "epoch": 2.9872,
      "grad_norm": 3.5691933631896973,
      "learning_rate": 0.0005535,
      "loss": 2.6534,
      "step": 1867
    },
    {
      "epoch": 2.9888,
      "grad_norm": 1.9193207025527954,
      "learning_rate": 0.0005538,
      "loss": 2.4064,
      "step": 1868
    },
    {
      "epoch": 2.9904,
      "grad_norm": 0.9679790735244751,
      "learning_rate": 0.0005541,
      "loss": 2.2612,
      "step": 1869
    },
    {
      "epoch": 2.992,
      "grad_norm": 0.8689792156219482,
      "learning_rate": 0.0005544,
      "loss": 2.3644,
      "step": 1870
    },
    {
      "epoch": 2.9936,
      "grad_norm": 1.476846694946289,
      "learning_rate": 0.0005547,
      "loss": 2.6756,
      "step": 1871
    },
    {
      "epoch": 2.9952,
      "grad_norm": 1.7874386310577393,
      "learning_rate": 0.0005549999999999999,
      "loss": 2.5747,
      "step": 1872
    },
    {
      "epoch": 2.9968,
      "grad_norm": 1.3470101356506348,
      "learning_rate": 0.0005552999999999999,
      "loss": 2.5029,
      "step": 1873
    },
    {
      "epoch": 2.9984,
      "grad_norm": 1.982383131980896,
      "learning_rate": 0.0005556,
      "loss": 2.9071,
      "step": 1874
    },
    {
      "epoch": 3.0,
      "grad_norm": NaN,
      "learning_rate": 0.0005556,
      "loss": 3.1407,
      "step": 1875
    },
    {
      "epoch": 3.0016,
      "grad_norm": 25.29146385192871,
      "learning_rate": 0.0005558999999999999,
      "loss": 3.837,
      "step": 1876
    },
    {
      "epoch": 3.0032,
      "grad_norm": 9.291911125183105,
      "learning_rate": 0.0005562,
      "loss": 2.9761,
      "step": 1877
    },
    {
      "epoch": 3.0048,
      "grad_norm": 4.966324329376221,
      "learning_rate": 0.0005564999999999999,
      "loss": 3.0185,
      "step": 1878
    },
    {
      "epoch": 3.0064,
      "grad_norm": 2.462636709213257,
      "learning_rate": 0.0005568,
      "loss": 2.7161,
      "step": 1879
    },
    {
      "epoch": 3.008,
      "grad_norm": 1.5384327173233032,
      "learning_rate": 0.0005570999999999999,
      "loss": 2.669,
      "step": 1880
    },
    {
      "epoch": 3.0096,
      "grad_norm": 2.980968713760376,
      "learning_rate": 0.0005574,
      "loss": 2.8147,
      "step": 1881
    },
    {
      "epoch": 3.0112,
      "grad_norm": 5.0100908279418945,
      "learning_rate": 0.0005577,
      "loss": 2.6561,
      "step": 1882
    },
    {
      "epoch": 3.0128,
      "grad_norm": 2.8315351009368896,
      "learning_rate": 0.000558,
      "loss": 2.8438,
      "step": 1883
    },
    {
      "epoch": 3.0144,
      "grad_norm": 2.2698962688446045,
      "learning_rate": 0.0005583,
      "loss": 2.7352,
      "step": 1884
    },
    {
      "epoch": 3.016,
      "grad_norm": 1.6499841213226318,
      "learning_rate": 0.0005586,
      "loss": 2.3665,
      "step": 1885
    },
    {
      "epoch": 3.0176,
      "grad_norm": 7.6851091384887695,
      "learning_rate": 0.0005589,
      "loss": 2.9253,
      "step": 1886
    },
    {
      "epoch": 3.0192,
      "grad_norm": 9.859707832336426,
      "learning_rate": 0.0005591999999999999,
      "loss": 2.848,
      "step": 1887
    },
    {
      "epoch": 3.0208,
      "grad_norm": 2.2398126125335693,
      "learning_rate": 0.0005595,
      "loss": 2.5253,
      "step": 1888
    },
    {
      "epoch": 3.0224,
      "grad_norm": 3.5129432678222656,
      "learning_rate": 0.0005598,
      "loss": 2.4375,
      "step": 1889
    },
    {
      "epoch": 3.024,
      "grad_norm": 2.765233278274536,
      "learning_rate": 0.0005600999999999999,
      "loss": 2.3901,
      "step": 1890
    },
    {
      "epoch": 3.0256,
      "grad_norm": 2.178379774093628,
      "learning_rate": 0.0005604,
      "loss": 2.4001,
      "step": 1891
    },
    {
      "epoch": 3.0272,
      "grad_norm": 5.110830307006836,
      "learning_rate": 0.0005606999999999999,
      "loss": 2.7783,
      "step": 1892
    },
    {
      "epoch": 3.0288,
      "grad_norm": 1.4218653440475464,
      "learning_rate": 0.000561,
      "loss": 2.4922,
      "step": 1893
    },
    {
      "epoch": 3.0304,
      "grad_norm": 2.5468997955322266,
      "learning_rate": 0.0005612999999999999,
      "loss": 2.4771,
      "step": 1894
    },
    {
      "epoch": 3.032,
      "grad_norm": 1.7513118982315063,
      "learning_rate": 0.0005616,
      "loss": 2.4955,
      "step": 1895
    },
    {
      "epoch": 3.0336,
      "grad_norm": 1.6879457235336304,
      "learning_rate": 0.0005618999999999999,
      "loss": 2.3897,
      "step": 1896
    },
    {
      "epoch": 3.0352,
      "grad_norm": 1.5849945545196533,
      "learning_rate": 0.0005622,
      "loss": 2.2501,
      "step": 1897
    },
    {
      "epoch": 3.0368,
      "grad_norm": 1.4570404291152954,
      "learning_rate": 0.0005625,
      "loss": 2.3634,
      "step": 1898
    },
    {
      "epoch": 3.0384,
      "grad_norm": 1.2244665622711182,
      "learning_rate": 0.0005627999999999999,
      "loss": 2.5295,
      "step": 1899
    },
    {
      "epoch": 3.04,
      "grad_norm": 1.8930087089538574,
      "learning_rate": 0.0005631,
      "loss": 2.2068,
      "step": 1900
    },
    {
      "epoch": 3.0416,
      "grad_norm": 1.3034899234771729,
      "learning_rate": 0.0005633999999999999,
      "loss": 2.3666,
      "step": 1901
    },
    {
      "epoch": 3.0432,
      "grad_norm": 2.7985405921936035,
      "learning_rate": 0.0005637,
      "loss": 2.2791,
      "step": 1902
    },
    {
      "epoch": 3.0448,
      "grad_norm": 1.738775610923767,
      "learning_rate": 0.0005639999999999999,
      "loss": 2.3868,
      "step": 1903
    },
    {
      "epoch": 3.0464,
      "grad_norm": 4.025388240814209,
      "learning_rate": 0.0005643,
      "loss": 2.4722,
      "step": 1904
    },
    {
      "epoch": 3.048,
      "grad_norm": 2.4662373065948486,
      "learning_rate": 0.0005646,
      "loss": 2.3586,
      "step": 1905
    },
    {
      "epoch": 3.0496,
      "grad_norm": 2.3425092697143555,
      "learning_rate": 0.0005648999999999999,
      "loss": 2.5808,
      "step": 1906
    },
    {
      "epoch": 3.0512,
      "grad_norm": 3.2466976642608643,
      "learning_rate": 0.0005652,
      "loss": 2.2679,
      "step": 1907
    },
    {
      "epoch": 3.0528,
      "grad_norm": 2.766129493713379,
      "learning_rate": 0.0005654999999999999,
      "loss": 2.5386,
      "step": 1908
    },
    {
      "epoch": 3.0544,
      "grad_norm": 1.7741740942001343,
      "learning_rate": 0.0005657999999999999,
      "loss": 2.7793,
      "step": 1909
    },
    {
      "epoch": 3.056,
      "grad_norm": 1.4344654083251953,
      "learning_rate": 0.0005660999999999999,
      "loss": 2.3047,
      "step": 1910
    },
    {
      "epoch": 3.0576,
      "grad_norm": 2.42335844039917,
      "learning_rate": 0.0005663999999999999,
      "loss": 2.3451,
      "step": 1911
    },
    {
      "epoch": 3.0592,
      "grad_norm": 1.0476360321044922,
      "learning_rate": 0.0005667,
      "loss": 2.1713,
      "step": 1912
    },
    {
      "epoch": 3.0608,
      "grad_norm": 1.0051932334899902,
      "learning_rate": 0.0005669999999999999,
      "loss": 2.2454,
      "step": 1913
    },
    {
      "epoch": 3.0624,
      "grad_norm": 3.0773088932037354,
      "learning_rate": 0.0005673,
      "loss": 2.6067,
      "step": 1914
    },
    {
      "epoch": 3.064,
      "grad_norm": 4.21511173248291,
      "learning_rate": 0.0005675999999999999,
      "loss": 2.3492,
      "step": 1915
    },
    {
      "epoch": 3.0656,
      "grad_norm": 2.3126461505889893,
      "learning_rate": 0.0005679,
      "loss": 2.5079,
      "step": 1916
    },
    {
      "epoch": 3.0672,
      "grad_norm": 2.4149043560028076,
      "learning_rate": 0.0005681999999999999,
      "loss": 2.7256,
      "step": 1917
    },
    {
      "epoch": 3.0688,
      "grad_norm": 2.686859607696533,
      "learning_rate": 0.0005685,
      "loss": 2.7068,
      "step": 1918
    },
    {
      "epoch": 3.0704,
      "grad_norm": 3.6169612407684326,
      "learning_rate": 0.0005688,
      "loss": 2.6735,
      "step": 1919
    },
    {
      "epoch": 3.072,
      "grad_norm": 1.6046686172485352,
      "learning_rate": 0.0005691,
      "loss": 2.3301,
      "step": 1920
    },
    {
      "epoch": 3.0736,
      "grad_norm": 2.102391242980957,
      "learning_rate": 0.0005694,
      "loss": 2.6546,
      "step": 1921
    },
    {
      "epoch": 3.0752,
      "grad_norm": 2.0405120849609375,
      "learning_rate": 0.0005696999999999999,
      "loss": 2.6443,
      "step": 1922
    },
    {
      "epoch": 3.0768,
      "grad_norm": 2.9234347343444824,
      "learning_rate": 0.00057,
      "loss": 2.3251,
      "step": 1923
    },
    {
      "epoch": 3.0784,
      "grad_norm": 1.348129153251648,
      "learning_rate": 0.0005702999999999999,
      "loss": 2.4312,
      "step": 1924
    },
    {
      "epoch": 3.08,
      "grad_norm": NaN,
      "learning_rate": 0.0005702999999999999,
      "loss": 2.1661,
      "step": 1925
    },
    {
      "epoch": 3.0816,
      "grad_norm": 2.0966081619262695,
      "learning_rate": 0.0005705999999999999,
      "loss": 2.9023,
      "step": 1926
    },
    {
      "epoch": 3.0832,
      "grad_norm": 1.7861617803573608,
      "learning_rate": 0.0005708999999999999,
      "loss": 2.7179,
      "step": 1927
    },
    {
      "epoch": 3.0848,
      "grad_norm": 10.112266540527344,
      "learning_rate": 0.0005711999999999999,
      "loss": 3.2361,
      "step": 1928
    },
    {
      "epoch": 3.0864,
      "grad_norm": 11.517034530639648,
      "learning_rate": 0.0005715,
      "loss": 3.095,
      "step": 1929
    },
    {
      "epoch": 3.088,
      "grad_norm": 11.801773071289062,
      "learning_rate": 0.0005717999999999999,
      "loss": 2.9547,
      "step": 1930
    },
    {
      "epoch": 3.0896,
      "grad_norm": 5.743291854858398,
      "learning_rate": 0.0005721,
      "loss": 2.4528,
      "step": 1931
    },
    {
      "epoch": 3.0912,
      "grad_norm": 2.2978971004486084,
      "learning_rate": 0.0005723999999999999,
      "loss": 2.7744,
      "step": 1932
    },
    {
      "epoch": 3.0928,
      "grad_norm": 3.952575206756592,
      "learning_rate": 0.0005727,
      "loss": 2.6278,
      "step": 1933
    },
    {
      "epoch": 3.0944,
      "grad_norm": 1.861054539680481,
      "learning_rate": 0.0005729999999999999,
      "loss": 2.51,
      "step": 1934
    },
    {
      "epoch": 3.096,
      "grad_norm": 4.444493293762207,
      "learning_rate": 0.0005733,
      "loss": 2.7883,
      "step": 1935
    },
    {
      "epoch": 3.0976,
      "grad_norm": 2.688218593597412,
      "learning_rate": 0.0005736,
      "loss": 2.4545,
      "step": 1936
    },
    {
      "epoch": 3.0992,
      "grad_norm": 3.14324951171875,
      "learning_rate": 0.0005738999999999999,
      "loss": 2.5803,
      "step": 1937
    },
    {
      "epoch": 3.1008,
      "grad_norm": 2.0566539764404297,
      "learning_rate": 0.0005742,
      "loss": 2.3113,
      "step": 1938
    },
    {
      "epoch": 3.1024,
      "grad_norm": 1.8503978252410889,
      "learning_rate": 0.0005744999999999999,
      "loss": 2.4176,
      "step": 1939
    },
    {
      "epoch": 3.104,
      "grad_norm": 2.6355438232421875,
      "learning_rate": 0.0005747999999999999,
      "loss": 2.4964,
      "step": 1940
    },
    {
      "epoch": 3.1056,
      "grad_norm": 1.8768773078918457,
      "learning_rate": 0.0005750999999999999,
      "loss": 2.4573,
      "step": 1941
    },
    {
      "epoch": 3.1072,
      "grad_norm": 3.4046988487243652,
      "learning_rate": 0.0005753999999999999,
      "loss": 2.6418,
      "step": 1942
    },
    {
      "epoch": 3.1088,
      "grad_norm": 1.7340015172958374,
      "learning_rate": 0.0005757,
      "loss": 2.4697,
      "step": 1943
    },
    {
      "epoch": 3.1104,
      "grad_norm": 2.1641948223114014,
      "learning_rate": 0.0005759999999999999,
      "loss": 2.5012,
      "step": 1944
    },
    {
      "epoch": 3.112,
      "grad_norm": 3.7307941913604736,
      "learning_rate": 0.0005763,
      "loss": 2.4757,
      "step": 1945
    },
    {
      "epoch": 3.1136,
      "grad_norm": 2.3845276832580566,
      "learning_rate": 0.0005765999999999999,
      "loss": 2.4441,
      "step": 1946
    },
    {
      "epoch": 3.1152,
      "grad_norm": 2.855138063430786,
      "learning_rate": 0.0005769,
      "loss": 2.2891,
      "step": 1947
    },
    {
      "epoch": 3.1168,
      "grad_norm": 2.2033305168151855,
      "learning_rate": 0.0005771999999999999,
      "loss": 2.1741,
      "step": 1948
    },
    {
      "epoch": 3.1184,
      "grad_norm": 3.501863479614258,
      "learning_rate": 0.0005775,
      "loss": 2.849,
      "step": 1949
    },
    {
      "epoch": 3.12,
      "grad_norm": 2.6321678161621094,
      "learning_rate": 0.0005778,
      "loss": 2.3158,
      "step": 1950
    },
    {
      "epoch": 3.1216,
      "grad_norm": 1.6110666990280151,
      "learning_rate": 0.0005781,
      "loss": 2.3013,
      "step": 1951
    },
    {
      "epoch": 3.1232,
      "grad_norm": 1.646638035774231,
      "learning_rate": 0.0005784,
      "loss": 2.3759,
      "step": 1952
    },
    {
      "epoch": 3.1248,
      "grad_norm": 3.533754587173462,
      "learning_rate": 0.0005786999999999999,
      "loss": 2.3256,
      "step": 1953
    },
    {
      "epoch": 3.1264,
      "grad_norm": 2.3070497512817383,
      "learning_rate": 0.000579,
      "loss": 2.4358,
      "step": 1954
    },
    {
      "epoch": 3.128,
      "grad_norm": 2.581441879272461,
      "learning_rate": 0.0005792999999999999,
      "loss": 2.4647,
      "step": 1955
    },
    {
      "epoch": 3.1296,
      "grad_norm": 2.834535598754883,
      "learning_rate": 0.0005795999999999999,
      "loss": 2.3173,
      "step": 1956
    },
    {
      "epoch": 3.1312,
      "grad_norm": 1.163590908050537,
      "learning_rate": 0.0005799,
      "loss": 2.7147,
      "step": 1957
    },
    {
      "epoch": 3.1328,
      "grad_norm": 5.1326375007629395,
      "learning_rate": 0.0005801999999999999,
      "loss": 2.7112,
      "step": 1958
    },
    {
      "epoch": 3.1344,
      "grad_norm": 2.296224594116211,
      "learning_rate": 0.0005805,
      "loss": 2.4191,
      "step": 1959
    },
    {
      "epoch": 3.136,
      "grad_norm": 3.148940086364746,
      "learning_rate": 0.0005807999999999999,
      "loss": 2.3378,
      "step": 1960
    },
    {
      "epoch": 3.1376,
      "grad_norm": 1.3591207265853882,
      "learning_rate": 0.0005811,
      "loss": 2.5719,
      "step": 1961
    },
    {
      "epoch": 3.1391999999999998,
      "grad_norm": 2.0001440048217773,
      "learning_rate": 0.0005813999999999999,
      "loss": 2.1871,
      "step": 1962
    },
    {
      "epoch": 3.1408,
      "grad_norm": 1.4580248594284058,
      "learning_rate": 0.0005817,
      "loss": 2.4727,
      "step": 1963
    },
    {
      "epoch": 3.1424,
      "grad_norm": 1.5752590894699097,
      "learning_rate": 0.0005819999999999999,
      "loss": 2.4377,
      "step": 1964
    },
    {
      "epoch": 3.144,
      "grad_norm": 2.6746673583984375,
      "learning_rate": 0.0005823,
      "loss": 2.2526,
      "step": 1965
    },
    {
      "epoch": 3.1456,
      "grad_norm": 1.5736886262893677,
      "learning_rate": 0.0005826,
      "loss": 2.5686,
      "step": 1966
    },
    {
      "epoch": 3.1471999999999998,
      "grad_norm": 1.3866643905639648,
      "learning_rate": 0.0005829,
      "loss": 2.5909,
      "step": 1967
    },
    {
      "epoch": 3.1488,
      "grad_norm": 1.2823047637939453,
      "learning_rate": 0.0005832,
      "loss": 2.7079,
      "step": 1968
    },
    {
      "epoch": 3.1504,
      "grad_norm": 1.206445336341858,
      "learning_rate": 0.0005834999999999999,
      "loss": 2.6945,
      "step": 1969
    },
    {
      "epoch": 3.152,
      "grad_norm": 1.8165123462677002,
      "learning_rate": 0.0005838,
      "loss": 2.4911,
      "step": 1970
    },
    {
      "epoch": 3.1536,
      "grad_norm": 4.777324199676514,
      "learning_rate": 0.0005840999999999999,
      "loss": 2.4485,
      "step": 1971
    },
    {
      "epoch": 3.1552,
      "grad_norm": 2.511350393295288,
      "learning_rate": 0.0005843999999999999,
      "loss": 2.8384,
      "step": 1972
    },
    {
      "epoch": 3.1568,
      "grad_norm": 2.9431605339050293,
      "learning_rate": 0.0005847,
      "loss": 2.7788,
      "step": 1973
    },
    {
      "epoch": 3.1584,
      "grad_norm": 2.0299463272094727,
      "learning_rate": 0.0005849999999999999,
      "loss": 2.6043,
      "step": 1974
    },
    {
      "epoch": 3.16,
      "grad_norm": 1.5065081119537354,
      "learning_rate": 0.0005853,
      "loss": 3.039,
      "step": 1975
    },
    {
      "epoch": 3.1616,
      "grad_norm": 15.988265991210938,
      "learning_rate": 0.0005855999999999999,
      "loss": 3.272,
      "step": 1976
    },
    {
      "epoch": 3.1632,
      "grad_norm": 3.07070255279541,
      "learning_rate": 0.0005859,
      "loss": 3.2078,
      "step": 1977
    },
    {
      "epoch": 3.1648,
      "grad_norm": 8.927387237548828,
      "learning_rate": 0.0005861999999999999,
      "loss": 3.2354,
      "step": 1978
    },
    {
      "epoch": 3.1664,
      "grad_norm": 14.451622009277344,
      "learning_rate": 0.0005865,
      "loss": 3.3638,
      "step": 1979
    },
    {
      "epoch": 3.168,
      "grad_norm": 2.183037757873535,
      "learning_rate": 0.0005868,
      "loss": 2.9126,
      "step": 1980
    },
    {
      "epoch": 3.1696,
      "grad_norm": 3.3495078086853027,
      "learning_rate": 0.0005871,
      "loss": 3.0289,
      "step": 1981
    },
    {
      "epoch": 3.1712,
      "grad_norm": 2.572366714477539,
      "learning_rate": 0.0005874,
      "loss": 2.6892,
      "step": 1982
    },
    {
      "epoch": 3.1728,
      "grad_norm": 1.9703586101531982,
      "learning_rate": 0.0005876999999999999,
      "loss": 3.0979,
      "step": 1983
    },
    {
      "epoch": 3.1744,
      "grad_norm": 3.3965091705322266,
      "learning_rate": 0.000588,
      "loss": 2.8213,
      "step": 1984
    },
    {
      "epoch": 3.176,
      "grad_norm": 2.5969173908233643,
      "learning_rate": 0.0005882999999999999,
      "loss": 2.7087,
      "step": 1985
    },
    {
      "epoch": 3.1776,
      "grad_norm": 3.7670791149139404,
      "learning_rate": 0.0005885999999999999,
      "loss": 2.3701,
      "step": 1986
    },
    {
      "epoch": 3.1792,
      "grad_norm": 2.7813947200775146,
      "learning_rate": 0.0005889,
      "loss": 2.6189,
      "step": 1987
    },
    {
      "epoch": 3.1808,
      "grad_norm": 2.1592915058135986,
      "learning_rate": 0.0005891999999999999,
      "loss": 2.4803,
      "step": 1988
    },
    {
      "epoch": 3.1824,
      "grad_norm": 1.573058009147644,
      "learning_rate": 0.0005895,
      "loss": 2.504,
      "step": 1989
    },
    {
      "epoch": 3.184,
      "grad_norm": 2.9862351417541504,
      "learning_rate": 0.0005897999999999999,
      "loss": 2.4572,
      "step": 1990
    },
    {
      "epoch": 3.1856,
      "grad_norm": 2.136756420135498,
      "learning_rate": 0.0005901,
      "loss": 2.4623,
      "step": 1991
    },
    {
      "epoch": 3.1872,
      "grad_norm": 2.619926929473877,
      "learning_rate": 0.0005903999999999999,
      "loss": 2.3356,
      "step": 1992
    },
    {
      "epoch": 3.1888,
      "grad_norm": 12.829959869384766,
      "learning_rate": 0.0005907,
      "loss": 3.5301,
      "step": 1993
    },
    {
      "epoch": 3.1904,
      "grad_norm": 2.9119503498077393,
      "learning_rate": 0.0005909999999999999,
      "loss": 2.3499,
      "step": 1994
    },
    {
      "epoch": 3.192,
      "grad_norm": 6.323517799377441,
      "learning_rate": 0.0005913,
      "loss": 2.7329,
      "step": 1995
    },
    {
      "epoch": 3.1936,
      "grad_norm": 3.644813060760498,
      "learning_rate": 0.0005916,
      "loss": 2.5666,
      "step": 1996
    },
    {
      "epoch": 3.1952,
      "grad_norm": 5.822663307189941,
      "learning_rate": 0.0005919,
      "loss": 2.7859,
      "step": 1997
    },
    {
      "epoch": 3.1968,
      "grad_norm": 2.3552889823913574,
      "learning_rate": 0.0005922,
      "loss": 2.1818,
      "step": 1998
    },
    {
      "epoch": 3.1984,
      "grad_norm": 3.3351669311523438,
      "learning_rate": 0.0005924999999999999,
      "loss": 2.6502,
      "step": 1999
    },
    {
      "epoch": 3.2,
      "grad_norm": 3.1912646293640137,
      "learning_rate": 0.0005928,
      "loss": 2.4085,
      "step": 2000
    },
    {
      "epoch": 3.2016,
      "grad_norm": 2.0900375843048096,
      "learning_rate": 0.0005930999999999999,
      "loss": 2.3544,
      "step": 2001
    },
    {
      "epoch": 3.2032,
      "grad_norm": 1.7966182231903076,
      "learning_rate": 0.0005933999999999999,
      "loss": 2.4058,
      "step": 2002
    },
    {
      "epoch": 3.2048,
      "grad_norm": 4.029713153839111,
      "learning_rate": 0.0005937,
      "loss": 2.2235,
      "step": 2003
    },
    {
      "epoch": 3.2064,
      "grad_norm": 5.860076427459717,
      "learning_rate": 0.0005939999999999999,
      "loss": 2.6818,
      "step": 2004
    },
    {
      "epoch": 3.208,
      "grad_norm": 9.5676851272583,
      "learning_rate": 0.0005943,
      "loss": 2.3783,
      "step": 2005
    },
    {
      "epoch": 3.2096,
      "grad_norm": 3.6261396408081055,
      "learning_rate": 0.0005945999999999999,
      "loss": 2.2907,
      "step": 2006
    },
    {
      "epoch": 3.2112,
      "grad_norm": 1.9345386028289795,
      "learning_rate": 0.0005949,
      "loss": 2.249,
      "step": 2007
    },
    {
      "epoch": 3.2128,
      "grad_norm": 1.471825122833252,
      "learning_rate": 0.0005951999999999999,
      "loss": 2.3189,
      "step": 2008
    },
    {
      "epoch": 3.2144,
      "grad_norm": 1.4700121879577637,
      "learning_rate": 0.0005955,
      "loss": 2.4003,
      "step": 2009
    },
    {
      "epoch": 3.216,
      "grad_norm": 1.4592626094818115,
      "learning_rate": 0.0005958,
      "loss": 2.3744,
      "step": 2010
    },
    {
      "epoch": 3.2176,
      "grad_norm": 1.8481483459472656,
      "learning_rate": 0.0005961,
      "loss": 2.4525,
      "step": 2011
    },
    {
      "epoch": 3.2192,
      "grad_norm": 2.111783266067505,
      "learning_rate": 0.0005964,
      "loss": 2.6025,
      "step": 2012
    },
    {
      "epoch": 3.2208,
      "grad_norm": 1.3971112966537476,
      "learning_rate": 0.0005967,
      "loss": 2.4959,
      "step": 2013
    },
    {
      "epoch": 3.2224,
      "grad_norm": 2.5589585304260254,
      "learning_rate": 0.000597,
      "loss": 2.6663,
      "step": 2014
    },
    {
      "epoch": 3.224,
      "grad_norm": 4.524598598480225,
      "learning_rate": 0.0005972999999999999,
      "loss": 2.5798,
      "step": 2015
    },
    {
      "epoch": 3.2256,
      "grad_norm": 6.212462902069092,
      "learning_rate": 0.0005976,
      "loss": 2.3817,
      "step": 2016
    },
    {
      "epoch": 3.2272,
      "grad_norm": 3.290090560913086,
      "learning_rate": 0.0005979,
      "loss": 2.7171,
      "step": 2017
    },
    {
      "epoch": 3.2288,
      "grad_norm": 4.479714393615723,
      "learning_rate": 0.0005981999999999999,
      "loss": 2.2308,
      "step": 2018
    },
    {
      "epoch": 3.2304,
      "grad_norm": 1.692572832107544,
      "learning_rate": 0.0005985,
      "loss": 2.7637,
      "step": 2019
    },
    {
      "epoch": 3.232,
      "grad_norm": 1.6728739738464355,
      "learning_rate": 0.0005987999999999999,
      "loss": 2.615,
      "step": 2020
    },
    {
      "epoch": 3.2336,
      "grad_norm": 1.3036847114562988,
      "learning_rate": 0.0005991,
      "loss": 2.6417,
      "step": 2021
    },
    {
      "epoch": 3.2352,
      "grad_norm": 1.48746919631958,
      "learning_rate": 0.0005993999999999999,
      "loss": 2.8424,
      "step": 2022
    },
    {
      "epoch": 3.2368,
      "grad_norm": 1.4318227767944336,
      "learning_rate": 0.0005997,
      "loss": 2.469,
      "step": 2023
    },
    {
      "epoch": 3.2384,
      "grad_norm": 5.054473876953125,
      "learning_rate": 0.0006,
      "loss": 3.4372,
      "step": 2024
    },
    {
      "epoch": 3.24,
      "grad_norm": NaN,
      "learning_rate": 0.0006,
      "loss": 2.7082,
      "step": 2025
    },
    {
      "epoch": 3.2416,
      "grad_norm": 34.61737823486328,
      "learning_rate": 0.0005997999999999999,
      "loss": 4.3039,
      "step": 2026
    },
    {
      "epoch": 3.2432,
      "grad_norm": 3.473752021789551,
      "learning_rate": 0.0005995999999999999,
      "loss": 2.9205,
      "step": 2027
    },
    {
      "epoch": 3.2448,
      "grad_norm": 3.742560625076294,
      "learning_rate": 0.0005993999999999999,
      "loss": 3.0236,
      "step": 2028
    },
    {
      "epoch": 3.2464,
      "grad_norm": 2.6675426959991455,
      "learning_rate": 0.0005991999999999999,
      "loss": 2.862,
      "step": 2029
    },
    {
      "epoch": 3.248,
      "grad_norm": 3.681030750274658,
      "learning_rate": 0.0005989999999999999,
      "loss": 3.2253,
      "step": 2030
    },
    {
      "epoch": 3.2496,
      "grad_norm": 3.5721378326416016,
      "learning_rate": 0.0005987999999999999,
      "loss": 3.0141,
      "step": 2031
    },
    {
      "epoch": 3.2512,
      "grad_norm": 2.2624754905700684,
      "learning_rate": 0.0005986,
      "loss": 2.6375,
      "step": 2032
    },
    {
      "epoch": 3.2528,
      "grad_norm": 2.0107228755950928,
      "learning_rate": 0.0005983999999999999,
      "loss": 2.6202,
      "step": 2033
    },
    {
      "epoch": 3.2544,
      "grad_norm": 2.3134191036224365,
      "learning_rate": 0.0005981999999999999,
      "loss": 2.6874,
      "step": 2034
    },
    {
      "epoch": 3.2560000000000002,
      "grad_norm": 27.417612075805664,
      "learning_rate": 0.000598,
      "loss": 3.7857,
      "step": 2035
    },
    {
      "epoch": 3.2576,
      "grad_norm": 10.154114723205566,
      "learning_rate": 0.0005977999999999999,
      "loss": 2.9672,
      "step": 2036
    },
    {
      "epoch": 3.2592,
      "grad_norm": 5.68153715133667,
      "learning_rate": 0.0005976,
      "loss": 2.6946,
      "step": 2037
    },
    {
      "epoch": 3.2608,
      "grad_norm": 3.4215259552001953,
      "learning_rate": 0.0005974,
      "loss": 2.5735,
      "step": 2038
    },
    {
      "epoch": 3.2624,
      "grad_norm": 9.281172752380371,
      "learning_rate": 0.0005971999999999999,
      "loss": 2.7988,
      "step": 2039
    },
    {
      "epoch": 3.2640000000000002,
      "grad_norm": 4.832975387573242,
      "learning_rate": 0.000597,
      "loss": 2.6848,
      "step": 2040
    },
    {
      "epoch": 3.2656,
      "grad_norm": 4.111706256866455,
      "learning_rate": 0.0005968,
      "loss": 2.951,
      "step": 2041
    },
    {
      "epoch": 3.2672,
      "grad_norm": 2.7047650814056396,
      "learning_rate": 0.0005966,
      "loss": 2.9283,
      "step": 2042
    },
    {
      "epoch": 3.2688,
      "grad_norm": 3.965059995651245,
      "learning_rate": 0.0005964,
      "loss": 2.6947,
      "step": 2043
    },
    {
      "epoch": 3.2704,
      "grad_norm": 2.8490593433380127,
      "learning_rate": 0.0005962,
      "loss": 2.4638,
      "step": 2044
    },
    {
      "epoch": 3.2720000000000002,
      "grad_norm": 3.065896511077881,
      "learning_rate": 0.000596,
      "loss": 2.3995,
      "step": 2045
    },
    {
      "epoch": 3.2736,
      "grad_norm": 4.135379314422607,
      "learning_rate": 0.0005958,
      "loss": 2.5321,
      "step": 2046
    },
    {
      "epoch": 3.2752,
      "grad_norm": 3.0422980785369873,
      "learning_rate": 0.0005956,
      "loss": 2.3867,
      "step": 2047
    },
    {
      "epoch": 3.2768,
      "grad_norm": 3.1054189205169678,
      "learning_rate": 0.0005953999999999999,
      "loss": 2.3821,
      "step": 2048
    },
    {
      "epoch": 3.2784,
      "grad_norm": 1.8611743450164795,
      "learning_rate": 0.0005951999999999999,
      "loss": 2.4836,
      "step": 2049
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 3.28997540473938,
      "learning_rate": 0.0005949999999999999,
      "loss": 2.7678,
      "step": 2050
    },
    {
      "epoch": 3.2816,
      "grad_norm": 3.161947011947632,
      "learning_rate": 0.0005947999999999999,
      "loss": 2.4457,
      "step": 2051
    },
    {
      "epoch": 3.2832,
      "grad_norm": 3.553466558456421,
      "learning_rate": 0.0005945999999999999,
      "loss": 2.2187,
      "step": 2052
    },
    {
      "epoch": 3.2848,
      "grad_norm": 2.138315439224243,
      "learning_rate": 0.0005943999999999999,
      "loss": 2.4322,
      "step": 2053
    },
    {
      "epoch": 3.2864,
      "grad_norm": 2.237607717514038,
      "learning_rate": 0.0005941999999999999,
      "loss": 2.5734,
      "step": 2054
    },
    {
      "epoch": 3.288,
      "grad_norm": 2.6869661808013916,
      "learning_rate": 0.0005939999999999999,
      "loss": 2.4021,
      "step": 2055
    },
    {
      "epoch": 3.2896,
      "grad_norm": 1.8337856531143188,
      "learning_rate": 0.0005938,
      "loss": 2.533,
      "step": 2056
    },
    {
      "epoch": 3.2912,
      "grad_norm": 4.238888263702393,
      "learning_rate": 0.0005935999999999999,
      "loss": 2.5023,
      "step": 2057
    },
    {
      "epoch": 3.2928,
      "grad_norm": 5.389216899871826,
      "learning_rate": 0.0005933999999999999,
      "loss": 2.6831,
      "step": 2058
    },
    {
      "epoch": 3.2944,
      "grad_norm": 7.200102806091309,
      "learning_rate": 0.0005932,
      "loss": 2.7044,
      "step": 2059
    },
    {
      "epoch": 3.296,
      "grad_norm": 6.210408687591553,
      "learning_rate": 0.0005929999999999999,
      "loss": 2.7682,
      "step": 2060
    },
    {
      "epoch": 3.2976,
      "grad_norm": 2.685565233230591,
      "learning_rate": 0.0005928,
      "loss": 2.504,
      "step": 2061
    },
    {
      "epoch": 3.2992,
      "grad_norm": 3.0856990814208984,
      "learning_rate": 0.0005926,
      "loss": 2.4779,
      "step": 2062
    },
    {
      "epoch": 3.3008,
      "grad_norm": 2.0148448944091797,
      "learning_rate": 0.0005923999999999999,
      "loss": 2.3513,
      "step": 2063
    },
    {
      "epoch": 3.3024,
      "grad_norm": 2.684429883956909,
      "learning_rate": 0.0005922,
      "loss": 2.612,
      "step": 2064
    },
    {
      "epoch": 3.304,
      "grad_norm": 1.8254823684692383,
      "learning_rate": 0.000592,
      "loss": 2.2172,
      "step": 2065
    },
    {
      "epoch": 3.3056,
      "grad_norm": 2.231571674346924,
      "learning_rate": 0.0005918,
      "loss": 2.5103,
      "step": 2066
    },
    {
      "epoch": 3.3072,
      "grad_norm": 1.586329698562622,
      "learning_rate": 0.0005916,
      "loss": 2.5327,
      "step": 2067
    },
    {
      "epoch": 3.3088,
      "grad_norm": 2.507460832595825,
      "learning_rate": 0.0005914,
      "loss": 3.0766,
      "step": 2068
    },
    {
      "epoch": 3.3104,
      "grad_norm": 2.443678855895996,
      "learning_rate": 0.0005912,
      "loss": 2.6095,
      "step": 2069
    },
    {
      "epoch": 3.312,
      "grad_norm": 5.117314338684082,
      "learning_rate": 0.0005909999999999999,
      "loss": 2.3947,
      "step": 2070
    },
    {
      "epoch": 3.3136,
      "grad_norm": 8.64423656463623,
      "learning_rate": 0.0005907999999999999,
      "loss": 3.0027,
      "step": 2071
    },
    {
      "epoch": 3.3152,
      "grad_norm": 3.596308946609497,
      "learning_rate": 0.0005905999999999999,
      "loss": 2.4804,
      "step": 2072
    },
    {
      "epoch": 3.3168,
      "grad_norm": 2.0442867279052734,
      "learning_rate": 0.0005903999999999999,
      "loss": 2.5104,
      "step": 2073
    },
    {
      "epoch": 3.3184,
      "grad_norm": 1.5353082418441772,
      "learning_rate": 0.0005901999999999999,
      "loss": 2.6682,
      "step": 2074
    },
    {
      "epoch": 3.32,
      "grad_norm": NaN,
      "learning_rate": 0.0005901999999999999,
      "loss": 3.3712,
      "step": 2075
    },
    {
      "epoch": 3.3216,
      "grad_norm": 5.499607563018799,
      "learning_rate": 0.0005899999999999999,
      "loss": 3.4196,
      "step": 2076
    },
    {
      "epoch": 3.3232,
      "grad_norm": 2.8983004093170166,
      "learning_rate": 0.0005897999999999999,
      "loss": 2.9806,
      "step": 2077
    },
    {
      "epoch": 3.3247999999999998,
      "grad_norm": 3.1704025268554688,
      "learning_rate": 0.0005895999999999999,
      "loss": 2.9869,
      "step": 2078
    },
    {
      "epoch": 3.3264,
      "grad_norm": 14.21891975402832,
      "learning_rate": 0.0005893999999999999,
      "loss": 3.5013,
      "step": 2079
    },
    {
      "epoch": 3.328,
      "grad_norm": 11.844083786010742,
      "learning_rate": 0.0005891999999999999,
      "loss": 3.1626,
      "step": 2080
    },
    {
      "epoch": 3.3296,
      "grad_norm": 18.769367218017578,
      "learning_rate": 0.000589,
      "loss": 3.3018,
      "step": 2081
    },
    {
      "epoch": 3.3312,
      "grad_norm": 5.585927963256836,
      "learning_rate": 0.0005887999999999999,
      "loss": 3.0258,
      "step": 2082
    },
    {
      "epoch": 3.3327999999999998,
      "grad_norm": 6.997848987579346,
      "learning_rate": 0.0005885999999999999,
      "loss": 2.7815,
      "step": 2083
    },
    {
      "epoch": 3.3344,
      "grad_norm": 7.808254718780518,
      "learning_rate": 0.0005884,
      "loss": 2.7257,
      "step": 2084
    },
    {
      "epoch": 3.336,
      "grad_norm": 3.34100604057312,
      "learning_rate": 0.0005881999999999999,
      "loss": 2.631,
      "step": 2085
    },
    {
      "epoch": 3.3376,
      "grad_norm": 2.386023998260498,
      "learning_rate": 0.000588,
      "loss": 2.6013,
      "step": 2086
    },
    {
      "epoch": 3.3392,
      "grad_norm": 2.3267204761505127,
      "learning_rate": 0.0005878,
      "loss": 2.4455,
      "step": 2087
    },
    {
      "epoch": 3.3407999999999998,
      "grad_norm": 3.6707804203033447,
      "learning_rate": 0.0005875999999999999,
      "loss": 2.5229,
      "step": 2088
    },
    {
      "epoch": 3.3424,
      "grad_norm": 2.1236207485198975,
      "learning_rate": 0.0005874,
      "loss": 2.5236,
      "step": 2089
    },
    {
      "epoch": 3.344,
      "grad_norm": 3.2923009395599365,
      "learning_rate": 0.0005872,
      "loss": 2.642,
      "step": 2090
    },
    {
      "epoch": 3.3456,
      "grad_norm": 5.383463382720947,
      "learning_rate": 0.000587,
      "loss": 2.5033,
      "step": 2091
    },
    {
      "epoch": 3.3472,
      "grad_norm": 18.03877067565918,
      "learning_rate": 0.0005868,
      "loss": 3.8571,
      "step": 2092
    },
    {
      "epoch": 3.3487999999999998,
      "grad_norm": 3.8737637996673584,
      "learning_rate": 0.0005866,
      "loss": 2.5824,
      "step": 2093
    },
    {
      "epoch": 3.3504,
      "grad_norm": 3.6687588691711426,
      "learning_rate": 0.0005863999999999999,
      "loss": 2.6839,
      "step": 2094
    },
    {
      "epoch": 3.352,
      "grad_norm": 2.334989547729492,
      "learning_rate": 0.0005861999999999999,
      "loss": 2.9145,
      "step": 2095
    },
    {
      "epoch": 3.3536,
      "grad_norm": 2.323333501815796,
      "learning_rate": 0.0005859999999999999,
      "loss": 2.7732,
      "step": 2096
    },
    {
      "epoch": 3.3552,
      "grad_norm": 2.2676596641540527,
      "learning_rate": 0.0005857999999999999,
      "loss": 2.5097,
      "step": 2097
    },
    {
      "epoch": 3.3568,
      "grad_norm": 6.144402503967285,
      "learning_rate": 0.0005855999999999999,
      "loss": 2.5556,
      "step": 2098
    },
    {
      "epoch": 3.3584,
      "grad_norm": 3.086674690246582,
      "learning_rate": 0.0005853999999999999,
      "loss": 2.8186,
      "step": 2099
    },
    {
      "epoch": 3.36,
      "grad_norm": 2.0040550231933594,
      "learning_rate": 0.0005852,
      "loss": 2.7517,
      "step": 2100
    },
    {
      "epoch": 3.3616,
      "grad_norm": 2.953817367553711,
      "learning_rate": 0.0005849999999999999,
      "loss": 2.2774,
      "step": 2101
    },
    {
      "epoch": 3.3632,
      "grad_norm": 3.084397554397583,
      "learning_rate": 0.0005848,
      "loss": 2.5014,
      "step": 2102
    },
    {
      "epoch": 3.3648,
      "grad_norm": 4.549737453460693,
      "learning_rate": 0.0005846,
      "loss": 2.5644,
      "step": 2103
    },
    {
      "epoch": 3.3664,
      "grad_norm": 4.3595356941223145,
      "learning_rate": 0.0005843999999999999,
      "loss": 2.4014,
      "step": 2104
    },
    {
      "epoch": 3.368,
      "grad_norm": 7.38173770904541,
      "learning_rate": 0.0005842,
      "loss": 2.6751,
      "step": 2105
    },
    {
      "epoch": 3.3696,
      "grad_norm": 2.3727738857269287,
      "learning_rate": 0.000584,
      "loss": 2.5866,
      "step": 2106
    },
    {
      "epoch": 3.3712,
      "grad_norm": 2.507899045944214,
      "learning_rate": 0.0005838,
      "loss": 2.735,
      "step": 2107
    },
    {
      "epoch": 3.3728,
      "grad_norm": 1.9190720319747925,
      "learning_rate": 0.0005836,
      "loss": 2.9674,
      "step": 2108
    },
    {
      "epoch": 3.3744,
      "grad_norm": 3.665943145751953,
      "learning_rate": 0.0005834,
      "loss": 2.5277,
      "step": 2109
    },
    {
      "epoch": 3.376,
      "grad_norm": 6.320660591125488,
      "learning_rate": 0.0005832,
      "loss": 2.5458,
      "step": 2110
    },
    {
      "epoch": 3.3776,
      "grad_norm": 4.5971503257751465,
      "learning_rate": 0.000583,
      "loss": 2.1244,
      "step": 2111
    },
    {
      "epoch": 3.3792,
      "grad_norm": 4.167581558227539,
      "learning_rate": 0.0005828,
      "loss": 2.5984,
      "step": 2112
    },
    {
      "epoch": 3.3808,
      "grad_norm": 3.1671297550201416,
      "learning_rate": 0.0005826,
      "loss": 2.6531,
      "step": 2113
    },
    {
      "epoch": 3.3824,
      "grad_norm": 1.7537808418273926,
      "learning_rate": 0.0005824,
      "loss": 2.2473,
      "step": 2114
    },
    {
      "epoch": 3.384,
      "grad_norm": 2.429500102996826,
      "learning_rate": 0.0005822,
      "loss": 2.6241,
      "step": 2115
    },
    {
      "epoch": 3.3856,
      "grad_norm": 7.364534378051758,
      "learning_rate": 0.0005819999999999999,
      "loss": 2.5622,
      "step": 2116
    },
    {
      "epoch": 3.3872,
      "grad_norm": 2.009014844894409,
      "learning_rate": 0.0005817999999999999,
      "loss": 2.7381,
      "step": 2117
    },
    {
      "epoch": 3.3888,
      "grad_norm": 4.46831750869751,
      "learning_rate": 0.0005815999999999999,
      "loss": 2.6733,
      "step": 2118
    },
    {
      "epoch": 3.3904,
      "grad_norm": 1.760084629058838,
      "learning_rate": 0.0005813999999999999,
      "loss": 2.7984,
      "step": 2119
    },
    {
      "epoch": 3.392,
      "grad_norm": 1.8434828519821167,
      "learning_rate": 0.0005811999999999999,
      "loss": 3.2522,
      "step": 2120
    },
    {
      "epoch": 3.3936,
      "grad_norm": 5.597031593322754,
      "learning_rate": 0.000581,
      "loss": 2.8036,
      "step": 2121
    },
    {
      "epoch": 3.3952,
      "grad_norm": 5.435385227203369,
      "learning_rate": 0.0005807999999999999,
      "loss": 2.7302,
      "step": 2122
    },
    {
      "epoch": 3.3968,
      "grad_norm": 3.0995161533355713,
      "learning_rate": 0.0005805999999999999,
      "loss": 2.7353,
      "step": 2123
    },
    {
      "epoch": 3.3984,
      "grad_norm": 3.709087610244751,
      "learning_rate": 0.0005804,
      "loss": 2.9114,
      "step": 2124
    },
    {
      "epoch": 3.4,
      "grad_norm": NaN,
      "learning_rate": 0.0005804,
      "loss": 2.6715,
      "step": 2125
    },
    {
      "epoch": 3.4016,
      "grad_norm": 36.76521682739258,
      "learning_rate": 0.0005801999999999999,
      "loss": 4.7221,
      "step": 2126
    },
    {
      "epoch": 3.4032,
      "grad_norm": 2.8888540267944336,
      "learning_rate": 0.00058,
      "loss": 3.1805,
      "step": 2127
    },
    {
      "epoch": 3.4048,
      "grad_norm": 3.92763614654541,
      "learning_rate": 0.0005798,
      "loss": 3.751,
      "step": 2128
    },
    {
      "epoch": 3.4064,
      "grad_norm": 3.051140785217285,
      "learning_rate": 0.0005795999999999999,
      "loss": 3.4025,
      "step": 2129
    },
    {
      "epoch": 3.408,
      "grad_norm": 4.9858574867248535,
      "learning_rate": 0.0005794,
      "loss": 3.3216,
      "step": 2130
    },
    {
      "epoch": 3.4096,
      "grad_norm": 1.9907106161117554,
      "learning_rate": 0.0005792,
      "loss": 3.0417,
      "step": 2131
    },
    {
      "epoch": 3.4112,
      "grad_norm": 5.9723920822143555,
      "learning_rate": 0.000579,
      "loss": 2.9545,
      "step": 2132
    },
    {
      "epoch": 3.4128,
      "grad_norm": 4.6594929695129395,
      "learning_rate": 0.0005788,
      "loss": 3.3907,
      "step": 2133
    },
    {
      "epoch": 3.4144,
      "grad_norm": 3.687283754348755,
      "learning_rate": 0.0005786,
      "loss": 2.7718,
      "step": 2134
    },
    {
      "epoch": 3.416,
      "grad_norm": 2.3645780086517334,
      "learning_rate": 0.0005784,
      "loss": 2.6572,
      "step": 2135
    },
    {
      "epoch": 3.4176,
      "grad_norm": 4.219537734985352,
      "learning_rate": 0.0005782,
      "loss": 3.1178,
      "step": 2136
    },
    {
      "epoch": 3.4192,
      "grad_norm": 8.279850006103516,
      "learning_rate": 0.000578,
      "loss": 2.7765,
      "step": 2137
    },
    {
      "epoch": 3.4208,
      "grad_norm": 8.785918235778809,
      "learning_rate": 0.0005778,
      "loss": 2.9478,
      "step": 2138
    },
    {
      "epoch": 3.4224,
      "grad_norm": 4.895820617675781,
      "learning_rate": 0.0005775999999999999,
      "loss": 2.7274,
      "step": 2139
    },
    {
      "epoch": 3.424,
      "grad_norm": 4.281044006347656,
      "learning_rate": 0.0005773999999999999,
      "loss": 2.761,
      "step": 2140
    },
    {
      "epoch": 3.4256,
      "grad_norm": 6.915059566497803,
      "learning_rate": 0.0005771999999999999,
      "loss": 2.6285,
      "step": 2141
    },
    {
      "epoch": 3.4272,
      "grad_norm": 4.3538737297058105,
      "learning_rate": 0.0005769999999999999,
      "loss": 2.5224,
      "step": 2142
    },
    {
      "epoch": 3.4288,
      "grad_norm": 3.245569944381714,
      "learning_rate": 0.0005767999999999999,
      "loss": 3.0929,
      "step": 2143
    },
    {
      "epoch": 3.4304,
      "grad_norm": 3.608419179916382,
      "learning_rate": 0.0005765999999999999,
      "loss": 2.7562,
      "step": 2144
    },
    {
      "epoch": 3.432,
      "grad_norm": 3.6872401237487793,
      "learning_rate": 0.0005763999999999999,
      "loss": 3.4305,
      "step": 2145
    },
    {
      "epoch": 3.4336,
      "grad_norm": 6.966886043548584,
      "learning_rate": 0.0005762,
      "loss": 3.7485,
      "step": 2146
    },
    {
      "epoch": 3.4352,
      "grad_norm": 3.857985496520996,
      "learning_rate": 0.0005759999999999999,
      "loss": 2.6345,
      "step": 2147
    },
    {
      "epoch": 3.4368,
      "grad_norm": 2.1783053874969482,
      "learning_rate": 0.0005757999999999999,
      "loss": 2.4628,
      "step": 2148
    },
    {
      "epoch": 3.4384,
      "grad_norm": 3.5218007564544678,
      "learning_rate": 0.0005756,
      "loss": 2.4832,
      "step": 2149
    },
    {
      "epoch": 3.44,
      "grad_norm": 3.616251230239868,
      "learning_rate": 0.0005753999999999999,
      "loss": 2.6505,
      "step": 2150
    },
    {
      "epoch": 3.4416,
      "grad_norm": 9.68862533569336,
      "learning_rate": 0.0005752,
      "loss": 2.672,
      "step": 2151
    },
    {
      "epoch": 3.4432,
      "grad_norm": 8.697070121765137,
      "learning_rate": 0.000575,
      "loss": 2.7261,
      "step": 2152
    },
    {
      "epoch": 3.4448,
      "grad_norm": 4.014763832092285,
      "learning_rate": 0.0005747999999999999,
      "loss": 2.955,
      "step": 2153
    },
    {
      "epoch": 3.4464,
      "grad_norm": 6.026673793792725,
      "learning_rate": 0.0005746,
      "loss": 2.541,
      "step": 2154
    },
    {
      "epoch": 3.448,
      "grad_norm": 2.990135908126831,
      "learning_rate": 0.0005744,
      "loss": 2.7884,
      "step": 2155
    },
    {
      "epoch": 3.4496,
      "grad_norm": 2.3250844478607178,
      "learning_rate": 0.0005742,
      "loss": 2.6858,
      "step": 2156
    },
    {
      "epoch": 3.4512,
      "grad_norm": 2.917367696762085,
      "learning_rate": 0.000574,
      "loss": 2.6458,
      "step": 2157
    },
    {
      "epoch": 3.4528,
      "grad_norm": 3.353424310684204,
      "learning_rate": 0.0005738,
      "loss": 2.7368,
      "step": 2158
    },
    {
      "epoch": 3.4544,
      "grad_norm": 4.0551323890686035,
      "learning_rate": 0.0005736,
      "loss": 2.8494,
      "step": 2159
    },
    {
      "epoch": 3.456,
      "grad_norm": 2.2357308864593506,
      "learning_rate": 0.0005734,
      "loss": 2.4518,
      "step": 2160
    },
    {
      "epoch": 3.4576000000000002,
      "grad_norm": 2.1687746047973633,
      "learning_rate": 0.0005732,
      "loss": 2.4907,
      "step": 2161
    },
    {
      "epoch": 3.4592,
      "grad_norm": 2.188624143600464,
      "learning_rate": 0.0005729999999999999,
      "loss": 3.0182,
      "step": 2162
    },
    {
      "epoch": 3.4608,
      "grad_norm": 3.905832052230835,
      "learning_rate": 0.0005727999999999999,
      "loss": 2.6255,
      "step": 2163
    },
    {
      "epoch": 3.4624,
      "grad_norm": 2.897252321243286,
      "learning_rate": 0.0005725999999999999,
      "loss": 2.6728,
      "step": 2164
    },
    {
      "epoch": 3.464,
      "grad_norm": 4.757837772369385,
      "learning_rate": 0.0005723999999999999,
      "loss": 2.8212,
      "step": 2165
    },
    {
      "epoch": 3.4656000000000002,
      "grad_norm": 5.804827690124512,
      "learning_rate": 0.0005721999999999999,
      "loss": 3.5648,
      "step": 2166
    },
    {
      "epoch": 3.4672,
      "grad_norm": 4.273700714111328,
      "learning_rate": 0.0005719999999999999,
      "loss": 2.8125,
      "step": 2167
    },
    {
      "epoch": 3.4688,
      "grad_norm": 3.1538400650024414,
      "learning_rate": 0.0005717999999999999,
      "loss": 2.6748,
      "step": 2168
    },
    {
      "epoch": 3.4704,
      "grad_norm": 2.156485080718994,
      "learning_rate": 0.0005715999999999999,
      "loss": 2.8008,
      "step": 2169
    },
    {
      "epoch": 3.472,
      "grad_norm": 2.4508657455444336,
      "learning_rate": 0.0005714,
      "loss": 3.0445,
      "step": 2170
    },
    {
      "epoch": 3.4736000000000002,
      "grad_norm": 2.667672634124756,
      "learning_rate": 0.0005711999999999999,
      "loss": 3.0013,
      "step": 2171
    },
    {
      "epoch": 3.4752,
      "grad_norm": 2.244243860244751,
      "learning_rate": 0.0005709999999999999,
      "loss": 2.8604,
      "step": 2172
    },
    {
      "epoch": 3.4768,
      "grad_norm": 2.0999715328216553,
      "learning_rate": 0.0005708,
      "loss": 3.1734,
      "step": 2173
    },
    {
      "epoch": 3.4784,
      "grad_norm": 3.0818936824798584,
      "learning_rate": 0.0005705999999999999,
      "loss": 3.456,
      "step": 2174
    },
    {
      "epoch": 3.48,
      "grad_norm": 2.844378709793091,
      "learning_rate": 0.0005704,
      "loss": 3.211,
      "step": 2175
    },
    {
      "epoch": 3.4816,
      "grad_norm": 19.489864349365234,
      "learning_rate": 0.0005702,
      "loss": 4.3387,
      "step": 2176
    },
    {
      "epoch": 3.4832,
      "grad_norm": 20.620067596435547,
      "learning_rate": 0.00057,
      "loss": 3.8751,
      "step": 2177
    },
    {
      "epoch": 3.4848,
      "grad_norm": 20.510961532592773,
      "learning_rate": 0.0005698,
      "loss": 3.9736,
      "step": 2178
    },
    {
      "epoch": 3.4864,
      "grad_norm": 13.105198860168457,
      "learning_rate": 0.0005696,
      "loss": 3.1943,
      "step": 2179
    },
    {
      "epoch": 3.488,
      "grad_norm": 16.707609176635742,
      "learning_rate": 0.0005694,
      "loss": 3.9101,
      "step": 2180
    },
    {
      "epoch": 3.4896,
      "grad_norm": 11.06164836883545,
      "learning_rate": 0.0005692,
      "loss": 3.3959,
      "step": 2181
    },
    {
      "epoch": 3.4912,
      "grad_norm": 10.18997573852539,
      "learning_rate": 0.000569,
      "loss": 4.1144,
      "step": 2182
    },
    {
      "epoch": 3.4928,
      "grad_norm": 3.5979034900665283,
      "learning_rate": 0.0005688,
      "loss": 3.6712,
      "step": 2183
    },
    {
      "epoch": 3.4944,
      "grad_norm": 5.594130992889404,
      "learning_rate": 0.0005685999999999999,
      "loss": 3.3385,
      "step": 2184
    },
    {
      "epoch": 3.496,
      "grad_norm": 4.669001579284668,
      "learning_rate": 0.0005683999999999999,
      "loss": 2.8457,
      "step": 2185
    },
    {
      "epoch": 3.4976,
      "grad_norm": 3.709428310394287,
      "learning_rate": 0.0005681999999999999,
      "loss": 3.1379,
      "step": 2186
    },
    {
      "epoch": 3.4992,
      "grad_norm": 2.764406204223633,
      "learning_rate": 0.0005679999999999999,
      "loss": 2.9813,
      "step": 2187
    },
    {
      "epoch": 3.5008,
      "grad_norm": 5.064258575439453,
      "learning_rate": 0.0005677999999999999,
      "loss": 3.1149,
      "step": 2188
    },
    {
      "epoch": 3.5023999999999997,
      "grad_norm": 7.851861953735352,
      "learning_rate": 0.0005675999999999999,
      "loss": 2.8176,
      "step": 2189
    },
    {
      "epoch": 3.504,
      "grad_norm": 11.211861610412598,
      "learning_rate": 0.0005673999999999999,
      "loss": 3.3833,
      "step": 2190
    },
    {
      "epoch": 3.5056000000000003,
      "grad_norm": 11.95122241973877,
      "learning_rate": 0.0005672,
      "loss": 3.6712,
      "step": 2191
    },
    {
      "epoch": 3.5072,
      "grad_norm": 10.484594345092773,
      "learning_rate": 0.0005669999999999999,
      "loss": 3.233,
      "step": 2192
    },
    {
      "epoch": 3.5088,
      "grad_norm": 34.02505874633789,
      "learning_rate": 0.0005667999999999999,
      "loss": 4.0065,
      "step": 2193
    },
    {
      "epoch": 3.5103999999999997,
      "grad_norm": 7.815525531768799,
      "learning_rate": 0.0005666,
      "loss": 2.5542,
      "step": 2194
    },
    {
      "epoch": 3.512,
      "grad_norm": 2.106872320175171,
      "learning_rate": 0.0005663999999999999,
      "loss": 2.8195,
      "step": 2195
    },
    {
      "epoch": 3.5136,
      "grad_norm": 3.031090497970581,
      "learning_rate": 0.0005662,
      "loss": 3.145,
      "step": 2196
    },
    {
      "epoch": 3.5152,
      "grad_norm": 2.442329168319702,
      "learning_rate": 0.000566,
      "loss": 2.8421,
      "step": 2197
    },
    {
      "epoch": 3.5168,
      "grad_norm": 2.5574185848236084,
      "learning_rate": 0.0005657999999999999,
      "loss": 3.4521,
      "step": 2198
    },
    {
      "epoch": 3.5183999999999997,
      "grad_norm": 4.203116416931152,
      "learning_rate": 0.0005656,
      "loss": 2.9609,
      "step": 2199
    },
    {
      "epoch": 3.52,
      "grad_norm": 6.534364223480225,
      "learning_rate": 0.0005654,
      "loss": 3.5474,
      "step": 2200
    },
    {
      "epoch": 3.5216,
      "grad_norm": 8.213438034057617,
      "learning_rate": 0.0005652,
      "loss": 3.1475,
      "step": 2201
    },
    {
      "epoch": 3.5232,
      "grad_norm": 8.855327606201172,
      "learning_rate": 0.000565,
      "loss": 3.3337,
      "step": 2202
    },
    {
      "epoch": 3.5248,
      "grad_norm": 5.681925296783447,
      "learning_rate": 0.0005648,
      "loss": 2.9456,
      "step": 2203
    },
    {
      "epoch": 3.5263999999999998,
      "grad_norm": 10.223812103271484,
      "learning_rate": 0.0005646,
      "loss": 3.1749,
      "step": 2204
    },
    {
      "epoch": 3.528,
      "grad_norm": 4.700658321380615,
      "learning_rate": 0.0005644,
      "loss": 3.2825,
      "step": 2205
    },
    {
      "epoch": 3.5296,
      "grad_norm": 3.4023351669311523,
      "learning_rate": 0.0005641999999999999,
      "loss": 2.734,
      "step": 2206
    },
    {
      "epoch": 3.5312,
      "grad_norm": 4.814945220947266,
      "learning_rate": 0.0005639999999999999,
      "loss": 2.5598,
      "step": 2207
    },
    {
      "epoch": 3.5328,
      "grad_norm": 4.566649436950684,
      "learning_rate": 0.0005637999999999999,
      "loss": 2.9104,
      "step": 2208
    },
    {
      "epoch": 3.5343999999999998,
      "grad_norm": 2.31830096244812,
      "learning_rate": 0.0005635999999999999,
      "loss": 2.575,
      "step": 2209
    },
    {
      "epoch": 3.536,
      "grad_norm": 4.133569717407227,
      "learning_rate": 0.0005633999999999999,
      "loss": 3.195,
      "step": 2210
    },
    {
      "epoch": 3.5376,
      "grad_norm": 2.573678731918335,
      "learning_rate": 0.0005631999999999999,
      "loss": 3.7206,
      "step": 2211
    },
    {
      "epoch": 3.5392,
      "grad_norm": 7.069974422454834,
      "learning_rate": 0.0005629999999999999,
      "loss": 3.3338,
      "step": 2212
    },
    {
      "epoch": 3.5408,
      "grad_norm": 3.81504225730896,
      "learning_rate": 0.0005627999999999999,
      "loss": 2.5689,
      "step": 2213
    },
    {
      "epoch": 3.5423999999999998,
      "grad_norm": 8.163509368896484,
      "learning_rate": 0.0005625999999999999,
      "loss": 3.3907,
      "step": 2214
    },
    {
      "epoch": 3.544,
      "grad_norm": 5.199379920959473,
      "learning_rate": 0.0005624,
      "loss": 2.9082,
      "step": 2215
    },
    {
      "epoch": 3.5456,
      "grad_norm": 3.8271634578704834,
      "learning_rate": 0.0005622,
      "loss": 2.9105,
      "step": 2216
    },
    {
      "epoch": 3.5472,
      "grad_norm": 3.3696279525756836,
      "learning_rate": 0.0005619999999999999,
      "loss": 2.8964,
      "step": 2217
    },
    {
      "epoch": 3.5488,
      "grad_norm": 2.7918050289154053,
      "learning_rate": 0.0005618,
      "loss": 2.9344,
      "step": 2218
    },
    {
      "epoch": 3.5504,
      "grad_norm": 2.721285343170166,
      "learning_rate": 0.0005616,
      "loss": 3.0515,
      "step": 2219
    },
    {
      "epoch": 3.552,
      "grad_norm": 2.7775137424468994,
      "learning_rate": 0.0005614,
      "loss": 2.8442,
      "step": 2220
    },
    {
      "epoch": 3.5536,
      "grad_norm": 2.965029001235962,
      "learning_rate": 0.0005612,
      "loss": 3.2262,
      "step": 2221
    },
    {
      "epoch": 3.5552,
      "grad_norm": 2.9676098823547363,
      "learning_rate": 0.000561,
      "loss": 3.0243,
      "step": 2222
    },
    {
      "epoch": 3.5568,
      "grad_norm": 2.839040756225586,
      "learning_rate": 0.0005608,
      "loss": 3.2154,
      "step": 2223
    },
    {
      "epoch": 3.5584,
      "grad_norm": 5.983321666717529,
      "learning_rate": 0.0005606,
      "loss": 2.9206,
      "step": 2224
    },
    {
      "epoch": 3.56,
      "grad_norm": NaN,
      "learning_rate": 0.0005606,
      "loss": 3.0367,
      "step": 2225
    },
    {
      "epoch": 3.5616,
      "grad_norm": 55.5407600402832,
      "learning_rate": 0.0005604,
      "loss": 6.4386,
      "step": 2226
    },
    {
      "epoch": 3.5632,
      "grad_norm": 9.289352416992188,
      "learning_rate": 0.0005602,
      "loss": 4.0924,
      "step": 2227
    },
    {
      "epoch": 3.5648,
      "grad_norm": 14.431886672973633,
      "learning_rate": 0.00056,
      "loss": 4.1028,
      "step": 2228
    },
    {
      "epoch": 3.5664,
      "grad_norm": 24.23824119567871,
      "learning_rate": 0.0005598,
      "loss": 5.3427,
      "step": 2229
    },
    {
      "epoch": 3.568,
      "grad_norm": 8.971092224121094,
      "learning_rate": 0.0005595999999999999,
      "loss": 4.0412,
      "step": 2230
    },
    {
      "epoch": 3.5696,
      "grad_norm": 17.683528900146484,
      "learning_rate": 0.0005593999999999999,
      "loss": 3.9749,
      "step": 2231
    },
    {
      "epoch": 3.5712,
      "grad_norm": 3.934190511703491,
      "learning_rate": 0.0005591999999999999,
      "loss": 4.0728,
      "step": 2232
    },
    {
      "epoch": 3.5728,
      "grad_norm": 4.2022705078125,
      "learning_rate": 0.0005589999999999999,
      "loss": 3.2269,
      "step": 2233
    },
    {
      "epoch": 3.5744,
      "grad_norm": 6.388844013214111,
      "learning_rate": 0.0005587999999999999,
      "loss": 3.4502,
      "step": 2234
    },
    {
      "epoch": 3.576,
      "grad_norm": 2.6255085468292236,
      "learning_rate": 0.0005586,
      "loss": 3.6688,
      "step": 2235
    },
    {
      "epoch": 3.5776,
      "grad_norm": 3.0032479763031006,
      "learning_rate": 0.0005583999999999999,
      "loss": 3.9305,
      "step": 2236
    },
    {
      "epoch": 3.5792,
      "grad_norm": 2.0182929039001465,
      "learning_rate": 0.0005581999999999999,
      "loss": 3.3079,
      "step": 2237
    },
    {
      "epoch": 3.5808,
      "grad_norm": 6.957843780517578,
      "learning_rate": 0.000558,
      "loss": 3.6745,
      "step": 2238
    },
    {
      "epoch": 3.5824,
      "grad_norm": 4.60112190246582,
      "learning_rate": 0.0005577999999999999,
      "loss": 2.9602,
      "step": 2239
    },
    {
      "epoch": 3.584,
      "grad_norm": 6.672953128814697,
      "learning_rate": 0.0005576,
      "loss": 3.9476,
      "step": 2240
    },
    {
      "epoch": 3.5856,
      "grad_norm": 16.332260131835938,
      "learning_rate": 0.0005574,
      "loss": 3.1406,
      "step": 2241
    },
    {
      "epoch": 3.5872,
      "grad_norm": 7.7880401611328125,
      "learning_rate": 0.0005571999999999999,
      "loss": 3.3363,
      "step": 2242
    },
    {
      "epoch": 3.5888,
      "grad_norm": 9.519548416137695,
      "learning_rate": 0.000557,
      "loss": 3.4756,
      "step": 2243
    },
    {
      "epoch": 3.5904,
      "grad_norm": 7.101512908935547,
      "learning_rate": 0.0005568,
      "loss": 3.4255,
      "step": 2244
    },
    {
      "epoch": 3.592,
      "grad_norm": 5.652818202972412,
      "learning_rate": 0.0005566,
      "loss": 2.7506,
      "step": 2245
    },
    {
      "epoch": 3.5936,
      "grad_norm": 5.916102886199951,
      "learning_rate": 0.0005564,
      "loss": 2.9571,
      "step": 2246
    },
    {
      "epoch": 3.5952,
      "grad_norm": 2.533904790878296,
      "learning_rate": 0.0005562,
      "loss": 2.5523,
      "step": 2247
    },
    {
      "epoch": 3.5968,
      "grad_norm": 2.5718328952789307,
      "learning_rate": 0.000556,
      "loss": 3.6372,
      "step": 2248
    },
    {
      "epoch": 3.5984,
      "grad_norm": 2.4668445587158203,
      "learning_rate": 0.0005558,
      "loss": 4.7817,
      "step": 2249
    },
    {
      "epoch": 3.6,
      "grad_norm": 3.1797170639038086,
      "learning_rate": 0.0005556,
      "loss": 3.0265,
      "step": 2250
    },
    {
      "epoch": 3.6016,
      "grad_norm": 2.3671298027038574,
      "learning_rate": 0.0005554,
      "loss": 2.495,
      "step": 2251
    },
    {
      "epoch": 3.6032,
      "grad_norm": 7.401203155517578,
      "learning_rate": 0.0005551999999999999,
      "loss": 3.3338,
      "step": 2252
    },
    {
      "epoch": 3.6048,
      "grad_norm": 7.648886680603027,
      "learning_rate": 0.0005549999999999999,
      "loss": 3.638,
      "step": 2253
    },
    {
      "epoch": 3.6064,
      "grad_norm": 9.498307228088379,
      "learning_rate": 0.0005547999999999999,
      "loss": 3.1476,
      "step": 2254
    },
    {
      "epoch": 3.608,
      "grad_norm": 10.403427124023438,
      "learning_rate": 0.0005545999999999999,
      "loss": 2.9936,
      "step": 2255
    },
    {
      "epoch": 3.6096,
      "grad_norm": 10.709396362304688,
      "learning_rate": 0.0005544,
      "loss": 3.9072,
      "step": 2256
    },
    {
      "epoch": 3.6112,
      "grad_norm": 5.007658958435059,
      "learning_rate": 0.0005541999999999999,
      "loss": 3.3232,
      "step": 2257
    },
    {
      "epoch": 3.6128,
      "grad_norm": 5.138033390045166,
      "learning_rate": 0.0005539999999999999,
      "loss": 3.2679,
      "step": 2258
    },
    {
      "epoch": 3.6144,
      "grad_norm": 4.138444423675537,
      "learning_rate": 0.0005538,
      "loss": 3.2151,
      "step": 2259
    },
    {
      "epoch": 3.616,
      "grad_norm": 2.749028205871582,
      "learning_rate": 0.0005535999999999999,
      "loss": 3.6335,
      "step": 2260
    },
    {
      "epoch": 3.6176,
      "grad_norm": 2.672708511352539,
      "learning_rate": 0.0005534,
      "loss": 2.5717,
      "step": 2261
    },
    {
      "epoch": 3.6192,
      "grad_norm": 2.188662528991699,
      "learning_rate": 0.0005532,
      "loss": 3.0575,
      "step": 2262
    },
    {
      "epoch": 3.6208,
      "grad_norm": 4.486994743347168,
      "learning_rate": 0.0005529999999999999,
      "loss": 3.5481,
      "step": 2263
    },
    {
      "epoch": 3.6224,
      "grad_norm": 2.5265097618103027,
      "learning_rate": 0.0005528,
      "loss": 3.0689,
      "step": 2264
    },
    {
      "epoch": 3.624,
      "grad_norm": 3.3407726287841797,
      "learning_rate": 0.0005526,
      "loss": 3.017,
      "step": 2265
    },
    {
      "epoch": 3.6256,
      "grad_norm": 6.142095565795898,
      "learning_rate": 0.0005524,
      "loss": 2.7306,
      "step": 2266
    },
    {
      "epoch": 3.6272,
      "grad_norm": 7.358902931213379,
      "learning_rate": 0.0005522,
      "loss": 5.4735,
      "step": 2267
    },
    {
      "epoch": 3.6288,
      "grad_norm": 9.835092544555664,
      "learning_rate": 0.000552,
      "loss": 5.4242,
      "step": 2268
    },
    {
      "epoch": 3.6304,
      "grad_norm": 6.334985733032227,
      "learning_rate": 0.0005518,
      "loss": 2.8247,
      "step": 2269
    },
    {
      "epoch": 3.632,
      "grad_norm": 3.05710506439209,
      "learning_rate": 0.0005516,
      "loss": 3.1278,
      "step": 2270
    },
    {
      "epoch": 3.6336,
      "grad_norm": 3.3504600524902344,
      "learning_rate": 0.0005514,
      "loss": 2.4559,
      "step": 2271
    },
    {
      "epoch": 3.6352,
      "grad_norm": 4.229508876800537,
      "learning_rate": 0.0005512,
      "loss": 3.9111,
      "step": 2272
    },
    {
      "epoch": 3.6368,
      "grad_norm": 2.7114548683166504,
      "learning_rate": 0.000551,
      "loss": 3.8723,
      "step": 2273
    },
    {
      "epoch": 3.6384,
      "grad_norm": 6.074462413787842,
      "learning_rate": 0.0005507999999999999,
      "loss": 3.4165,
      "step": 2274
    },
    {
      "epoch": 3.64,
      "grad_norm": NaN,
      "learning_rate": 0.0005507999999999999,
      "loss": 3.5407,
      "step": 2275
    },
    {
      "epoch": 3.6416,
      "grad_norm": 7.515296936035156,
      "learning_rate": 0.0005505999999999999,
      "loss": 4.6945,
      "step": 2276
    },
    {
      "epoch": 3.6432,
      "grad_norm": 0.9642918109893799,
      "learning_rate": 0.0005503999999999999,
      "loss": 4.4873,
      "step": 2277
    },
    {
      "epoch": 3.6448,
      "grad_norm": 3.470863103866577,
      "learning_rate": 0.0005501999999999999,
      "loss": 4.744,
      "step": 2278
    },
    {
      "epoch": 3.6464,
      "grad_norm": 1.6295921802520752,
      "learning_rate": 0.0005499999999999999,
      "loss": 3.9066,
      "step": 2279
    },
    {
      "epoch": 3.648,
      "grad_norm": 0.9528029561042786,
      "learning_rate": 0.0005497999999999999,
      "loss": 3.3472,
      "step": 2280
    },
    {
      "epoch": 3.6496,
      "grad_norm": 0.9496387839317322,
      "learning_rate": 0.0005496,
      "loss": 3.4575,
      "step": 2281
    },
    {
      "epoch": 3.6512000000000002,
      "grad_norm": 1.0395222902297974,
      "learning_rate": 0.0005493999999999999,
      "loss": 3.2515,
      "step": 2282
    },
    {
      "epoch": 3.6528,
      "grad_norm": 1.5674383640289307,
      "learning_rate": 0.0005491999999999999,
      "loss": 3.6947,
      "step": 2283
    },
    {
      "epoch": 3.6544,
      "grad_norm": 1.2627230882644653,
      "learning_rate": 0.000549,
      "loss": 3.0947,
      "step": 2284
    },
    {
      "epoch": 3.656,
      "grad_norm": 1.4390543699264526,
      "learning_rate": 0.0005487999999999999,
      "loss": 4.4352,
      "step": 2285
    },
    {
      "epoch": 3.6576,
      "grad_norm": 1.4020869731903076,
      "learning_rate": 0.0005486,
      "loss": 3.9516,
      "step": 2286
    },
    {
      "epoch": 3.6592000000000002,
      "grad_norm": 3.6883347034454346,
      "learning_rate": 0.0005484,
      "loss": 4.0214,
      "step": 2287
    },
    {
      "epoch": 3.6608,
      "grad_norm": 4.250986576080322,
      "learning_rate": 0.0005481999999999999,
      "loss": 3.2447,
      "step": 2288
    },
    {
      "epoch": 3.6624,
      "grad_norm": 2.007300615310669,
      "learning_rate": 0.000548,
      "loss": 4.1801,
      "step": 2289
    },
    {
      "epoch": 3.664,
      "grad_norm": 3.120436191558838,
      "learning_rate": 0.0005478,
      "loss": 4.7246,
      "step": 2290
    },
    {
      "epoch": 3.6656,
      "grad_norm": 3.354717254638672,
      "learning_rate": 0.0005476,
      "loss": 3.4444,
      "step": 2291
    },
    {
      "epoch": 3.6672000000000002,
      "grad_norm": 2.1865100860595703,
      "learning_rate": 0.0005474,
      "loss": 3.7239,
      "step": 2292
    },
    {
      "epoch": 3.6688,
      "grad_norm": 2.3343372344970703,
      "learning_rate": 0.0005472,
      "loss": 4.016,
      "step": 2293
    },
    {
      "epoch": 3.6704,
      "grad_norm": 3.9303016662597656,
      "learning_rate": 0.000547,
      "loss": 4.0466,
      "step": 2294
    },
    {
      "epoch": 3.672,
      "grad_norm": 4.819889068603516,
      "learning_rate": 0.0005468,
      "loss": 3.3989,
      "step": 2295
    },
    {
      "epoch": 3.6736,
      "grad_norm": 3.13912296295166,
      "learning_rate": 0.0005466,
      "loss": 4.0242,
      "step": 2296
    },
    {
      "epoch": 3.6752000000000002,
      "grad_norm": 2.8301594257354736,
      "learning_rate": 0.0005463999999999999,
      "loss": 3.1699,
      "step": 2297
    },
    {
      "epoch": 3.6768,
      "grad_norm": 1.9209338426589966,
      "learning_rate": 0.0005461999999999999,
      "loss": 3.1893,
      "step": 2298
    },
    {
      "epoch": 3.6784,
      "grad_norm": 1.8804454803466797,
      "learning_rate": 0.0005459999999999999,
      "loss": 3.2806,
      "step": 2299
    },
    {
      "epoch": 3.68,
      "grad_norm": 2.186152458190918,
      "learning_rate": 0.0005457999999999999,
      "loss": 2.8408,
      "step": 2300
    },
    {
      "epoch": 3.6816,
      "grad_norm": 4.055525779724121,
      "learning_rate": 0.0005455999999999999,
      "loss": 3.7474,
      "step": 2301
    },
    {
      "epoch": 3.6832000000000003,
      "grad_norm": 4.328959941864014,
      "learning_rate": 0.0005453999999999999,
      "loss": 3.3388,
      "step": 2302
    },
    {
      "epoch": 3.6848,
      "grad_norm": 12.9420804977417,
      "learning_rate": 0.0005451999999999999,
      "loss": 4.7525,
      "step": 2303
    },
    {
      "epoch": 3.6864,
      "grad_norm": 3.576298236846924,
      "learning_rate": 0.0005449999999999999,
      "loss": 3.9676,
      "step": 2304
    },
    {
      "epoch": 3.6879999999999997,
      "grad_norm": 2.730264186859131,
      "learning_rate": 0.0005448,
      "loss": 3.3703,
      "step": 2305
    },
    {
      "epoch": 3.6896,
      "grad_norm": 1.9057469367980957,
      "learning_rate": 0.0005445999999999999,
      "loss": 3.0003,
      "step": 2306
    },
    {
      "epoch": 3.6912000000000003,
      "grad_norm": 2.068631172180176,
      "learning_rate": 0.0005443999999999999,
      "loss": 3.6165,
      "step": 2307
    },
    {
      "epoch": 3.6928,
      "grad_norm": 3.0546584129333496,
      "learning_rate": 0.0005442,
      "loss": 4.0022,
      "step": 2308
    },
    {
      "epoch": 3.6944,
      "grad_norm": 5.953769207000732,
      "learning_rate": 0.0005439999999999999,
      "loss": 3.903,
      "step": 2309
    },
    {
      "epoch": 3.6959999999999997,
      "grad_norm": 3.818378448486328,
      "learning_rate": 0.0005438,
      "loss": 2.8817,
      "step": 2310
    },
    {
      "epoch": 3.6976,
      "grad_norm": 6.505511283874512,
      "learning_rate": 0.0005436,
      "loss": 4.2538,
      "step": 2311
    },
    {
      "epoch": 3.6992000000000003,
      "grad_norm": 3.884477138519287,
      "learning_rate": 0.0005433999999999999,
      "loss": 2.9049,
      "step": 2312
    },
    {
      "epoch": 3.7008,
      "grad_norm": 5.818808555603027,
      "learning_rate": 0.0005432,
      "loss": 3.8679,
      "step": 2313
    },
    {
      "epoch": 3.7024,
      "grad_norm": 2.5341482162475586,
      "learning_rate": 0.000543,
      "loss": 3.1927,
      "step": 2314
    },
    {
      "epoch": 3.7039999999999997,
      "grad_norm": 2.6208629608154297,
      "learning_rate": 0.0005428,
      "loss": 4.2163,
      "step": 2315
    },
    {
      "epoch": 3.7056,
      "grad_norm": 2.189680337905884,
      "learning_rate": 0.0005426,
      "loss": 2.5342,
      "step": 2316
    },
    {
      "epoch": 3.7072000000000003,
      "grad_norm": 2.4418387413024902,
      "learning_rate": 0.0005424,
      "loss": 3.01,
      "step": 2317
    },
    {
      "epoch": 3.7088,
      "grad_norm": 2.613811731338501,
      "learning_rate": 0.0005422,
      "loss": 2.6786,
      "step": 2318
    },
    {
      "epoch": 3.7104,
      "grad_norm": 8.510128021240234,
      "learning_rate": 0.000542,
      "loss": 3.3229,
      "step": 2319
    },
    {
      "epoch": 3.7119999999999997,
      "grad_norm": 3.6487812995910645,
      "learning_rate": 0.0005417999999999999,
      "loss": 2.6784,
      "step": 2320
    },
    {
      "epoch": 3.7136,
      "grad_norm": 3.9220001697540283,
      "learning_rate": 0.0005415999999999999,
      "loss": 3.1996,
      "step": 2321
    },
    {
      "epoch": 3.7152,
      "grad_norm": 2.069011688232422,
      "learning_rate": 0.0005413999999999999,
      "loss": 3.2684,
      "step": 2322
    },
    {
      "epoch": 3.7168,
      "grad_norm": 3.0379621982574463,
      "learning_rate": 0.0005411999999999999,
      "loss": 3.0774,
      "step": 2323
    },
    {
      "epoch": 3.7184,
      "grad_norm": 2.2943036556243896,
      "learning_rate": 0.0005409999999999999,
      "loss": 3.2742,
      "step": 2324
    },
    {
      "epoch": 3.7199999999999998,
      "grad_norm": 6.881977081298828,
      "learning_rate": 0.0005407999999999999,
      "loss": 4.7077,
      "step": 2325
    },
    {
      "epoch": 3.7216,
      "grad_norm": 81.76461791992188,
      "learning_rate": 0.0005405999999999999,
      "loss": 7.5684,
      "step": 2326
    },
    {
      "epoch": 3.7232,
      "grad_norm": 10.492643356323242,
      "learning_rate": 0.0005403999999999999,
      "loss": 4.9986,
      "step": 2327
    },
    {
      "epoch": 3.7248,
      "grad_norm": 4.756387710571289,
      "learning_rate": 0.0005401999999999999,
      "loss": 3.9451,
      "step": 2328
    },
    {
      "epoch": 3.7264,
      "grad_norm": 2.5230603218078613,
      "learning_rate": 0.00054,
      "loss": 3.8227,
      "step": 2329
    },
    {
      "epoch": 3.7279999999999998,
      "grad_norm": 2.209505796432495,
      "learning_rate": 0.0005397999999999999,
      "loss": 3.8123,
      "step": 2330
    },
    {
      "epoch": 3.7296,
      "grad_norm": 2.965146064758301,
      "learning_rate": 0.0005396,
      "loss": 4.5036,
      "step": 2331
    },
    {
      "epoch": 3.7312,
      "grad_norm": 2.212378978729248,
      "learning_rate": 0.0005394,
      "loss": 4.0939,
      "step": 2332
    },
    {
      "epoch": 3.7328,
      "grad_norm": 1.8609493970870972,
      "learning_rate": 0.0005391999999999999,
      "loss": 3.5066,
      "step": 2333
    },
    {
      "epoch": 3.7344,
      "grad_norm": 2.2023518085479736,
      "learning_rate": 0.000539,
      "loss": 3.911,
      "step": 2334
    },
    {
      "epoch": 3.7359999999999998,
      "grad_norm": 2.8470547199249268,
      "learning_rate": 0.0005388,
      "loss": 3.2395,
      "step": 2335
    },
    {
      "epoch": 3.7376,
      "grad_norm": 2.1184237003326416,
      "learning_rate": 0.0005386,
      "loss": 3.7863,
      "step": 2336
    },
    {
      "epoch": 3.7392,
      "grad_norm": 2.1715586185455322,
      "learning_rate": 0.0005384,
      "loss": 4.5799,
      "step": 2337
    },
    {
      "epoch": 3.7408,
      "grad_norm": 2.3556015491485596,
      "learning_rate": 0.0005382,
      "loss": 3.8685,
      "step": 2338
    },
    {
      "epoch": 3.7424,
      "grad_norm": 1.3282142877578735,
      "learning_rate": 0.000538,
      "loss": 3.316,
      "step": 2339
    },
    {
      "epoch": 3.7439999999999998,
      "grad_norm": 4.5761542320251465,
      "learning_rate": 0.0005378,
      "loss": 4.0411,
      "step": 2340
    },
    {
      "epoch": 3.7456,
      "grad_norm": 4.5847554206848145,
      "learning_rate": 0.0005376,
      "loss": 4.7927,
      "step": 2341
    },
    {
      "epoch": 3.7472,
      "grad_norm": 12.918116569519043,
      "learning_rate": 0.0005373999999999999,
      "loss": 3.7438,
      "step": 2342
    },
    {
      "epoch": 3.7488,
      "grad_norm": 4.8914361000061035,
      "learning_rate": 0.0005371999999999999,
      "loss": 4.3877,
      "step": 2343
    },
    {
      "epoch": 3.7504,
      "grad_norm": 5.574761867523193,
      "learning_rate": 0.0005369999999999999,
      "loss": 3.7056,
      "step": 2344
    },
    {
      "epoch": 3.752,
      "grad_norm": 6.177387237548828,
      "learning_rate": 0.0005368,
      "loss": 3.6515,
      "step": 2345
    },
    {
      "epoch": 3.7536,
      "grad_norm": 4.47343635559082,
      "learning_rate": 0.0005365999999999999,
      "loss": 3.5961,
      "step": 2346
    },
    {
      "epoch": 3.7552,
      "grad_norm": 6.870029449462891,
      "learning_rate": 0.0005363999999999999,
      "loss": 4.1159,
      "step": 2347
    },
    {
      "epoch": 3.7568,
      "grad_norm": 3.4203975200653076,
      "learning_rate": 0.0005362,
      "loss": 3.3731,
      "step": 2348
    },
    {
      "epoch": 3.7584,
      "grad_norm": 5.828915119171143,
      "learning_rate": 0.0005359999999999999,
      "loss": 3.5227,
      "step": 2349
    },
    {
      "epoch": 3.76,
      "grad_norm": 2.20630145072937,
      "learning_rate": 0.0005358,
      "loss": 3.7634,
      "step": 2350
    },
    {
      "epoch": 3.7616,
      "grad_norm": 4.080089569091797,
      "learning_rate": 0.0005356,
      "loss": 5.0694,
      "step": 2351
    },
    {
      "epoch": 3.7632,
      "grad_norm": 3.561363697052002,
      "learning_rate": 0.0005353999999999999,
      "loss": 3.7534,
      "step": 2352
    },
    {
      "epoch": 3.7648,
      "grad_norm": 3.118837833404541,
      "learning_rate": 0.0005352,
      "loss": 4.8316,
      "step": 2353
    },
    {
      "epoch": 3.7664,
      "grad_norm": 3.6192729473114014,
      "learning_rate": 0.000535,
      "loss": 3.5515,
      "step": 2354
    },
    {
      "epoch": 3.768,
      "grad_norm": 3.632134437561035,
      "learning_rate": 0.0005348,
      "loss": 3.4193,
      "step": 2355
    },
    {
      "epoch": 3.7696,
      "grad_norm": 2.139364719390869,
      "learning_rate": 0.0005346,
      "loss": 4.3545,
      "step": 2356
    },
    {
      "epoch": 3.7712,
      "grad_norm": 4.8385419845581055,
      "learning_rate": 0.0005344,
      "loss": 4.3522,
      "step": 2357
    },
    {
      "epoch": 3.7728,
      "grad_norm": 5.820652484893799,
      "learning_rate": 0.0005342,
      "loss": 3.4902,
      "step": 2358
    },
    {
      "epoch": 3.7744,
      "grad_norm": 7.365394592285156,
      "learning_rate": 0.000534,
      "loss": 3.2174,
      "step": 2359
    },
    {
      "epoch": 3.776,
      "grad_norm": 8.943775177001953,
      "learning_rate": 0.0005338,
      "loss": 3.7161,
      "step": 2360
    },
    {
      "epoch": 3.7776,
      "grad_norm": 12.740777015686035,
      "learning_rate": 0.0005336,
      "loss": 4.0428,
      "step": 2361
    },
    {
      "epoch": 3.7792,
      "grad_norm": 12.166577339172363,
      "learning_rate": 0.0005334,
      "loss": 3.3414,
      "step": 2362
    },
    {
      "epoch": 3.7808,
      "grad_norm": 8.097125053405762,
      "learning_rate": 0.0005332,
      "loss": 3.7573,
      "step": 2363
    },
    {
      "epoch": 3.7824,
      "grad_norm": 8.305039405822754,
      "learning_rate": 0.0005329999999999999,
      "loss": 4.6625,
      "step": 2364
    },
    {
      "epoch": 3.784,
      "grad_norm": 4.6849260330200195,
      "learning_rate": 0.0005327999999999999,
      "loss": 3.0211,
      "step": 2365
    },
    {
      "epoch": 3.7856,
      "grad_norm": 2.537353992462158,
      "learning_rate": 0.0005325999999999999,
      "loss": 4.5432,
      "step": 2366
    },
    {
      "epoch": 3.7872,
      "grad_norm": 2.6421570777893066,
      "learning_rate": 0.0005323999999999999,
      "loss": 2.6823,
      "step": 2367
    },
    {
      "epoch": 3.7888,
      "grad_norm": 2.8577213287353516,
      "learning_rate": 0.0005321999999999999,
      "loss": 3.7853,
      "step": 2368
    },
    {
      "epoch": 3.7904,
      "grad_norm": 2.6776928901672363,
      "learning_rate": 0.000532,
      "loss": 3.8282,
      "step": 2369
    },
    {
      "epoch": 3.792,
      "grad_norm": 2.697481632232666,
      "learning_rate": 0.0005317999999999999,
      "loss": 3.5799,
      "step": 2370
    },
    {
      "epoch": 3.7936,
      "grad_norm": 4.719255447387695,
      "learning_rate": 0.0005315999999999999,
      "loss": 3.7143,
      "step": 2371
    },
    {
      "epoch": 3.7952,
      "grad_norm": 5.107699871063232,
      "learning_rate": 0.0005314,
      "loss": 4.2279,
      "step": 2372
    },
    {
      "epoch": 3.7968,
      "grad_norm": 9.929701805114746,
      "learning_rate": 0.0005311999999999999,
      "loss": 3.9941,
      "step": 2373
    },
    {
      "epoch": 3.7984,
      "grad_norm": 11.735438346862793,
      "learning_rate": 0.000531,
      "loss": 3.7405,
      "step": 2374
    },
    {
      "epoch": 3.8,
      "grad_norm": 5.764272689819336,
      "learning_rate": 0.0005308,
      "loss": 4.5021,
      "step": 2375
    },
    {
      "epoch": 3.8016,
      "grad_norm": 18.376399993896484,
      "learning_rate": 0.0005305999999999999,
      "loss": 6.781,
      "step": 2376
    },
    {
      "epoch": 3.8032,
      "grad_norm": 14.563941955566406,
      "learning_rate": 0.0005304,
      "loss": 7.7015,
      "step": 2377
    },
    {
      "epoch": 3.8048,
      "grad_norm": 1.9453444480895996,
      "learning_rate": 0.0005302,
      "loss": 4.7244,
      "step": 2378
    },
    {
      "epoch": 3.8064,
      "grad_norm": 4.174312114715576,
      "learning_rate": 0.00053,
      "loss": 4.4179,
      "step": 2379
    },
    {
      "epoch": 3.808,
      "grad_norm": 0.9180065393447876,
      "learning_rate": 0.0005298,
      "loss": 3.8616,
      "step": 2380
    },
    {
      "epoch": 3.8096,
      "grad_norm": 2.4266366958618164,
      "learning_rate": 0.0005296,
      "loss": 4.7,
      "step": 2381
    },
    {
      "epoch": 3.8112,
      "grad_norm": 2.9785518646240234,
      "learning_rate": 0.0005294,
      "loss": 5.1105,
      "step": 2382
    },
    {
      "epoch": 3.8128,
      "grad_norm": 3.8676366806030273,
      "learning_rate": 0.0005292,
      "loss": 4.7435,
      "step": 2383
    },
    {
      "epoch": 3.8144,
      "grad_norm": 2.722191572189331,
      "learning_rate": 0.000529,
      "loss": 4.3771,
      "step": 2384
    },
    {
      "epoch": 3.816,
      "grad_norm": 1.83686101436615,
      "learning_rate": 0.0005288,
      "loss": 3.7945,
      "step": 2385
    },
    {
      "epoch": 3.8176,
      "grad_norm": 1.6038964986801147,
      "learning_rate": 0.0005286,
      "loss": 3.8832,
      "step": 2386
    },
    {
      "epoch": 3.8192,
      "grad_norm": 1.0230307579040527,
      "learning_rate": 0.0005283999999999999,
      "loss": 4.6346,
      "step": 2387
    },
    {
      "epoch": 3.8208,
      "grad_norm": 1.8154736757278442,
      "learning_rate": 0.0005281999999999999,
      "loss": 3.3476,
      "step": 2388
    },
    {
      "epoch": 3.8224,
      "grad_norm": 9.780559539794922,
      "learning_rate": 0.0005279999999999999,
      "loss": 5.038,
      "step": 2389
    },
    {
      "epoch": 3.824,
      "grad_norm": 6.866722106933594,
      "learning_rate": 0.0005277999999999999,
      "loss": 5.6834,
      "step": 2390
    },
    {
      "epoch": 3.8256,
      "grad_norm": 5.508349418640137,
      "learning_rate": 0.0005275999999999999,
      "loss": 3.5608,
      "step": 2391
    },
    {
      "epoch": 3.8272,
      "grad_norm": 16.235729217529297,
      "learning_rate": 0.0005273999999999999,
      "loss": 5.1608,
      "step": 2392
    },
    {
      "epoch": 3.8288,
      "grad_norm": 8.720699310302734,
      "learning_rate": 0.0005272,
      "loss": 5.3787,
      "step": 2393
    },
    {
      "epoch": 3.8304,
      "grad_norm": 16.350589752197266,
      "learning_rate": 0.0005269999999999999,
      "loss": 4.7983,
      "step": 2394
    },
    {
      "epoch": 3.832,
      "grad_norm": 6.838560104370117,
      "learning_rate": 0.0005267999999999999,
      "loss": 3.8524,
      "step": 2395
    },
    {
      "epoch": 3.8336,
      "grad_norm": 11.337925910949707,
      "learning_rate": 0.0005266,
      "loss": 4.7016,
      "step": 2396
    },
    {
      "epoch": 3.8352,
      "grad_norm": 7.908731937408447,
      "learning_rate": 0.0005263999999999999,
      "loss": 4.3663,
      "step": 2397
    },
    {
      "epoch": 3.8368,
      "grad_norm": 4.7114787101745605,
      "learning_rate": 0.0005262,
      "loss": 3.8907,
      "step": 2398
    },
    {
      "epoch": 3.8384,
      "grad_norm": 4.332289695739746,
      "learning_rate": 0.000526,
      "loss": 3.3793,
      "step": 2399
    },
    {
      "epoch": 3.84,
      "grad_norm": 2.8754754066467285,
      "learning_rate": 0.0005257999999999999,
      "loss": 4.017,
      "step": 2400
    },
    {
      "epoch": 3.8416,
      "grad_norm": 3.1306464672088623,
      "learning_rate": 0.0005256,
      "loss": 4.1431,
      "step": 2401
    },
    {
      "epoch": 3.8432,
      "grad_norm": 3.269331455230713,
      "learning_rate": 0.0005254,
      "loss": 3.5724,
      "step": 2402
    },
    {
      "epoch": 3.8448,
      "grad_norm": 2.9769835472106934,
      "learning_rate": 0.0005252,
      "loss": 3.1223,
      "step": 2403
    },
    {
      "epoch": 3.8464,
      "grad_norm": 2.5394082069396973,
      "learning_rate": 0.000525,
      "loss": 4.9138,
      "step": 2404
    },
    {
      "epoch": 3.848,
      "grad_norm": 2.2424628734588623,
      "learning_rate": 0.0005248,
      "loss": 3.1959,
      "step": 2405
    },
    {
      "epoch": 3.8496,
      "grad_norm": 7.9830803871154785,
      "learning_rate": 0.0005246,
      "loss": 3.0957,
      "step": 2406
    },
    {
      "epoch": 3.8512,
      "grad_norm": 6.655513763427734,
      "learning_rate": 0.0005244,
      "loss": 4.3865,
      "step": 2407
    },
    {
      "epoch": 3.8528000000000002,
      "grad_norm": 6.7835211753845215,
      "learning_rate": 0.0005242,
      "loss": 3.7315,
      "step": 2408
    },
    {
      "epoch": 3.8544,
      "grad_norm": 9.676862716674805,
      "learning_rate": 0.0005239999999999999,
      "loss": 6.1095,
      "step": 2409
    },
    {
      "epoch": 3.856,
      "grad_norm": 6.528567314147949,
      "learning_rate": 0.0005237999999999999,
      "loss": 4.2052,
      "step": 2410
    },
    {
      "epoch": 3.8576,
      "grad_norm": 6.409698963165283,
      "learning_rate": 0.0005235999999999999,
      "loss": 3.2719,
      "step": 2411
    },
    {
      "epoch": 3.8592,
      "grad_norm": 5.9662628173828125,
      "learning_rate": 0.0005233999999999999,
      "loss": 3.7916,
      "step": 2412
    },
    {
      "epoch": 3.8608000000000002,
      "grad_norm": 11.17818832397461,
      "learning_rate": 0.0005231999999999999,
      "loss": 7.6018,
      "step": 2413
    },
    {
      "epoch": 3.8624,
      "grad_norm": 2.0362625122070312,
      "learning_rate": 0.000523,
      "loss": 3.7233,
      "step": 2414
    },
    {
      "epoch": 3.864,
      "grad_norm": 2.409855365753174,
      "learning_rate": 0.0005227999999999999,
      "loss": 3.1131,
      "step": 2415
    },
    {
      "epoch": 3.8656,
      "grad_norm": 2.5807554721832275,
      "learning_rate": 0.0005225999999999999,
      "loss": 4.7464,
      "step": 2416
    },
    {
      "epoch": 3.8672,
      "grad_norm": 2.853008985519409,
      "learning_rate": 0.0005224,
      "loss": 3.9214,
      "step": 2417
    },
    {
      "epoch": 3.8688000000000002,
      "grad_norm": 2.9966490268707275,
      "learning_rate": 0.0005221999999999999,
      "loss": 3.1906,
      "step": 2418
    },
    {
      "epoch": 3.8704,
      "grad_norm": 2.0658886432647705,
      "learning_rate": 0.000522,
      "loss": 3.5001,
      "step": 2419
    },
    {
      "epoch": 3.872,
      "grad_norm": 8.184765815734863,
      "learning_rate": 0.0005218,
      "loss": 3.4756,
      "step": 2420
    },
    {
      "epoch": 3.8736,
      "grad_norm": 4.851075649261475,
      "learning_rate": 0.0005215999999999999,
      "loss": 3.7197,
      "step": 2421
    },
    {
      "epoch": 3.8752,
      "grad_norm": 11.42324447631836,
      "learning_rate": 0.0005214,
      "loss": 3.2422,
      "step": 2422
    },
    {
      "epoch": 3.8768000000000002,
      "grad_norm": 8.599984169006348,
      "learning_rate": 0.0005212,
      "loss": 3.459,
      "step": 2423
    },
    {
      "epoch": 3.8784,
      "grad_norm": 6.367029666900635,
      "learning_rate": 0.000521,
      "loss": 5.2247,
      "step": 2424
    },
    {
      "epoch": 3.88,
      "grad_norm": 10.062922477722168,
      "learning_rate": 0.0005208,
      "loss": 3.6883,
      "step": 2425
    },
    {
      "epoch": 3.8816,
      "grad_norm": 7.4639668464660645,
      "learning_rate": 0.0005206,
      "loss": 6.8429,
      "step": 2426
    },
    {
      "epoch": 3.8832,
      "grad_norm": 7.481766700744629,
      "learning_rate": 0.0005204,
      "loss": 7.3029,
      "step": 2427
    },
    {
      "epoch": 3.8848000000000003,
      "grad_norm": 9.236445426940918,
      "learning_rate": 0.0005202,
      "loss": 5.3437,
      "step": 2428
    },
    {
      "epoch": 3.8864,
      "grad_norm": 0.8947409391403198,
      "learning_rate": 0.00052,
      "loss": 5.7565,
      "step": 2429
    },
    {
      "epoch": 3.888,
      "grad_norm": 1.8359402418136597,
      "learning_rate": 0.0005198,
      "loss": 6.744,
      "step": 2430
    },
    {
      "epoch": 3.8895999999999997,
      "grad_norm": 1.6362475156784058,
      "learning_rate": 0.0005195999999999999,
      "loss": 4.6432,
      "step": 2431
    },
    {
      "epoch": 3.8912,
      "grad_norm": 3.711618423461914,
      "learning_rate": 0.0005193999999999999,
      "loss": 3.4999,
      "step": 2432
    },
    {
      "epoch": 3.8928000000000003,
      "grad_norm": 3.213042974472046,
      "learning_rate": 0.0005191999999999999,
      "loss": 4.144,
      "step": 2433
    },
    {
      "epoch": 3.8944,
      "grad_norm": 3.1469593048095703,
      "learning_rate": 0.0005189999999999999,
      "loss": 3.7807,
      "step": 2434
    },
    {
      "epoch": 3.896,
      "grad_norm": 1.5552211999893188,
      "learning_rate": 0.0005187999999999999,
      "loss": 5.4997,
      "step": 2435
    },
    {
      "epoch": 3.8975999999999997,
      "grad_norm": 12.214163780212402,
      "learning_rate": 0.0005185999999999999,
      "loss": 4.3924,
      "step": 2436
    },
    {
      "epoch": 3.8992,
      "grad_norm": 2.1951797008514404,
      "learning_rate": 0.0005183999999999999,
      "loss": 5.7433,
      "step": 2437
    },
    {
      "epoch": 3.9008000000000003,
      "grad_norm": 2.7041990756988525,
      "learning_rate": 0.0005182,
      "loss": 4.0962,
      "step": 2438
    },
    {
      "epoch": 3.9024,
      "grad_norm": 2.592421293258667,
      "learning_rate": 0.0005179999999999999,
      "loss": 4.6299,
      "step": 2439
    },
    {
      "epoch": 3.904,
      "grad_norm": 2.230567693710327,
      "learning_rate": 0.0005177999999999999,
      "loss": 3.002,
      "step": 2440
    },
    {
      "epoch": 3.9055999999999997,
      "grad_norm": 3.1844351291656494,
      "learning_rate": 0.0005176,
      "loss": 3.6995,
      "step": 2441
    },
    {
      "epoch": 3.9072,
      "grad_norm": 4.0518107414245605,
      "learning_rate": 0.0005173999999999999,
      "loss": 3.7061,
      "step": 2442
    },
    {
      "epoch": 3.9088000000000003,
      "grad_norm": 4.409000873565674,
      "learning_rate": 0.0005172,
      "loss": 3.8965,
      "step": 2443
    },
    {
      "epoch": 3.9104,
      "grad_norm": 2.557565689086914,
      "learning_rate": 0.000517,
      "loss": 3.649,
      "step": 2444
    },
    {
      "epoch": 3.912,
      "grad_norm": 4.122837066650391,
      "learning_rate": 0.0005167999999999999,
      "loss": 4.4164,
      "step": 2445
    },
    {
      "epoch": 3.9135999999999997,
      "grad_norm": 3.307701587677002,
      "learning_rate": 0.0005166,
      "loss": 3.8117,
      "step": 2446
    },
    {
      "epoch": 3.9152,
      "grad_norm": 2.113417387008667,
      "learning_rate": 0.0005164,
      "loss": 3.5849,
      "step": 2447
    },
    {
      "epoch": 3.9168,
      "grad_norm": 5.073932647705078,
      "learning_rate": 0.0005162,
      "loss": 4.0564,
      "step": 2448
    },
    {
      "epoch": 3.9184,
      "grad_norm": 2.0293564796447754,
      "learning_rate": 0.000516,
      "loss": 4.6822,
      "step": 2449
    },
    {
      "epoch": 3.92,
      "grad_norm": 2.3307976722717285,
      "learning_rate": 0.0005158,
      "loss": 5.6256,
      "step": 2450
    },
    {
      "epoch": 3.9215999999999998,
      "grad_norm": 2.8671512603759766,
      "learning_rate": 0.0005156,
      "loss": 3.3186,
      "step": 2451
    },
    {
      "epoch": 3.9232,
      "grad_norm": 2.8677480220794678,
      "learning_rate": 0.0005154,
      "loss": 3.3332,
      "step": 2452
    },
    {
      "epoch": 3.9248,
      "grad_norm": 5.9910478591918945,
      "learning_rate": 0.0005152,
      "loss": 5.1829,
      "step": 2453
    },
    {
      "epoch": 3.9264,
      "grad_norm": 3.645705461502075,
      "learning_rate": 0.0005149999999999999,
      "loss": 3.3698,
      "step": 2454
    },
    {
      "epoch": 3.928,
      "grad_norm": 5.09229040145874,
      "learning_rate": 0.0005147999999999999,
      "loss": 3.4024,
      "step": 2455
    },
    {
      "epoch": 3.9295999999999998,
      "grad_norm": 3.315643310546875,
      "learning_rate": 0.0005145999999999999,
      "loss": 2.8343,
      "step": 2456
    },
    {
      "epoch": 3.9312,
      "grad_norm": 6.215513229370117,
      "learning_rate": 0.0005143999999999999,
      "loss": 4.926,
      "step": 2457
    },
    {
      "epoch": 3.9328,
      "grad_norm": 7.02705717086792,
      "learning_rate": 0.0005141999999999999,
      "loss": 5.8658,
      "step": 2458
    },
    {
      "epoch": 3.9344,
      "grad_norm": 3.302187442779541,
      "learning_rate": 0.0005139999999999999,
      "loss": 3.6607,
      "step": 2459
    },
    {
      "epoch": 3.936,
      "grad_norm": 2.8426706790924072,
      "learning_rate": 0.0005137999999999999,
      "loss": 3.3349,
      "step": 2460
    },
    {
      "epoch": 3.9375999999999998,
      "grad_norm": 2.594999074935913,
      "learning_rate": 0.0005135999999999999,
      "loss": 3.7503,
      "step": 2461
    },
    {
      "epoch": 3.9392,
      "grad_norm": 2.7870514392852783,
      "learning_rate": 0.0005134,
      "loss": 5.2539,
      "step": 2462
    },
    {
      "epoch": 3.9408,
      "grad_norm": 2.494035482406616,
      "learning_rate": 0.0005131999999999999,
      "loss": 3.7372,
      "step": 2463
    },
    {
      "epoch": 3.9424,
      "grad_norm": 5.120970249176025,
      "learning_rate": 0.0005129999999999999,
      "loss": 4.3101,
      "step": 2464
    },
    {
      "epoch": 3.944,
      "grad_norm": 5.125430583953857,
      "learning_rate": 0.0005128,
      "loss": 3.7904,
      "step": 2465
    },
    {
      "epoch": 3.9455999999999998,
      "grad_norm": 8.505355834960938,
      "learning_rate": 0.0005125999999999999,
      "loss": 4.2762,
      "step": 2466
    },
    {
      "epoch": 3.9472,
      "grad_norm": 8.884271621704102,
      "learning_rate": 0.0005124,
      "loss": 3.7425,
      "step": 2467
    },
    {
      "epoch": 3.9488,
      "grad_norm": 5.896363735198975,
      "learning_rate": 0.0005122,
      "loss": 3.9677,
      "step": 2468
    },
    {
      "epoch": 3.9504,
      "grad_norm": 5.016576766967773,
      "learning_rate": 0.000512,
      "loss": 3.5789,
      "step": 2469
    },
    {
      "epoch": 3.952,
      "grad_norm": 2.708357572555542,
      "learning_rate": 0.0005118,
      "loss": 3.8632,
      "step": 2470
    },
    {
      "epoch": 3.9536,
      "grad_norm": 2.9615776538848877,
      "learning_rate": 0.0005116,
      "loss": 2.7705,
      "step": 2471
    },
    {
      "epoch": 3.9552,
      "grad_norm": 3.5062623023986816,
      "learning_rate": 0.0005114,
      "loss": 3.9674,
      "step": 2472
    },
    {
      "epoch": 3.9568,
      "grad_norm": 2.6961495876312256,
      "learning_rate": 0.0005112,
      "loss": 3.4771,
      "step": 2473
    },
    {
      "epoch": 3.9584,
      "grad_norm": 6.347679615020752,
      "learning_rate": 0.000511,
      "loss": 5.0042,
      "step": 2474
    },
    {
      "epoch": 3.96,
      "grad_norm": NaN,
      "learning_rate": 0.000511,
      "loss": 2.9314,
      "step": 2475
    },
    {
      "epoch": 3.9616,
      "grad_norm": 5.443944454193115,
      "learning_rate": 0.0005108,
      "loss": 5.7649,
      "step": 2476
    },
    {
      "epoch": 3.9632,
      "grad_norm": 7.1263508796691895,
      "learning_rate": 0.0005105999999999999,
      "loss": 6.3727,
      "step": 2477
    },
    {
      "epoch": 3.9648,
      "grad_norm": 1.0259019136428833,
      "learning_rate": 0.0005103999999999999,
      "loss": 4.1111,
      "step": 2478
    },
    {
      "epoch": 3.9664,
      "grad_norm": 0.1592855453491211,
      "learning_rate": 0.0005101999999999999,
      "loss": 3.6376,
      "step": 2479
    },
    {
      "epoch": 3.968,
      "grad_norm": 1.0972356796264648,
      "learning_rate": 0.0005099999999999999,
      "loss": 5.4418,
      "step": 2480
    },
    {
      "epoch": 3.9696,
      "grad_norm": 0.4594857692718506,
      "learning_rate": 0.0005097999999999999,
      "loss": 4.4428,
      "step": 2481
    },
    {
      "epoch": 3.9712,
      "grad_norm": 0.2423648089170456,
      "learning_rate": 0.0005096,
      "loss": 3.5892,
      "step": 2482
    },
    {
      "epoch": 3.9728,
      "grad_norm": 1.5900893211364746,
      "learning_rate": 0.0005093999999999999,
      "loss": 4.7644,
      "step": 2483
    },
    {
      "epoch": 3.9744,
      "grad_norm": 0.36498916149139404,
      "learning_rate": 0.0005092,
      "loss": 3.3058,
      "step": 2484
    },
    {
      "epoch": 3.976,
      "grad_norm": 0.3362158536911011,
      "learning_rate": 0.000509,
      "loss": 3.8689,
      "step": 2485
    },
    {
      "epoch": 3.9776,
      "grad_norm": 0.5637915134429932,
      "learning_rate": 0.0005087999999999999,
      "loss": 4.7144,
      "step": 2486
    },
    {
      "epoch": 3.9792,
      "grad_norm": 0.690257728099823,
      "learning_rate": 0.0005086,
      "loss": 3.2482,
      "step": 2487
    },
    {
      "epoch": 3.9808,
      "grad_norm": 1.2970272302627563,
      "learning_rate": 0.0005084,
      "loss": 3.5763,
      "step": 2488
    },
    {
      "epoch": 3.9824,
      "grad_norm": 1.0402405261993408,
      "learning_rate": 0.0005082,
      "loss": 3.6031,
      "step": 2489
    },
    {
      "epoch": 3.984,
      "grad_norm": 1.123017430305481,
      "learning_rate": 0.000508,
      "loss": 4.6232,
      "step": 2490
    },
    {
      "epoch": 3.9856,
      "grad_norm": 1.0631844997406006,
      "learning_rate": 0.0005078,
      "loss": 3.987,
      "step": 2491
    },
    {
      "epoch": 3.9872,
      "grad_norm": 1.2788798809051514,
      "learning_rate": 0.0005076,
      "loss": 4.0148,
      "step": 2492
    },
    {
      "epoch": 3.9888,
      "grad_norm": 3.9951908588409424,
      "learning_rate": 0.0005074,
      "loss": 4.0768,
      "step": 2493
    },
    {
      "epoch": 3.9904,
      "grad_norm": 1.8701856136322021,
      "learning_rate": 0.0005072,
      "loss": 2.5434,
      "step": 2494
    },
    {
      "epoch": 3.992,
      "grad_norm": 11.19664478302002,
      "learning_rate": 0.000507,
      "loss": 8.6562,
      "step": 2495
    },
    {
      "epoch": 3.9936,
      "grad_norm": 7.005781650543213,
      "learning_rate": 0.0005068,
      "loss": 3.8161,
      "step": 2496
    },
    {
      "epoch": 3.9952,
      "grad_norm": 6.712696552276611,
      "learning_rate": 0.0005066,
      "loss": 5.4329,
      "step": 2497
    },
    {
      "epoch": 3.9968,
      "grad_norm": 6.685918807983398,
      "learning_rate": 0.0005064,
      "loss": 5.2872,
      "step": 2498
    },
    {
      "epoch": 3.9984,
      "grad_norm": 9.401721000671387,
      "learning_rate": 0.0005061999999999999,
      "loss": 4.5241,
      "step": 2499
    },
    {
      "epoch": 4.0,
      "grad_norm": 6.013485908508301,
      "learning_rate": 0.0005059999999999999,
      "loss": 7.2804,
      "step": 2500
    },
    {
      "epoch": 4.0,
      "eval_cer": 0.5062452549582437,
      "eval_loss": 4.04433012008667,
      "eval_runtime": 161.6965,
      "eval_samples_per_second": 19.394,
      "eval_steps_per_second": 1.212,
      "eval_wer": 0.85816470337969,
      "step": 2500
    },
    {
      "epoch": 4.0016,
      "grad_norm": 23.144800186157227,
      "learning_rate": 0.0005057999999999999,
      "loss": 6.8372,
      "step": 2501
    },
    {
      "epoch": 4.0032,
      "grad_norm": 4.225520610809326,
      "learning_rate": 0.0005055999999999999,
      "loss": 3.9508,
      "step": 2502
    },
    {
      "epoch": 4.0048,
      "grad_norm": 9.67379093170166,
      "learning_rate": 0.0005054,
      "loss": 6.3174,
      "step": 2503
    },
    {
      "epoch": 4.0064,
      "grad_norm": 0.17756377160549164,
      "learning_rate": 0.0005051999999999999,
      "loss": 4.1162,
      "step": 2504
    },
    {
      "epoch": 4.008,
      "grad_norm": 0.32008469104766846,
      "learning_rate": 0.0005049999999999999,
      "loss": 3.9213,
      "step": 2505
    },
    {
      "epoch": 4.0096,
      "grad_norm": 0.21909049153327942,
      "learning_rate": 0.0005048,
      "loss": 5.2693,
      "step": 2506
    },
    {
      "epoch": 4.0112,
      "grad_norm": 0.45780324935913086,
      "learning_rate": 0.0005045999999999999,
      "loss": 5.0734,
      "step": 2507
    },
    {
      "epoch": 4.0128,
      "grad_norm": 0.569255530834198,
      "learning_rate": 0.0005044,
      "loss": 6.3472,
      "step": 2508
    },
    {
      "epoch": 4.0144,
      "grad_norm": 0.4611165225505829,
      "learning_rate": 0.0005042,
      "loss": 4.9004,
      "step": 2509
    },
    {
      "epoch": 4.016,
      "grad_norm": 0.1880490928888321,
      "learning_rate": 0.0005039999999999999,
      "loss": 4.5229,
      "step": 2510
    },
    {
      "epoch": 4.0176,
      "grad_norm": 2.2325141429901123,
      "learning_rate": 0.0005038,
      "loss": 4.5049,
      "step": 2511
    },
    {
      "epoch": 4.0192,
      "grad_norm": 1.0180236101150513,
      "learning_rate": 0.0005036,
      "loss": 5.1325,
      "step": 2512
    },
    {
      "epoch": 4.0208,
      "grad_norm": 0.42767855525016785,
      "learning_rate": 0.0005034,
      "loss": 4.2691,
      "step": 2513
    },
    {
      "epoch": 4.0224,
      "grad_norm": 0.16366739571094513,
      "learning_rate": 0.0005032,
      "loss": 4.6155,
      "step": 2514
    },
    {
      "epoch": 4.024,
      "grad_norm": 0.6206148862838745,
      "learning_rate": 0.000503,
      "loss": 4.8346,
      "step": 2515
    },
    {
      "epoch": 4.0256,
      "grad_norm": 0.4776545763015747,
      "learning_rate": 0.0005028,
      "loss": 4.7195,
      "step": 2516
    },
    {
      "epoch": 4.0272,
      "grad_norm": 9.23447036743164,
      "learning_rate": 0.0005026,
      "loss": 7.7137,
      "step": 2517
    },
    {
      "epoch": 4.0288,
      "grad_norm": 0.9635998010635376,
      "learning_rate": 0.0005024,
      "loss": 4.3765,
      "step": 2518
    },
    {
      "epoch": 4.0304,
      "grad_norm": 0.444718599319458,
      "learning_rate": 0.0005022,
      "loss": 4.302,
      "step": 2519
    },
    {
      "epoch": 4.032,
      "grad_norm": 0.35454219579696655,
      "learning_rate": 0.000502,
      "loss": 3.5834,
      "step": 2520
    },
    {
      "epoch": 4.0336,
      "grad_norm": 0.2884537875652313,
      "learning_rate": 0.0005017999999999999,
      "loss": 3.9605,
      "step": 2521
    },
    {
      "epoch": 4.0352,
      "grad_norm": 0.36135971546173096,
      "learning_rate": 0.0005015999999999999,
      "loss": 4.4906,
      "step": 2522
    },
    {
      "epoch": 4.0368,
      "grad_norm": 0.40249496698379517,
      "learning_rate": 0.0005013999999999999,
      "loss": 2.7345,
      "step": 2523
    },
    {
      "epoch": 4.0384,
      "grad_norm": 0.5062964558601379,
      "learning_rate": 0.0005011999999999999,
      "loss": 3.894,
      "step": 2524
    },
    {
      "epoch": 4.04,
      "grad_norm": 0.5407964587211609,
      "learning_rate": 0.0005009999999999999,
      "loss": 3.2813,
      "step": 2525
    },
    {
      "epoch": 4.0416,
      "grad_norm": 1.2305890321731567,
      "learning_rate": 0.0005007999999999999,
      "loss": 5.1225,
      "step": 2526
    },
    {
      "epoch": 4.0432,
      "grad_norm": 1.5490796566009521,
      "learning_rate": 0.0005006,
      "loss": 4.7507,
      "step": 2527
    },
    {
      "epoch": 4.0448,
      "grad_norm": 3.157155752182007,
      "learning_rate": 0.0005003999999999999,
      "loss": 4.7362,
      "step": 2528
    },
    {
      "epoch": 4.0464,
      "grad_norm": 0.4881833791732788,
      "learning_rate": 0.0005001999999999999,
      "loss": 5.1957,
      "step": 2529
    },
    {
      "epoch": 4.048,
      "grad_norm": 0.8387967944145203,
      "learning_rate": 0.0005,
      "loss": 4.8116,
      "step": 2530
    },
    {
      "epoch": 4.0496,
      "grad_norm": 0.8843464255332947,
      "learning_rate": 0.0004997999999999999,
      "loss": 3.8705,
      "step": 2531
    },
    {
      "epoch": 4.0512,
      "grad_norm": 1.8773194551467896,
      "learning_rate": 0.0004996,
      "loss": 6.0234,
      "step": 2532
    },
    {
      "epoch": 4.0528,
      "grad_norm": 2.2637429237365723,
      "learning_rate": 0.0004994,
      "loss": 3.2086,
      "step": 2533
    },
    {
      "epoch": 4.0544,
      "grad_norm": 1.3157998323440552,
      "learning_rate": 0.0004991999999999999,
      "loss": 3.8496,
      "step": 2534
    },
    {
      "epoch": 4.056,
      "grad_norm": 2.5601677894592285,
      "learning_rate": 0.000499,
      "loss": 5.1782,
      "step": 2535
    },
    {
      "epoch": 4.0576,
      "grad_norm": 2.2101492881774902,
      "learning_rate": 0.0004988,
      "loss": 4.1483,
      "step": 2536
    },
    {
      "epoch": 4.0592,
      "grad_norm": 3.1673080921173096,
      "learning_rate": 0.0004986,
      "loss": 5.8835,
      "step": 2537
    },
    {
      "epoch": 4.0608,
      "grad_norm": 2.5407838821411133,
      "learning_rate": 0.0004984,
      "loss": 6.0127,
      "step": 2538
    },
    {
      "epoch": 4.0624,
      "grad_norm": 1.7373592853546143,
      "learning_rate": 0.0004982,
      "loss": 3.743,
      "step": 2539
    },
    {
      "epoch": 4.064,
      "grad_norm": 1.6780894994735718,
      "learning_rate": 0.000498,
      "loss": 3.7424,
      "step": 2540
    },
    {
      "epoch": 4.0656,
      "grad_norm": 1.9963005781173706,
      "learning_rate": 0.0004978,
      "loss": 3.5275,
      "step": 2541
    },
    {
      "epoch": 4.0672,
      "grad_norm": 3.755784273147583,
      "learning_rate": 0.0004976,
      "loss": 3.3858,
      "step": 2542
    },
    {
      "epoch": 4.0688,
      "grad_norm": 2.3292593955993652,
      "learning_rate": 0.0004974,
      "loss": 4.0922,
      "step": 2543
    },
    {
      "epoch": 4.0704,
      "grad_norm": 1.708128809928894,
      "learning_rate": 0.0004971999999999999,
      "loss": 3.9157,
      "step": 2544
    },
    {
      "epoch": 4.072,
      "grad_norm": 6.881852149963379,
      "learning_rate": 0.0004969999999999999,
      "loss": 3.9577,
      "step": 2545
    },
    {
      "epoch": 4.0736,
      "grad_norm": 4.577492713928223,
      "learning_rate": 0.0004967999999999999,
      "loss": 4.825,
      "step": 2546
    },
    {
      "epoch": 4.0752,
      "grad_norm": 10.244248390197754,
      "learning_rate": 0.0004965999999999999,
      "loss": 9.1545,
      "step": 2547
    },
    {
      "epoch": 4.0768,
      "grad_norm": 5.325230121612549,
      "learning_rate": 0.0004963999999999999,
      "loss": 3.3126,
      "step": 2548
    },
    {
      "epoch": 4.0784,
      "grad_norm": 5.925568580627441,
      "learning_rate": 0.0004961999999999999,
      "loss": 3.5161,
      "step": 2549
    },
    {
      "epoch": 4.08,
      "grad_norm": NaN,
      "learning_rate": 0.0004961999999999999,
      "loss": 2.5839,
      "step": 2550
    },
    {
      "epoch": 4.0816,
      "grad_norm": 5.299213886260986,
      "learning_rate": 0.0004959999999999999,
      "loss": 5.6916,
      "step": 2551
    },
    {
      "epoch": 4.0832,
      "grad_norm": 0.0,
      "learning_rate": 0.0004958,
      "loss": 6.4078,
      "step": 2552
    },
    {
      "epoch": 4.0848,
      "grad_norm": 8.862677574157715,
      "learning_rate": 0.0004955999999999999,
      "loss": 5.5826,
      "step": 2553
    },
    {
      "epoch": 4.0864,
      "grad_norm": 1.0761029720306396,
      "learning_rate": 0.0004953999999999999,
      "loss": 5.3076,
      "step": 2554
    },
    {
      "epoch": 4.088,
      "grad_norm": 0.0,
      "learning_rate": 0.0004952,
      "loss": 6.6558,
      "step": 2555
    },
    {
      "epoch": 4.0896,
      "grad_norm": 0.29841262102127075,
      "learning_rate": 0.0004949999999999999,
      "loss": 6.0496,
      "step": 2556
    },
    {
      "epoch": 4.0912,
      "grad_norm": 0.6810678243637085,
      "learning_rate": 0.0004948,
      "loss": 4.658,
      "step": 2557
    },
    {
      "epoch": 4.0928,
      "grad_norm": 0.17521485686302185,
      "learning_rate": 0.0004946,
      "loss": 5.2457,
      "step": 2558
    },
    {
      "epoch": 4.0944,
      "grad_norm": 0.0,
      "learning_rate": 0.0004944,
      "loss": 6.2678,
      "step": 2559
    },
    {
      "epoch": 4.096,
      "grad_norm": 0.0,
      "learning_rate": 0.0004942,
      "loss": 4.4643,
      "step": 2560
    },
    {
      "epoch": 4.0976,
      "grad_norm": 0.2048645168542862,
      "learning_rate": 0.000494,
      "loss": 5.4229,
      "step": 2561
    },
    {
      "epoch": 4.0992,
      "grad_norm": 0.0,
      "learning_rate": 0.0004938,
      "loss": 7.4454,
      "step": 2562
    },
    {
      "epoch": 4.1008,
      "grad_norm": 0.0,
      "learning_rate": 0.0004936,
      "loss": 6.2727,
      "step": 2563
    },
    {
      "epoch": 4.1024,
      "grad_norm": 2.374197483062744,
      "learning_rate": 0.0004934,
      "loss": 7.3081,
      "step": 2564
    },
    {
      "epoch": 4.104,
      "grad_norm": 0.0,
      "learning_rate": 0.0004932,
      "loss": 5.4504,
      "step": 2565
    },
    {
      "epoch": 4.1056,
      "grad_norm": 0.19911202788352966,
      "learning_rate": 0.000493,
      "loss": 5.56,
      "step": 2566
    },
    {
      "epoch": 4.1072,
      "grad_norm": 0.3077949285507202,
      "learning_rate": 0.0004927999999999999,
      "loss": 6.1582,
      "step": 2567
    },
    {
      "epoch": 4.1088,
      "grad_norm": 0.0,
      "learning_rate": 0.0004925999999999999,
      "loss": 5.4011,
      "step": 2568
    },
    {
      "epoch": 4.1104,
      "grad_norm": 0.0,
      "learning_rate": 0.0004923999999999999,
      "loss": 6.5703,
      "step": 2569
    },
    {
      "epoch": 4.112,
      "grad_norm": 0.6070860624313354,
      "learning_rate": 0.0004921999999999999,
      "loss": 7.1556,
      "step": 2570
    },
    {
      "epoch": 4.1136,
      "grad_norm": 0.0,
      "learning_rate": 0.0004919999999999999,
      "loss": 5.0671,
      "step": 2571
    },
    {
      "epoch": 4.1152,
      "grad_norm": 0.35825300216674805,
      "learning_rate": 0.0004917999999999999,
      "loss": 4.6262,
      "step": 2572
    },
    {
      "epoch": 4.1168,
      "grad_norm": 0.0,
      "learning_rate": 0.0004916,
      "loss": 5.4843,
      "step": 2573
    },
    {
      "epoch": 4.1184,
      "grad_norm": 0.44535768032073975,
      "learning_rate": 0.0004913999999999999,
      "loss": 6.6016,
      "step": 2574
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.200550377368927,
      "learning_rate": 0.0004911999999999999,
      "loss": 6.1914,
      "step": 2575
    },
    {
      "epoch": 4.1216,
      "grad_norm": 0.8900039196014404,
      "learning_rate": 0.000491,
      "loss": 6.965,
      "step": 2576
    },
    {
      "epoch": 4.1232,
      "grad_norm": 0.5002645254135132,
      "learning_rate": 0.0004907999999999999,
      "loss": 6.0534,
      "step": 2577
    },
    {
      "epoch": 4.1248,
      "grad_norm": 0.15191906690597534,
      "learning_rate": 0.0004906,
      "loss": 5.4136,
      "step": 2578
    },
    {
      "epoch": 4.1264,
      "grad_norm": 0.5502559542655945,
      "learning_rate": 0.0004904,
      "loss": 4.4739,
      "step": 2579
    },
    {
      "epoch": 4.128,
      "grad_norm": 0.8410767912864685,
      "learning_rate": 0.0004901999999999999,
      "loss": 4.0054,
      "step": 2580
    },
    {
      "epoch": 4.1296,
      "grad_norm": 0.480327844619751,
      "learning_rate": 0.00049,
      "loss": 4.8526,
      "step": 2581
    },
    {
      "epoch": 4.1312,
      "grad_norm": 0.0,
      "learning_rate": 0.0004898,
      "loss": 5.2028,
      "step": 2582
    },
    {
      "epoch": 4.1328,
      "grad_norm": 0.5567176938056946,
      "learning_rate": 0.0004896,
      "loss": 5.6976,
      "step": 2583
    },
    {
      "epoch": 4.1344,
      "grad_norm": 0.39206984639167786,
      "learning_rate": 0.0004894,
      "loss": 3.6201,
      "step": 2584
    },
    {
      "epoch": 4.136,
      "grad_norm": 0.47318196296691895,
      "learning_rate": 0.0004892,
      "loss": 5.6331,
      "step": 2585
    },
    {
      "epoch": 4.1376,
      "grad_norm": 0.2152274250984192,
      "learning_rate": 0.000489,
      "loss": 5.7551,
      "step": 2586
    },
    {
      "epoch": 4.1392,
      "grad_norm": 0.1511097401380539,
      "learning_rate": 0.0004888,
      "loss": 3.9637,
      "step": 2587
    },
    {
      "epoch": 4.1408,
      "grad_norm": 6.308553695678711,
      "learning_rate": 0.0004886,
      "loss": 8.2982,
      "step": 2588
    },
    {
      "epoch": 4.1424,
      "grad_norm": 0.3845791816711426,
      "learning_rate": 0.0004883999999999999,
      "loss": 4.9296,
      "step": 2589
    },
    {
      "epoch": 4.144,
      "grad_norm": 0.2978602945804596,
      "learning_rate": 0.00048819999999999994,
      "loss": 4.3235,
      "step": 2590
    },
    {
      "epoch": 4.1456,
      "grad_norm": 0.5199742317199707,
      "learning_rate": 0.000488,
      "loss": 5.8864,
      "step": 2591
    },
    {
      "epoch": 4.1472,
      "grad_norm": 1.0750148296356201,
      "learning_rate": 0.00048779999999999993,
      "loss": 5.0529,
      "step": 2592
    },
    {
      "epoch": 4.1488,
      "grad_norm": 0.8279758095741272,
      "learning_rate": 0.0004875999999999999,
      "loss": 4.36,
      "step": 2593
    },
    {
      "epoch": 4.1504,
      "grad_norm": 0.8125143647193909,
      "learning_rate": 0.0004874,
      "loss": 3.9805,
      "step": 2594
    },
    {
      "epoch": 4.152,
      "grad_norm": 1.2143406867980957,
      "learning_rate": 0.00048719999999999997,
      "loss": 3.8903,
      "step": 2595
    },
    {
      "epoch": 4.1536,
      "grad_norm": 0.8204197287559509,
      "learning_rate": 0.00048699999999999997,
      "loss": 3.9114,
      "step": 2596
    },
    {
      "epoch": 4.1552,
      "grad_norm": 1.063886046409607,
      "learning_rate": 0.00048679999999999996,
      "loss": 5.1182,
      "step": 2597
    },
    {
      "epoch": 4.1568,
      "grad_norm": 3.12077260017395,
      "learning_rate": 0.0004866,
      "loss": 4.672,
      "step": 2598
    },
    {
      "epoch": 4.1584,
      "grad_norm": 1.1409622430801392,
      "learning_rate": 0.00048639999999999995,
      "loss": 3.5499,
      "step": 2599
    },
    {
      "epoch": 4.16,
      "grad_norm": NaN,
      "learning_rate": 0.00048639999999999995,
      "loss": 5.9472,
      "step": 2600
    },
    {
      "epoch": 4.1616,
      "grad_norm": 0.0,
      "learning_rate": 0.00048619999999999995,
      "loss": 7.79,
      "step": 2601
    },
    {
      "epoch": 4.1632,
      "grad_norm": 0.0,
      "learning_rate": 0.000486,
      "loss": 7.946,
      "step": 2602
    },
    {
      "epoch": 4.1648,
      "grad_norm": 0.0,
      "learning_rate": 0.00048579999999999994,
      "loss": 5.8051,
      "step": 2603
    },
    {
      "epoch": 4.1664,
      "grad_norm": 0.0,
      "learning_rate": 0.0004856,
      "loss": 5.9305,
      "step": 2604
    },
    {
      "epoch": 4.168,
      "grad_norm": 0.0,
      "learning_rate": 0.0004854,
      "loss": 4.823,
      "step": 2605
    },
    {
      "epoch": 4.1696,
      "grad_norm": 0.0,
      "learning_rate": 0.0004851999999999999,
      "loss": 5.3295,
      "step": 2606
    },
    {
      "epoch": 4.1712,
      "grad_norm": 0.0,
      "learning_rate": 0.00048499999999999997,
      "loss": 4.9052,
      "step": 2607
    },
    {
      "epoch": 4.1728,
      "grad_norm": 0.0,
      "learning_rate": 0.00048479999999999997,
      "loss": 5.7401,
      "step": 2608
    },
    {
      "epoch": 4.1744,
      "grad_norm": 0.0,
      "learning_rate": 0.00048459999999999996,
      "loss": 4.8954,
      "step": 2609
    },
    {
      "epoch": 4.176,
      "grad_norm": 24.389549255371094,
      "learning_rate": 0.00048439999999999996,
      "loss": 6.1263,
      "step": 2610
    },
    {
      "epoch": 4.1776,
      "grad_norm": 0.0,
      "learning_rate": 0.0004842,
      "loss": 5.6154,
      "step": 2611
    },
    {
      "epoch": 4.1792,
      "grad_norm": 0.0,
      "learning_rate": 0.00048399999999999995,
      "loss": 4.0222,
      "step": 2612
    },
    {
      "epoch": 4.1808,
      "grad_norm": 0.0,
      "learning_rate": 0.00048379999999999994,
      "loss": 5.6816,
      "step": 2613
    },
    {
      "epoch": 4.1824,
      "grad_norm": 0.0,
      "learning_rate": 0.0004836,
      "loss": 5.705,
      "step": 2614
    },
    {
      "epoch": 4.184,
      "grad_norm": 0.0,
      "learning_rate": 0.00048339999999999993,
      "loss": 4.51,
      "step": 2615
    },
    {
      "epoch": 4.1856,
      "grad_norm": 0.0,
      "learning_rate": 0.0004832,
      "loss": 4.7296,
      "step": 2616
    },
    {
      "epoch": 4.1872,
      "grad_norm": 0.0,
      "learning_rate": 0.000483,
      "loss": 5.9244,
      "step": 2617
    },
    {
      "epoch": 4.1888,
      "grad_norm": 0.0,
      "learning_rate": 0.0004827999999999999,
      "loss": 5.6749,
      "step": 2618
    },
    {
      "epoch": 4.1904,
      "grad_norm": 0.0,
      "learning_rate": 0.00048259999999999997,
      "loss": 4.6188,
      "step": 2619
    },
    {
      "epoch": 4.192,
      "grad_norm": 0.0,
      "learning_rate": 0.00048239999999999996,
      "loss": 5.8702,
      "step": 2620
    },
    {
      "epoch": 4.1936,
      "grad_norm": 0.17885775864124298,
      "learning_rate": 0.00048219999999999996,
      "loss": 5.862,
      "step": 2621
    },
    {
      "epoch": 4.1952,
      "grad_norm": 0.0,
      "learning_rate": 0.00048199999999999995,
      "loss": 4.847,
      "step": 2622
    },
    {
      "epoch": 4.1968,
      "grad_norm": 0.0,
      "learning_rate": 0.0004818,
      "loss": 5.8012,
      "step": 2623
    },
    {
      "epoch": 4.1984,
      "grad_norm": 0.0,
      "learning_rate": 0.00048159999999999994,
      "loss": 4.8323,
      "step": 2624
    },
    {
      "epoch": 4.2,
      "grad_norm": 3.3034310340881348,
      "learning_rate": 0.00048139999999999994,
      "loss": 5.2113,
      "step": 2625
    },
    {
      "epoch": 4.2016,
      "grad_norm": 0.0,
      "learning_rate": 0.0004812,
      "loss": 4.9682,
      "step": 2626
    },
    {
      "epoch": 4.2032,
      "grad_norm": 0.0,
      "learning_rate": 0.00048099999999999993,
      "loss": 4.3872,
      "step": 2627
    },
    {
      "epoch": 4.2048,
      "grad_norm": 0.0,
      "learning_rate": 0.0004808,
      "loss": 4.8967,
      "step": 2628
    },
    {
      "epoch": 4.2064,
      "grad_norm": 0.0,
      "learning_rate": 0.00048059999999999997,
      "loss": 7.0991,
      "step": 2629
    },
    {
      "epoch": 4.208,
      "grad_norm": 0.0,
      "learning_rate": 0.0004803999999999999,
      "loss": 4.9539,
      "step": 2630
    },
    {
      "epoch": 4.2096,
      "grad_norm": 0.0,
      "learning_rate": 0.00048019999999999996,
      "loss": 4.1062,
      "step": 2631
    },
    {
      "epoch": 4.2112,
      "grad_norm": 0.0,
      "learning_rate": 0.00047999999999999996,
      "loss": 5.8075,
      "step": 2632
    },
    {
      "epoch": 4.2128,
      "grad_norm": 0.0,
      "learning_rate": 0.00047979999999999995,
      "loss": 6.6011,
      "step": 2633
    },
    {
      "epoch": 4.2144,
      "grad_norm": 0.0,
      "learning_rate": 0.00047959999999999995,
      "loss": 4.7376,
      "step": 2634
    },
    {
      "epoch": 4.216,
      "grad_norm": 0.0,
      "learning_rate": 0.0004794,
      "loss": 4.6453,
      "step": 2635
    },
    {
      "epoch": 4.2176,
      "grad_norm": 0.0,
      "learning_rate": 0.00047919999999999994,
      "loss": 5.1572,
      "step": 2636
    },
    {
      "epoch": 4.2192,
      "grad_norm": 0.0,
      "learning_rate": 0.000479,
      "loss": 5.2229,
      "step": 2637
    },
    {
      "epoch": 4.2208,
      "grad_norm": 0.0,
      "learning_rate": 0.0004788,
      "loss": 6.2779,
      "step": 2638
    },
    {
      "epoch": 4.2224,
      "grad_norm": 0.0,
      "learning_rate": 0.0004785999999999999,
      "loss": 4.2566,
      "step": 2639
    },
    {
      "epoch": 4.224,
      "grad_norm": 0.0,
      "learning_rate": 0.0004784,
      "loss": 5.1199,
      "step": 2640
    },
    {
      "epoch": 4.2256,
      "grad_norm": 0.0,
      "learning_rate": 0.00047819999999999997,
      "loss": 4.7579,
      "step": 2641
    },
    {
      "epoch": 4.2272,
      "grad_norm": 0.3036254048347473,
      "learning_rate": 0.00047799999999999996,
      "loss": 3.1542,
      "step": 2642
    },
    {
      "epoch": 4.2288,
      "grad_norm": 0.0,
      "learning_rate": 0.00047779999999999996,
      "loss": 4.169,
      "step": 2643
    },
    {
      "epoch": 4.2304,
      "grad_norm": 1.608218789100647,
      "learning_rate": 0.0004776,
      "loss": 5.7199,
      "step": 2644
    },
    {
      "epoch": 4.232,
      "grad_norm": 0.5215432047843933,
      "learning_rate": 0.00047739999999999995,
      "loss": 3.9992,
      "step": 2645
    },
    {
      "epoch": 4.2336,
      "grad_norm": 0.17919880151748657,
      "learning_rate": 0.00047719999999999994,
      "loss": 4.6033,
      "step": 2646
    },
    {
      "epoch": 4.2352,
      "grad_norm": 0.4602564573287964,
      "learning_rate": 0.000477,
      "loss": 3.9578,
      "step": 2647
    },
    {
      "epoch": 4.2368,
      "grad_norm": 1.4237133264541626,
      "learning_rate": 0.00047679999999999993,
      "loss": 3.9533,
      "step": 2648
    },
    {
      "epoch": 4.2384,
      "grad_norm": 0.8177955746650696,
      "learning_rate": 0.0004766,
      "loss": 4.8144,
      "step": 2649
    },
    {
      "epoch": 4.24,
      "grad_norm": 1.2843536138534546,
      "learning_rate": 0.0004764,
      "loss": 5.2531,
      "step": 2650
    },
    {
      "epoch": 4.2416,
      "grad_norm": 2.9875361919403076,
      "learning_rate": 0.0004761999999999999,
      "loss": 7.2527,
      "step": 2651
    },
    {
      "epoch": 4.2432,
      "grad_norm": 0.0,
      "learning_rate": 0.00047599999999999997,
      "loss": 7.248,
      "step": 2652
    },
    {
      "epoch": 4.2448,
      "grad_norm": 0.0,
      "learning_rate": 0.00047579999999999996,
      "loss": 6.575,
      "step": 2653
    },
    {
      "epoch": 4.2464,
      "grad_norm": 0.0,
      "learning_rate": 0.00047559999999999996,
      "loss": 5.8347,
      "step": 2654
    },
    {
      "epoch": 4.248,
      "grad_norm": 0.0,
      "learning_rate": 0.00047539999999999995,
      "loss": 6.9052,
      "step": 2655
    },
    {
      "epoch": 4.2496,
      "grad_norm": 0.0,
      "learning_rate": 0.0004752,
      "loss": 4.7331,
      "step": 2656
    },
    {
      "epoch": 4.2512,
      "grad_norm": 0.0,
      "learning_rate": 0.00047499999999999994,
      "loss": 7.093,
      "step": 2657
    },
    {
      "epoch": 4.2528,
      "grad_norm": 0.0,
      "learning_rate": 0.00047479999999999994,
      "loss": 6.3205,
      "step": 2658
    },
    {
      "epoch": 4.2544,
      "grad_norm": 0.0,
      "learning_rate": 0.0004746,
      "loss": 5.4774,
      "step": 2659
    },
    {
      "epoch": 4.256,
      "grad_norm": 0.0,
      "learning_rate": 0.00047439999999999993,
      "loss": 5.5052,
      "step": 2660
    },
    {
      "epoch": 4.2576,
      "grad_norm": 2.182249069213867,
      "learning_rate": 0.0004742,
      "loss": 5.3668,
      "step": 2661
    },
    {
      "epoch": 4.2592,
      "grad_norm": 0.0,
      "learning_rate": 0.000474,
      "loss": 5.3307,
      "step": 2662
    },
    {
      "epoch": 4.2608,
      "grad_norm": 0.0,
      "learning_rate": 0.0004737999999999999,
      "loss": 5.2796,
      "step": 2663
    },
    {
      "epoch": 4.2624,
      "grad_norm": 0.0,
      "learning_rate": 0.00047359999999999997,
      "loss": 5.1192,
      "step": 2664
    },
    {
      "epoch": 4.264,
      "grad_norm": 0.0,
      "learning_rate": 0.00047339999999999996,
      "loss": 6.0993,
      "step": 2665
    },
    {
      "epoch": 4.2656,
      "grad_norm": 0.0,
      "learning_rate": 0.00047319999999999996,
      "loss": 5.8218,
      "step": 2666
    },
    {
      "epoch": 4.2672,
      "grad_norm": 0.0,
      "learning_rate": 0.00047299999999999995,
      "loss": 5.8958,
      "step": 2667
    },
    {
      "epoch": 4.2688,
      "grad_norm": 0.0,
      "learning_rate": 0.0004728,
      "loss": 5.4774,
      "step": 2668
    },
    {
      "epoch": 4.2704,
      "grad_norm": 2.3783512115478516,
      "learning_rate": 0.00047259999999999994,
      "loss": 6.3583,
      "step": 2669
    },
    {
      "epoch": 4.272,
      "grad_norm": 0.0,
      "learning_rate": 0.00047239999999999994,
      "loss": 5.7838,
      "step": 2670
    },
    {
      "epoch": 4.2736,
      "grad_norm": 0.0,
      "learning_rate": 0.0004722,
      "loss": 5.6294,
      "step": 2671
    },
    {
      "epoch": 4.2752,
      "grad_norm": 0.0,
      "learning_rate": 0.0004719999999999999,
      "loss": 5.6274,
      "step": 2672
    },
    {
      "epoch": 4.2768,
      "grad_norm": 0.0,
      "learning_rate": 0.0004718,
      "loss": 4.7142,
      "step": 2673
    },
    {
      "epoch": 4.2783999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00047159999999999997,
      "loss": 6.9477,
      "step": 2674
    },
    {
      "epoch": 4.28,
      "grad_norm": 0.0,
      "learning_rate": 0.0004713999999999999,
      "loss": 5.3256,
      "step": 2675
    },
    {
      "epoch": 4.2816,
      "grad_norm": 0.0,
      "learning_rate": 0.00047119999999999996,
      "loss": 5.4785,
      "step": 2676
    },
    {
      "epoch": 4.2832,
      "grad_norm": 0.0,
      "learning_rate": 0.00047099999999999996,
      "loss": 6.1855,
      "step": 2677
    },
    {
      "epoch": 4.2848,
      "grad_norm": 0.0,
      "learning_rate": 0.00047079999999999995,
      "loss": 4.6882,
      "step": 2678
    },
    {
      "epoch": 4.2864,
      "grad_norm": 0.0,
      "learning_rate": 0.00047059999999999995,
      "loss": 5.5514,
      "step": 2679
    },
    {
      "epoch": 4.288,
      "grad_norm": 0.0,
      "learning_rate": 0.0004704,
      "loss": 6.5728,
      "step": 2680
    },
    {
      "epoch": 4.2896,
      "grad_norm": 0.0,
      "learning_rate": 0.00047019999999999994,
      "loss": 5.5523,
      "step": 2681
    },
    {
      "epoch": 4.2912,
      "grad_norm": 0.0,
      "learning_rate": 0.00046999999999999993,
      "loss": 5.4308,
      "step": 2682
    },
    {
      "epoch": 4.2928,
      "grad_norm": 0.0,
      "learning_rate": 0.0004698,
      "loss": 5.6038,
      "step": 2683
    },
    {
      "epoch": 4.2943999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.0004695999999999999,
      "loss": 5.8146,
      "step": 2684
    },
    {
      "epoch": 4.296,
      "grad_norm": 0.0,
      "learning_rate": 0.00046939999999999997,
      "loss": 5.6524,
      "step": 2685
    },
    {
      "epoch": 4.2976,
      "grad_norm": 0.0,
      "learning_rate": 0.00046919999999999997,
      "loss": 4.9563,
      "step": 2686
    },
    {
      "epoch": 4.2992,
      "grad_norm": 0.0,
      "learning_rate": 0.0004689999999999999,
      "loss": 5.0189,
      "step": 2687
    },
    {
      "epoch": 4.3008,
      "grad_norm": 0.0,
      "learning_rate": 0.00046879999999999996,
      "loss": 6.2963,
      "step": 2688
    },
    {
      "epoch": 4.3024000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.00046859999999999995,
      "loss": 7.2364,
      "step": 2689
    },
    {
      "epoch": 4.304,
      "grad_norm": 0.5065405964851379,
      "learning_rate": 0.00046839999999999995,
      "loss": 6.5879,
      "step": 2690
    },
    {
      "epoch": 4.3056,
      "grad_norm": 0.6606298685073853,
      "learning_rate": 0.00046819999999999994,
      "loss": 7.6232,
      "step": 2691
    },
    {
      "epoch": 4.3072,
      "grad_norm": 0.28764608502388,
      "learning_rate": 0.000468,
      "loss": 6.2058,
      "step": 2692
    },
    {
      "epoch": 4.3088,
      "grad_norm": 0.5861437916755676,
      "learning_rate": 0.00046779999999999993,
      "loss": 6.5446,
      "step": 2693
    },
    {
      "epoch": 4.3104,
      "grad_norm": 0.0,
      "learning_rate": 0.00046759999999999993,
      "loss": 4.6033,
      "step": 2694
    },
    {
      "epoch": 4.312,
      "grad_norm": 0.39768925309181213,
      "learning_rate": 0.0004674,
      "loss": 7.0912,
      "step": 2695
    },
    {
      "epoch": 4.3136,
      "grad_norm": 0.4369770288467407,
      "learning_rate": 0.0004671999999999999,
      "loss": 4.8682,
      "step": 2696
    },
    {
      "epoch": 4.3152,
      "grad_norm": 0.17879962921142578,
      "learning_rate": 0.00046699999999999997,
      "loss": 5.6477,
      "step": 2697
    },
    {
      "epoch": 4.3168,
      "grad_norm": 2.0778021812438965,
      "learning_rate": 0.00046679999999999996,
      "loss": 4.4139,
      "step": 2698
    },
    {
      "epoch": 4.3184000000000005,
      "grad_norm": 0.6356657147407532,
      "learning_rate": 0.0004665999999999999,
      "loss": 4.6318,
      "step": 2699
    },
    {
      "epoch": 4.32,
      "grad_norm": 3.4940898418426514,
      "learning_rate": 0.00046639999999999995,
      "loss": 8.6823,
      "step": 2700
    },
    {
      "epoch": 4.3216,
      "grad_norm": 3.1868233680725098,
      "learning_rate": 0.00046619999999999995,
      "loss": 8.6328,
      "step": 2701
    },
    {
      "epoch": 4.3232,
      "grad_norm": 0.0,
      "learning_rate": 0.00046599999999999994,
      "loss": 9.1806,
      "step": 2702
    },
    {
      "epoch": 4.3248,
      "grad_norm": 0.0,
      "learning_rate": 0.00046579999999999994,
      "loss": 7.04,
      "step": 2703
    },
    {
      "epoch": 4.3264,
      "grad_norm": 0.0,
      "learning_rate": 0.0004656,
      "loss": 6.8505,
      "step": 2704
    },
    {
      "epoch": 4.328,
      "grad_norm": 0.911113977432251,
      "learning_rate": 0.00046539999999999993,
      "loss": 5.8174,
      "step": 2705
    },
    {
      "epoch": 4.3296,
      "grad_norm": 0.0,
      "learning_rate": 0.0004651999999999999,
      "loss": 4.6813,
      "step": 2706
    },
    {
      "epoch": 4.3312,
      "grad_norm": 0.0,
      "learning_rate": 0.00046499999999999997,
      "loss": 4.9136,
      "step": 2707
    },
    {
      "epoch": 4.3328,
      "grad_norm": 0.0,
      "learning_rate": 0.0004647999999999999,
      "loss": 5.1828,
      "step": 2708
    },
    {
      "epoch": 4.3344,
      "grad_norm": 0.0,
      "learning_rate": 0.00046459999999999996,
      "loss": 5.4842,
      "step": 2709
    },
    {
      "epoch": 4.336,
      "grad_norm": 0.0,
      "learning_rate": 0.00046439999999999996,
      "loss": 5.8971,
      "step": 2710
    },
    {
      "epoch": 4.3376,
      "grad_norm": 0.0,
      "learning_rate": 0.00046419999999999995,
      "loss": 4.7415,
      "step": 2711
    },
    {
      "epoch": 4.3392,
      "grad_norm": 0.0,
      "learning_rate": 0.00046399999999999995,
      "loss": 5.4208,
      "step": 2712
    },
    {
      "epoch": 4.3408,
      "grad_norm": 0.0,
      "learning_rate": 0.0004638,
      "loss": 5.7258,
      "step": 2713
    },
    {
      "epoch": 4.3424,
      "grad_norm": 0.0,
      "learning_rate": 0.00046359999999999994,
      "loss": 4.4678,
      "step": 2714
    },
    {
      "epoch": 4.344,
      "grad_norm": 0.0,
      "learning_rate": 0.00046339999999999993,
      "loss": 6.3103,
      "step": 2715
    },
    {
      "epoch": 4.3456,
      "grad_norm": 0.0,
      "learning_rate": 0.0004632,
      "loss": 5.1996,
      "step": 2716
    },
    {
      "epoch": 4.3472,
      "grad_norm": 0.0,
      "learning_rate": 0.0004629999999999999,
      "loss": 4.8172,
      "step": 2717
    },
    {
      "epoch": 4.3488,
      "grad_norm": 0.0,
      "learning_rate": 0.0004628,
      "loss": 6.0634,
      "step": 2718
    },
    {
      "epoch": 4.3504,
      "grad_norm": 0.0,
      "learning_rate": 0.00046259999999999997,
      "loss": 5.0384,
      "step": 2719
    },
    {
      "epoch": 4.352,
      "grad_norm": 0.0,
      "learning_rate": 0.0004624,
      "loss": 4.5593,
      "step": 2720
    },
    {
      "epoch": 4.3536,
      "grad_norm": 0.0,
      "learning_rate": 0.00046219999999999996,
      "loss": 6.2736,
      "step": 2721
    },
    {
      "epoch": 4.3552,
      "grad_norm": 0.0,
      "learning_rate": 0.00046199999999999995,
      "loss": 5.7264,
      "step": 2722
    },
    {
      "epoch": 4.3568,
      "grad_norm": 0.0,
      "learning_rate": 0.0004618,
      "loss": 5.6145,
      "step": 2723
    },
    {
      "epoch": 4.3584,
      "grad_norm": 0.17345993220806122,
      "learning_rate": 0.00046159999999999994,
      "loss": 7.1915,
      "step": 2724
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.0,
      "learning_rate": 0.0004614,
      "loss": 4.9104,
      "step": 2725
    },
    {
      "epoch": 4.3616,
      "grad_norm": 0.0,
      "learning_rate": 0.0004612,
      "loss": 4.6579,
      "step": 2726
    },
    {
      "epoch": 4.3632,
      "grad_norm": 0.0,
      "learning_rate": 0.00046099999999999993,
      "loss": 5.2145,
      "step": 2727
    },
    {
      "epoch": 4.3648,
      "grad_norm": 0.0,
      "learning_rate": 0.0004608,
      "loss": 4.6131,
      "step": 2728
    },
    {
      "epoch": 4.3664,
      "grad_norm": 0.0,
      "learning_rate": 0.0004606,
      "loss": 3.9284,
      "step": 2729
    },
    {
      "epoch": 4.368,
      "grad_norm": 0.0,
      "learning_rate": 0.00046039999999999997,
      "loss": 4.8025,
      "step": 2730
    },
    {
      "epoch": 4.3696,
      "grad_norm": 0.0,
      "learning_rate": 0.00046019999999999996,
      "loss": 5.654,
      "step": 2731
    },
    {
      "epoch": 4.3712,
      "grad_norm": 0.0,
      "learning_rate": 0.00046,
      "loss": 4.4884,
      "step": 2732
    },
    {
      "epoch": 4.3728,
      "grad_norm": 0.0,
      "learning_rate": 0.00045979999999999995,
      "loss": 6.9474,
      "step": 2733
    },
    {
      "epoch": 4.3744,
      "grad_norm": 0.0,
      "learning_rate": 0.00045959999999999995,
      "loss": 4.3246,
      "step": 2734
    },
    {
      "epoch": 4.376,
      "grad_norm": 0.0,
      "learning_rate": 0.0004594,
      "loss": 4.2979,
      "step": 2735
    },
    {
      "epoch": 4.3776,
      "grad_norm": 0.0,
      "learning_rate": 0.00045919999999999994,
      "loss": 6.0484,
      "step": 2736
    },
    {
      "epoch": 4.3792,
      "grad_norm": 0.0,
      "learning_rate": 0.000459,
      "loss": 6.9776,
      "step": 2737
    },
    {
      "epoch": 4.3808,
      "grad_norm": 0.0,
      "learning_rate": 0.0004588,
      "loss": 4.6165,
      "step": 2738
    },
    {
      "epoch": 4.3824,
      "grad_norm": 0.0,
      "learning_rate": 0.0004585999999999999,
      "loss": 5.9903,
      "step": 2739
    },
    {
      "epoch": 4.384,
      "grad_norm": 0.0,
      "learning_rate": 0.0004584,
      "loss": 3.9935,
      "step": 2740
    },
    {
      "epoch": 4.3856,
      "grad_norm": 0.0,
      "learning_rate": 0.00045819999999999997,
      "loss": 7.7079,
      "step": 2741
    },
    {
      "epoch": 4.3872,
      "grad_norm": 0.0,
      "learning_rate": 0.00045799999999999997,
      "loss": 4.1452,
      "step": 2742
    },
    {
      "epoch": 4.3888,
      "grad_norm": 0.0,
      "learning_rate": 0.00045779999999999996,
      "loss": 5.6116,
      "step": 2743
    },
    {
      "epoch": 4.3904,
      "grad_norm": 0.0,
      "learning_rate": 0.0004576,
      "loss": 4.892,
      "step": 2744
    },
    {
      "epoch": 4.392,
      "grad_norm": 0.0,
      "learning_rate": 0.00045739999999999995,
      "loss": 4.6825,
      "step": 2745
    },
    {
      "epoch": 4.3936,
      "grad_norm": 0.0,
      "learning_rate": 0.00045719999999999995,
      "loss": 5.306,
      "step": 2746
    },
    {
      "epoch": 4.3952,
      "grad_norm": 1.4116289615631104,
      "learning_rate": 0.000457,
      "loss": 5.0769,
      "step": 2747
    },
    {
      "epoch": 4.3968,
      "grad_norm": 0.31743568181991577,
      "learning_rate": 0.00045679999999999994,
      "loss": 3.7618,
      "step": 2748
    },
    {
      "epoch": 4.3984,
      "grad_norm": 0.9777640700340271,
      "learning_rate": 0.0004566,
      "loss": 4.3887,
      "step": 2749
    },
    {
      "epoch": 4.4,
      "grad_norm": 2.4460084438323975,
      "learning_rate": 0.0004564,
      "loss": 6.2199,
      "step": 2750
    },
    {
      "epoch": 4.4016,
      "grad_norm": 1.542219877243042,
      "learning_rate": 0.0004561999999999999,
      "loss": 6.9442,
      "step": 2751
    },
    {
      "epoch": 4.4032,
      "grad_norm": 0.0,
      "learning_rate": 0.00045599999999999997,
      "loss": 7.7903,
      "step": 2752
    },
    {
      "epoch": 4.4048,
      "grad_norm": 0.0,
      "learning_rate": 0.00045579999999999997,
      "loss": 5.6368,
      "step": 2753
    },
    {
      "epoch": 4.4064,
      "grad_norm": 0.0,
      "learning_rate": 0.00045559999999999996,
      "loss": 5.115,
      "step": 2754
    },
    {
      "epoch": 4.408,
      "grad_norm": 0.0,
      "learning_rate": 0.00045539999999999996,
      "loss": 5.4766,
      "step": 2755
    },
    {
      "epoch": 4.4096,
      "grad_norm": 0.0,
      "learning_rate": 0.0004552,
      "loss": 4.7461,
      "step": 2756
    },
    {
      "epoch": 4.4112,
      "grad_norm": 0.0,
      "learning_rate": 0.00045499999999999995,
      "loss": 6.3163,
      "step": 2757
    },
    {
      "epoch": 4.4128,
      "grad_norm": 0.0,
      "learning_rate": 0.00045479999999999994,
      "loss": 5.9893,
      "step": 2758
    },
    {
      "epoch": 4.4144,
      "grad_norm": 0.0,
      "learning_rate": 0.0004546,
      "loss": 6.0288,
      "step": 2759
    },
    {
      "epoch": 4.416,
      "grad_norm": 0.0,
      "learning_rate": 0.00045439999999999993,
      "loss": 6.9431,
      "step": 2760
    },
    {
      "epoch": 4.4176,
      "grad_norm": 0.0,
      "learning_rate": 0.0004542,
      "loss": 6.0607,
      "step": 2761
    },
    {
      "epoch": 4.4192,
      "grad_norm": 0.0,
      "learning_rate": 0.000454,
      "loss": 4.9378,
      "step": 2762
    },
    {
      "epoch": 4.4208,
      "grad_norm": 0.0,
      "learning_rate": 0.0004537999999999999,
      "loss": 6.1937,
      "step": 2763
    },
    {
      "epoch": 4.4224,
      "grad_norm": 0.0,
      "learning_rate": 0.00045359999999999997,
      "loss": 4.2373,
      "step": 2764
    },
    {
      "epoch": 4.424,
      "grad_norm": 0.0,
      "learning_rate": 0.00045339999999999996,
      "loss": 5.8447,
      "step": 2765
    },
    {
      "epoch": 4.4256,
      "grad_norm": 0.0,
      "learning_rate": 0.00045319999999999996,
      "loss": 4.4457,
      "step": 2766
    },
    {
      "epoch": 4.4272,
      "grad_norm": 0.0,
      "learning_rate": 0.00045299999999999995,
      "loss": 4.2722,
      "step": 2767
    },
    {
      "epoch": 4.4288,
      "grad_norm": 0.0,
      "learning_rate": 0.0004528,
      "loss": 6.8676,
      "step": 2768
    },
    {
      "epoch": 4.4304,
      "grad_norm": 0.0,
      "learning_rate": 0.00045259999999999994,
      "loss": 4.8872,
      "step": 2769
    },
    {
      "epoch": 4.432,
      "grad_norm": 0.0,
      "learning_rate": 0.00045239999999999994,
      "loss": 5.9599,
      "step": 2770
    },
    {
      "epoch": 4.4336,
      "grad_norm": 0.0,
      "learning_rate": 0.0004522,
      "loss": 4.9395,
      "step": 2771
    },
    {
      "epoch": 4.4352,
      "grad_norm": 0.0,
      "learning_rate": 0.00045199999999999993,
      "loss": 5.1839,
      "step": 2772
    },
    {
      "epoch": 4.4368,
      "grad_norm": 0.0,
      "learning_rate": 0.0004518,
      "loss": 4.0279,
      "step": 2773
    },
    {
      "epoch": 4.4384,
      "grad_norm": 0.0,
      "learning_rate": 0.00045159999999999997,
      "loss": 5.7606,
      "step": 2774
    },
    {
      "epoch": 4.44,
      "grad_norm": 0.0,
      "learning_rate": 0.0004513999999999999,
      "loss": 5.0386,
      "step": 2775
    },
    {
      "epoch": 4.4416,
      "grad_norm": 0.0,
      "learning_rate": 0.00045119999999999996,
      "loss": 4.8579,
      "step": 2776
    },
    {
      "epoch": 4.4432,
      "grad_norm": 0.0,
      "learning_rate": 0.00045099999999999996,
      "loss": 4.8091,
      "step": 2777
    },
    {
      "epoch": 4.4448,
      "grad_norm": 0.0,
      "learning_rate": 0.00045079999999999995,
      "loss": 4.4286,
      "step": 2778
    },
    {
      "epoch": 4.4464,
      "grad_norm": 0.0,
      "learning_rate": 0.00045059999999999995,
      "loss": 5.0576,
      "step": 2779
    },
    {
      "epoch": 4.448,
      "grad_norm": 0.0,
      "learning_rate": 0.0004504,
      "loss": 4.2884,
      "step": 2780
    },
    {
      "epoch": 4.4496,
      "grad_norm": 0.0,
      "learning_rate": 0.00045019999999999994,
      "loss": 6.9496,
      "step": 2781
    },
    {
      "epoch": 4.4512,
      "grad_norm": 0.0,
      "learning_rate": 0.00045,
      "loss": 6.1365,
      "step": 2782
    },
    {
      "epoch": 4.4528,
      "grad_norm": 0.0,
      "learning_rate": 0.0004498,
      "loss": 4.9852,
      "step": 2783
    },
    {
      "epoch": 4.4544,
      "grad_norm": 0.17997673153877258,
      "learning_rate": 0.0004495999999999999,
      "loss": 7.4237,
      "step": 2784
    },
    {
      "epoch": 4.456,
      "grad_norm": 0.0,
      "learning_rate": 0.0004494,
      "loss": 3.8001,
      "step": 2785
    },
    {
      "epoch": 4.4576,
      "grad_norm": 0.1768631637096405,
      "learning_rate": 0.00044919999999999997,
      "loss": 4.2716,
      "step": 2786
    },
    {
      "epoch": 4.4592,
      "grad_norm": 0.0,
      "learning_rate": 0.00044899999999999996,
      "loss": 3.8919,
      "step": 2787
    },
    {
      "epoch": 4.4608,
      "grad_norm": 0.0,
      "learning_rate": 0.00044879999999999996,
      "loss": 4.659,
      "step": 2788
    },
    {
      "epoch": 4.4624,
      "grad_norm": 0.0,
      "learning_rate": 0.0004486,
      "loss": 6.3004,
      "step": 2789
    },
    {
      "epoch": 4.464,
      "grad_norm": 0.0,
      "learning_rate": 0.00044839999999999995,
      "loss": 4.3226,
      "step": 2790
    },
    {
      "epoch": 4.4656,
      "grad_norm": 0.17757441103458405,
      "learning_rate": 0.00044819999999999994,
      "loss": 5.2982,
      "step": 2791
    },
    {
      "epoch": 4.4672,
      "grad_norm": 0.1834985762834549,
      "learning_rate": 0.000448,
      "loss": 3.8272,
      "step": 2792
    },
    {
      "epoch": 4.4688,
      "grad_norm": 0.0,
      "learning_rate": 0.00044779999999999993,
      "loss": 4.5373,
      "step": 2793
    },
    {
      "epoch": 4.4704,
      "grad_norm": 0.0,
      "learning_rate": 0.0004476,
      "loss": 5.0192,
      "step": 2794
    },
    {
      "epoch": 4.4719999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0004474,
      "loss": 5.412,
      "step": 2795
    },
    {
      "epoch": 4.4736,
      "grad_norm": 0.0,
      "learning_rate": 0.0004471999999999999,
      "loss": 4.5218,
      "step": 2796
    },
    {
      "epoch": 4.4752,
      "grad_norm": 0.23554396629333496,
      "learning_rate": 0.00044699999999999997,
      "loss": 4.6174,
      "step": 2797
    },
    {
      "epoch": 4.4768,
      "grad_norm": 0.40512022376060486,
      "learning_rate": 0.00044679999999999996,
      "loss": 5.9445,
      "step": 2798
    },
    {
      "epoch": 4.4784,
      "grad_norm": 0.2543751299381256,
      "learning_rate": 0.00044659999999999996,
      "loss": 5.8068,
      "step": 2799
    },
    {
      "epoch": 4.48,
      "grad_norm": NaN,
      "learning_rate": 0.00044659999999999996,
      "loss": 5.964,
      "step": 2800
    },
    {
      "epoch": 4.4816,
      "grad_norm": 0.0,
      "learning_rate": 0.00044639999999999995,
      "loss": 8.724,
      "step": 2801
    },
    {
      "epoch": 4.4832,
      "grad_norm": 0.0,
      "learning_rate": 0.0004462,
      "loss": 6.484,
      "step": 2802
    },
    {
      "epoch": 4.4848,
      "grad_norm": 0.0,
      "learning_rate": 0.00044599999999999994,
      "loss": 6.6023,
      "step": 2803
    },
    {
      "epoch": 4.4864,
      "grad_norm": 0.0,
      "learning_rate": 0.00044579999999999994,
      "loss": 6.6948,
      "step": 2804
    },
    {
      "epoch": 4.4879999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0004456,
      "loss": 5.974,
      "step": 2805
    },
    {
      "epoch": 4.4896,
      "grad_norm": 0.0,
      "learning_rate": 0.00044539999999999993,
      "loss": 6.118,
      "step": 2806
    },
    {
      "epoch": 4.4912,
      "grad_norm": 0.0,
      "learning_rate": 0.0004452,
      "loss": 4.0869,
      "step": 2807
    },
    {
      "epoch": 4.4928,
      "grad_norm": 0.0,
      "learning_rate": 0.000445,
      "loss": 5.2811,
      "step": 2808
    },
    {
      "epoch": 4.4944,
      "grad_norm": 0.0,
      "learning_rate": 0.0004447999999999999,
      "loss": 8.1623,
      "step": 2809
    },
    {
      "epoch": 4.496,
      "grad_norm": 0.0,
      "learning_rate": 0.00044459999999999996,
      "loss": 5.452,
      "step": 2810
    },
    {
      "epoch": 4.4976,
      "grad_norm": 0.0,
      "learning_rate": 0.00044439999999999996,
      "loss": 5.8144,
      "step": 2811
    },
    {
      "epoch": 4.4992,
      "grad_norm": 0.0,
      "learning_rate": 0.00044419999999999996,
      "loss": 5.1539,
      "step": 2812
    },
    {
      "epoch": 4.5008,
      "grad_norm": 0.0,
      "learning_rate": 0.00044399999999999995,
      "loss": 4.1331,
      "step": 2813
    },
    {
      "epoch": 4.5024,
      "grad_norm": 0.0,
      "learning_rate": 0.0004438,
      "loss": 5.1579,
      "step": 2814
    },
    {
      "epoch": 4.504,
      "grad_norm": 0.0,
      "learning_rate": 0.00044359999999999994,
      "loss": 5.5597,
      "step": 2815
    },
    {
      "epoch": 4.5056,
      "grad_norm": 0.0,
      "learning_rate": 0.00044339999999999994,
      "loss": 5.3935,
      "step": 2816
    },
    {
      "epoch": 4.5072,
      "grad_norm": 0.0,
      "learning_rate": 0.0004432,
      "loss": 5.3337,
      "step": 2817
    },
    {
      "epoch": 4.5088,
      "grad_norm": 1.7325307130813599,
      "learning_rate": 0.0004429999999999999,
      "loss": 3.4717,
      "step": 2818
    },
    {
      "epoch": 4.5104,
      "grad_norm": 0.0,
      "learning_rate": 0.0004428,
      "loss": 4.7052,
      "step": 2819
    },
    {
      "epoch": 4.5120000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00044259999999999997,
      "loss": 5.0218,
      "step": 2820
    },
    {
      "epoch": 4.5136,
      "grad_norm": 0.0,
      "learning_rate": 0.0004423999999999999,
      "loss": 5.7618,
      "step": 2821
    },
    {
      "epoch": 4.5152,
      "grad_norm": 0.0,
      "learning_rate": 0.00044219999999999996,
      "loss": 6.152,
      "step": 2822
    },
    {
      "epoch": 4.5168,
      "grad_norm": 0.0,
      "learning_rate": 0.00044199999999999996,
      "loss": 4.7174,
      "step": 2823
    },
    {
      "epoch": 4.5184,
      "grad_norm": 0.0,
      "learning_rate": 0.00044179999999999995,
      "loss": 5.1476,
      "step": 2824
    },
    {
      "epoch": 4.52,
      "grad_norm": 0.0,
      "learning_rate": 0.00044159999999999995,
      "loss": 5.0282,
      "step": 2825
    },
    {
      "epoch": 4.5216,
      "grad_norm": 0.0,
      "learning_rate": 0.0004414,
      "loss": 4.2326,
      "step": 2826
    },
    {
      "epoch": 4.5232,
      "grad_norm": 0.0,
      "learning_rate": 0.00044119999999999994,
      "loss": 4.6174,
      "step": 2827
    },
    {
      "epoch": 4.5248,
      "grad_norm": 0.0,
      "learning_rate": 0.00044099999999999993,
      "loss": 6.1353,
      "step": 2828
    },
    {
      "epoch": 4.5264,
      "grad_norm": 0.0,
      "learning_rate": 0.0004408,
      "loss": 4.0639,
      "step": 2829
    },
    {
      "epoch": 4.5280000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0004405999999999999,
      "loss": 4.8102,
      "step": 2830
    },
    {
      "epoch": 4.5296,
      "grad_norm": 0.0,
      "learning_rate": 0.00044039999999999997,
      "loss": 4.3702,
      "step": 2831
    },
    {
      "epoch": 4.5312,
      "grad_norm": 0.0,
      "learning_rate": 0.00044019999999999997,
      "loss": 5.6737,
      "step": 2832
    },
    {
      "epoch": 4.5328,
      "grad_norm": 0.0,
      "learning_rate": 0.0004399999999999999,
      "loss": 5.2063,
      "step": 2833
    },
    {
      "epoch": 4.5344,
      "grad_norm": 0.0,
      "learning_rate": 0.00043979999999999996,
      "loss": 4.1089,
      "step": 2834
    },
    {
      "epoch": 4.536,
      "grad_norm": 0.0,
      "learning_rate": 0.00043959999999999995,
      "loss": 4.6398,
      "step": 2835
    },
    {
      "epoch": 4.5376,
      "grad_norm": 0.0,
      "learning_rate": 0.00043939999999999995,
      "loss": 4.4789,
      "step": 2836
    },
    {
      "epoch": 4.5392,
      "grad_norm": 0.0,
      "learning_rate": 0.00043919999999999994,
      "loss": 4.5969,
      "step": 2837
    },
    {
      "epoch": 4.5408,
      "grad_norm": 0.0,
      "learning_rate": 0.000439,
      "loss": 5.2949,
      "step": 2838
    },
    {
      "epoch": 4.5424,
      "grad_norm": 0.0,
      "learning_rate": 0.00043879999999999993,
      "loss": 5.4931,
      "step": 2839
    },
    {
      "epoch": 4.5440000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00043859999999999993,
      "loss": 7.0166,
      "step": 2840
    },
    {
      "epoch": 4.5456,
      "grad_norm": 0.0,
      "learning_rate": 0.0004384,
      "loss": 4.1068,
      "step": 2841
    },
    {
      "epoch": 4.5472,
      "grad_norm": 0.0,
      "learning_rate": 0.0004381999999999999,
      "loss": 4.6902,
      "step": 2842
    },
    {
      "epoch": 4.5488,
      "grad_norm": 0.0,
      "learning_rate": 0.00043799999999999997,
      "loss": 4.0462,
      "step": 2843
    },
    {
      "epoch": 4.5504,
      "grad_norm": 0.0,
      "learning_rate": 0.00043779999999999996,
      "loss": 4.897,
      "step": 2844
    },
    {
      "epoch": 4.552,
      "grad_norm": 0.0,
      "learning_rate": 0.0004375999999999999,
      "loss": 5.958,
      "step": 2845
    },
    {
      "epoch": 4.5536,
      "grad_norm": 0.0,
      "learning_rate": 0.00043739999999999995,
      "loss": 4.2306,
      "step": 2846
    },
    {
      "epoch": 4.5552,
      "grad_norm": 0.0,
      "learning_rate": 0.00043719999999999995,
      "loss": 5.5561,
      "step": 2847
    },
    {
      "epoch": 4.5568,
      "grad_norm": 0.0,
      "learning_rate": 0.000437,
      "loss": 4.5923,
      "step": 2848
    },
    {
      "epoch": 4.5584,
      "grad_norm": 0.0,
      "learning_rate": 0.00043679999999999994,
      "loss": 4.4687,
      "step": 2849
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0004366,
      "loss": 6.6604,
      "step": 2850
    },
    {
      "epoch": 4.5616,
      "grad_norm": 0.0,
      "learning_rate": 0.0004364,
      "loss": 6.7391,
      "step": 2851
    },
    {
      "epoch": 4.5632,
      "grad_norm": 0.0,
      "learning_rate": 0.0004361999999999999,
      "loss": 9.4595,
      "step": 2852
    },
    {
      "epoch": 4.5648,
      "grad_norm": 0.0,
      "learning_rate": 0.00043599999999999997,
      "loss": 6.9115,
      "step": 2853
    },
    {
      "epoch": 4.5664,
      "grad_norm": 0.0,
      "learning_rate": 0.00043579999999999997,
      "loss": 6.8698,
      "step": 2854
    },
    {
      "epoch": 4.568,
      "grad_norm": 0.0,
      "learning_rate": 0.00043559999999999996,
      "loss": 5.8743,
      "step": 2855
    },
    {
      "epoch": 4.5696,
      "grad_norm": 0.0,
      "learning_rate": 0.00043539999999999996,
      "loss": 6.1022,
      "step": 2856
    },
    {
      "epoch": 4.5712,
      "grad_norm": 0.0,
      "learning_rate": 0.0004352,
      "loss": 6.6078,
      "step": 2857
    },
    {
      "epoch": 4.5728,
      "grad_norm": 0.0,
      "learning_rate": 0.00043499999999999995,
      "loss": 5.2506,
      "step": 2858
    },
    {
      "epoch": 4.5744,
      "grad_norm": 0.0,
      "learning_rate": 0.0004348,
      "loss": 5.4908,
      "step": 2859
    },
    {
      "epoch": 4.576,
      "grad_norm": 0.0,
      "learning_rate": 0.0004346,
      "loss": 5.4408,
      "step": 2860
    },
    {
      "epoch": 4.5776,
      "grad_norm": 0.0,
      "learning_rate": 0.00043439999999999993,
      "loss": 4.4981,
      "step": 2861
    },
    {
      "epoch": 4.5792,
      "grad_norm": 0.0,
      "learning_rate": 0.0004342,
      "loss": 5.0869,
      "step": 2862
    },
    {
      "epoch": 4.5808,
      "grad_norm": 0.0,
      "learning_rate": 0.000434,
      "loss": 6.4992,
      "step": 2863
    },
    {
      "epoch": 4.5824,
      "grad_norm": 0.0,
      "learning_rate": 0.0004338,
      "loss": 5.6383,
      "step": 2864
    },
    {
      "epoch": 4.584,
      "grad_norm": 0.0,
      "learning_rate": 0.00043359999999999997,
      "loss": 5.1236,
      "step": 2865
    },
    {
      "epoch": 4.5856,
      "grad_norm": 0.0,
      "learning_rate": 0.0004334,
      "loss": 4.9954,
      "step": 2866
    },
    {
      "epoch": 4.5872,
      "grad_norm": 0.0,
      "learning_rate": 0.00043319999999999996,
      "loss": 4.672,
      "step": 2867
    },
    {
      "epoch": 4.5888,
      "grad_norm": 0.0,
      "learning_rate": 0.00043299999999999995,
      "loss": 4.0659,
      "step": 2868
    },
    {
      "epoch": 4.5904,
      "grad_norm": 0.0,
      "learning_rate": 0.0004328,
      "loss": 5.3073,
      "step": 2869
    },
    {
      "epoch": 4.592,
      "grad_norm": 0.0,
      "learning_rate": 0.00043259999999999994,
      "loss": 5.6311,
      "step": 2870
    },
    {
      "epoch": 4.5936,
      "grad_norm": 0.0,
      "learning_rate": 0.0004324,
      "loss": 4.7312,
      "step": 2871
    },
    {
      "epoch": 4.5952,
      "grad_norm": 0.0,
      "learning_rate": 0.0004322,
      "loss": 5.8437,
      "step": 2872
    },
    {
      "epoch": 4.5968,
      "grad_norm": 0.0,
      "learning_rate": 0.00043199999999999993,
      "loss": 4.181,
      "step": 2873
    },
    {
      "epoch": 4.5984,
      "grad_norm": 0.0,
      "learning_rate": 0.0004318,
      "loss": 5.6732,
      "step": 2874
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.0,
      "learning_rate": 0.0004316,
      "loss": 5.0165,
      "step": 2875
    },
    {
      "epoch": 4.6016,
      "grad_norm": 0.0,
      "learning_rate": 0.00043139999999999997,
      "loss": 5.9094,
      "step": 2876
    },
    {
      "epoch": 4.6032,
      "grad_norm": 0.0,
      "learning_rate": 0.00043119999999999996,
      "loss": 3.7399,
      "step": 2877
    },
    {
      "epoch": 4.6048,
      "grad_norm": 0.0,
      "learning_rate": 0.000431,
      "loss": 4.8993,
      "step": 2878
    },
    {
      "epoch": 4.6064,
      "grad_norm": 0.0,
      "learning_rate": 0.00043079999999999995,
      "loss": 4.6256,
      "step": 2879
    },
    {
      "epoch": 4.608,
      "grad_norm": 0.0,
      "learning_rate": 0.00043059999999999995,
      "loss": 4.7072,
      "step": 2880
    },
    {
      "epoch": 4.6096,
      "grad_norm": 0.0,
      "learning_rate": 0.0004304,
      "loss": 4.5723,
      "step": 2881
    },
    {
      "epoch": 4.6112,
      "grad_norm": 0.0,
      "learning_rate": 0.00043019999999999994,
      "loss": 4.2221,
      "step": 2882
    },
    {
      "epoch": 4.6128,
      "grad_norm": 0.0,
      "learning_rate": 0.00043,
      "loss": 4.2942,
      "step": 2883
    },
    {
      "epoch": 4.6144,
      "grad_norm": 0.0,
      "learning_rate": 0.0004298,
      "loss": 6.2476,
      "step": 2884
    },
    {
      "epoch": 4.616,
      "grad_norm": 0.0,
      "learning_rate": 0.0004295999999999999,
      "loss": 4.6567,
      "step": 2885
    },
    {
      "epoch": 4.6176,
      "grad_norm": 0.0,
      "learning_rate": 0.0004294,
      "loss": 5.1709,
      "step": 2886
    },
    {
      "epoch": 4.6192,
      "grad_norm": 0.0,
      "learning_rate": 0.00042919999999999997,
      "loss": 5.8477,
      "step": 2887
    },
    {
      "epoch": 4.6208,
      "grad_norm": 0.0,
      "learning_rate": 0.00042899999999999997,
      "loss": 4.9164,
      "step": 2888
    },
    {
      "epoch": 4.6224,
      "grad_norm": 0.0,
      "learning_rate": 0.00042879999999999996,
      "loss": 3.8585,
      "step": 2889
    },
    {
      "epoch": 4.624,
      "grad_norm": 0.0,
      "learning_rate": 0.0004286,
      "loss": 4.5949,
      "step": 2890
    },
    {
      "epoch": 4.6256,
      "grad_norm": 0.0,
      "learning_rate": 0.00042839999999999995,
      "loss": 3.6914,
      "step": 2891
    },
    {
      "epoch": 4.6272,
      "grad_norm": 0.0,
      "learning_rate": 0.00042819999999999995,
      "loss": 5.2296,
      "step": 2892
    },
    {
      "epoch": 4.6288,
      "grad_norm": 0.0,
      "learning_rate": 0.000428,
      "loss": 6.8092,
      "step": 2893
    },
    {
      "epoch": 4.6304,
      "grad_norm": 0.0,
      "learning_rate": 0.00042779999999999994,
      "loss": 4.4948,
      "step": 2894
    },
    {
      "epoch": 4.632,
      "grad_norm": 0.0,
      "learning_rate": 0.0004276,
      "loss": 4.3081,
      "step": 2895
    },
    {
      "epoch": 4.6336,
      "grad_norm": 0.0,
      "learning_rate": 0.0004274,
      "loss": 4.1203,
      "step": 2896
    },
    {
      "epoch": 4.6352,
      "grad_norm": 0.0,
      "learning_rate": 0.0004271999999999999,
      "loss": 6.3119,
      "step": 2897
    },
    {
      "epoch": 4.6368,
      "grad_norm": 0.0,
      "learning_rate": 0.00042699999999999997,
      "loss": 6.0715,
      "step": 2898
    },
    {
      "epoch": 4.6384,
      "grad_norm": 0.0,
      "learning_rate": 0.00042679999999999997,
      "loss": 5.0456,
      "step": 2899
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.5054150819778442,
      "learning_rate": 0.00042659999999999996,
      "loss": 7.2105,
      "step": 2900
    },
    {
      "epoch": 4.6416,
      "grad_norm": 0.0,
      "learning_rate": 0.00042639999999999996,
      "loss": 7.5307,
      "step": 2901
    },
    {
      "epoch": 4.6432,
      "grad_norm": 0.0,
      "learning_rate": 0.0004262,
      "loss": 5.5226,
      "step": 2902
    },
    {
      "epoch": 4.6448,
      "grad_norm": 0.0,
      "learning_rate": 0.00042599999999999995,
      "loss": 7.2145,
      "step": 2903
    },
    {
      "epoch": 4.6464,
      "grad_norm": 0.0,
      "learning_rate": 0.00042579999999999994,
      "loss": 7.0281,
      "step": 2904
    },
    {
      "epoch": 4.648,
      "grad_norm": 0.0,
      "learning_rate": 0.0004256,
      "loss": 6.662,
      "step": 2905
    },
    {
      "epoch": 4.6495999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00042539999999999993,
      "loss": 5.4537,
      "step": 2906
    },
    {
      "epoch": 4.6512,
      "grad_norm": 0.0,
      "learning_rate": 0.0004252,
      "loss": 5.9836,
      "step": 2907
    },
    {
      "epoch": 4.6528,
      "grad_norm": 0.0,
      "learning_rate": 0.000425,
      "loss": 7.3074,
      "step": 2908
    },
    {
      "epoch": 4.6544,
      "grad_norm": 0.0,
      "learning_rate": 0.0004247999999999999,
      "loss": 6.1179,
      "step": 2909
    },
    {
      "epoch": 4.656,
      "grad_norm": 0.0,
      "learning_rate": 0.00042459999999999997,
      "loss": 6.4216,
      "step": 2910
    },
    {
      "epoch": 4.6576,
      "grad_norm": 0.0,
      "learning_rate": 0.00042439999999999996,
      "loss": 4.8458,
      "step": 2911
    },
    {
      "epoch": 4.6592,
      "grad_norm": 0.0,
      "learning_rate": 0.00042419999999999996,
      "loss": 6.493,
      "step": 2912
    },
    {
      "epoch": 4.6608,
      "grad_norm": 0.0,
      "learning_rate": 0.00042399999999999995,
      "loss": 5.6785,
      "step": 2913
    },
    {
      "epoch": 4.6624,
      "grad_norm": 0.0,
      "learning_rate": 0.0004238,
      "loss": 5.1236,
      "step": 2914
    },
    {
      "epoch": 4.664,
      "grad_norm": 0.0,
      "learning_rate": 0.00042359999999999994,
      "loss": 5.6009,
      "step": 2915
    },
    {
      "epoch": 4.6655999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00042339999999999994,
      "loss": 4.3321,
      "step": 2916
    },
    {
      "epoch": 4.6672,
      "grad_norm": 0.0,
      "learning_rate": 0.0004232,
      "loss": 5.8398,
      "step": 2917
    },
    {
      "epoch": 4.6688,
      "grad_norm": 0.0,
      "learning_rate": 0.00042299999999999993,
      "loss": 5.6342,
      "step": 2918
    },
    {
      "epoch": 4.6704,
      "grad_norm": 0.0,
      "learning_rate": 0.0004228,
      "loss": 5.2944,
      "step": 2919
    },
    {
      "epoch": 4.672,
      "grad_norm": 0.0,
      "learning_rate": 0.00042259999999999997,
      "loss": 4.9023,
      "step": 2920
    },
    {
      "epoch": 4.6736,
      "grad_norm": 0.0,
      "learning_rate": 0.0004223999999999999,
      "loss": 5.0967,
      "step": 2921
    },
    {
      "epoch": 4.6752,
      "grad_norm": 0.0,
      "learning_rate": 0.00042219999999999996,
      "loss": 5.4827,
      "step": 2922
    },
    {
      "epoch": 4.6768,
      "grad_norm": 0.0,
      "learning_rate": 0.00042199999999999996,
      "loss": 4.8885,
      "step": 2923
    },
    {
      "epoch": 4.6784,
      "grad_norm": 0.0,
      "learning_rate": 0.00042179999999999995,
      "loss": 5.8827,
      "step": 2924
    },
    {
      "epoch": 4.68,
      "grad_norm": 0.0,
      "learning_rate": 0.00042159999999999995,
      "loss": 4.563,
      "step": 2925
    },
    {
      "epoch": 4.6815999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0004214,
      "loss": 4.789,
      "step": 2926
    },
    {
      "epoch": 4.6832,
      "grad_norm": 0.0,
      "learning_rate": 0.00042119999999999994,
      "loss": 3.8655,
      "step": 2927
    },
    {
      "epoch": 4.6848,
      "grad_norm": 0.0,
      "learning_rate": 0.00042099999999999993,
      "loss": 6.2099,
      "step": 2928
    },
    {
      "epoch": 4.6864,
      "grad_norm": 0.0,
      "learning_rate": 0.0004208,
      "loss": 5.1643,
      "step": 2929
    },
    {
      "epoch": 4.688,
      "grad_norm": 0.0,
      "learning_rate": 0.0004205999999999999,
      "loss": 6.0056,
      "step": 2930
    },
    {
      "epoch": 4.6896,
      "grad_norm": 0.0,
      "learning_rate": 0.0004204,
      "loss": 5.5561,
      "step": 2931
    },
    {
      "epoch": 4.6912,
      "grad_norm": 0.0,
      "learning_rate": 0.00042019999999999997,
      "loss": 4.9396,
      "step": 2932
    },
    {
      "epoch": 4.6928,
      "grad_norm": 0.0,
      "learning_rate": 0.00041999999999999996,
      "loss": 5.0199,
      "step": 2933
    },
    {
      "epoch": 4.6944,
      "grad_norm": 0.0,
      "learning_rate": 0.00041979999999999996,
      "loss": 5.0728,
      "step": 2934
    },
    {
      "epoch": 4.696,
      "grad_norm": 0.0,
      "learning_rate": 0.0004196,
      "loss": 5.1721,
      "step": 2935
    },
    {
      "epoch": 4.6975999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.00041939999999999995,
      "loss": 5.5109,
      "step": 2936
    },
    {
      "epoch": 4.6992,
      "grad_norm": 0.0,
      "learning_rate": 0.00041919999999999994,
      "loss": 8.4421,
      "step": 2937
    },
    {
      "epoch": 4.7008,
      "grad_norm": 0.0,
      "learning_rate": 0.000419,
      "loss": 4.782,
      "step": 2938
    },
    {
      "epoch": 4.7024,
      "grad_norm": 0.0,
      "learning_rate": 0.00041879999999999993,
      "loss": 4.2826,
      "step": 2939
    },
    {
      "epoch": 4.704,
      "grad_norm": 0.0,
      "learning_rate": 0.0004186,
      "loss": 5.7527,
      "step": 2940
    },
    {
      "epoch": 4.7056000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.0004184,
      "loss": 5.1368,
      "step": 2941
    },
    {
      "epoch": 4.7072,
      "grad_norm": 0.0,
      "learning_rate": 0.0004181999999999999,
      "loss": 4.1887,
      "step": 2942
    },
    {
      "epoch": 4.7088,
      "grad_norm": 0.0,
      "learning_rate": 0.00041799999999999997,
      "loss": 3.4475,
      "step": 2943
    },
    {
      "epoch": 4.7104,
      "grad_norm": 0.0,
      "learning_rate": 0.00041779999999999996,
      "loss": 5.7149,
      "step": 2944
    },
    {
      "epoch": 4.712,
      "grad_norm": 0.0,
      "learning_rate": 0.00041759999999999996,
      "loss": 5.1234,
      "step": 2945
    },
    {
      "epoch": 4.7136,
      "grad_norm": 0.0,
      "learning_rate": 0.00041739999999999995,
      "loss": 6.9552,
      "step": 2946
    },
    {
      "epoch": 4.7152,
      "grad_norm": 0.0,
      "learning_rate": 0.0004172,
      "loss": 7.8605,
      "step": 2947
    },
    {
      "epoch": 4.7168,
      "grad_norm": 0.0,
      "learning_rate": 0.00041699999999999994,
      "loss": 5.1045,
      "step": 2948
    },
    {
      "epoch": 4.7184,
      "grad_norm": 3.3168752193450928,
      "learning_rate": 0.00041679999999999994,
      "loss": 4.8862,
      "step": 2949
    },
    {
      "epoch": 4.72,
      "grad_norm": NaN,
      "learning_rate": 0.00041679999999999994,
      "loss": 4.8903,
      "step": 2950
    },
    {
      "epoch": 4.7216000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0004166,
      "loss": 7.4356,
      "step": 2951
    },
    {
      "epoch": 4.7232,
      "grad_norm": 0.0,
      "learning_rate": 0.00041639999999999993,
      "loss": 6.7875,
      "step": 2952
    },
    {
      "epoch": 4.7248,
      "grad_norm": 0.0,
      "learning_rate": 0.0004162,
      "loss": 8.4374,
      "step": 2953
    },
    {
      "epoch": 4.7264,
      "grad_norm": 0.0,
      "learning_rate": 0.000416,
      "loss": 6.2717,
      "step": 2954
    },
    {
      "epoch": 4.728,
      "grad_norm": 0.0,
      "learning_rate": 0.0004157999999999999,
      "loss": 5.2044,
      "step": 2955
    },
    {
      "epoch": 4.7296,
      "grad_norm": 0.0,
      "learning_rate": 0.00041559999999999996,
      "loss": 6.9109,
      "step": 2956
    },
    {
      "epoch": 4.7312,
      "grad_norm": 0.0,
      "learning_rate": 0.00041539999999999996,
      "loss": 5.2435,
      "step": 2957
    },
    {
      "epoch": 4.7328,
      "grad_norm": 0.0,
      "learning_rate": 0.00041519999999999995,
      "loss": 6.793,
      "step": 2958
    },
    {
      "epoch": 4.7344,
      "grad_norm": 0.0,
      "learning_rate": 0.00041499999999999995,
      "loss": 5.6909,
      "step": 2959
    },
    {
      "epoch": 4.736,
      "grad_norm": 0.0,
      "learning_rate": 0.0004148,
      "loss": 6.6258,
      "step": 2960
    },
    {
      "epoch": 4.7376000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00041459999999999994,
      "loss": 4.6512,
      "step": 2961
    },
    {
      "epoch": 4.7392,
      "grad_norm": 0.0,
      "learning_rate": 0.00041439999999999994,
      "loss": 5.9544,
      "step": 2962
    },
    {
      "epoch": 4.7408,
      "grad_norm": 0.0,
      "learning_rate": 0.0004142,
      "loss": 4.9663,
      "step": 2963
    },
    {
      "epoch": 4.7424,
      "grad_norm": 0.0,
      "learning_rate": 0.0004139999999999999,
      "loss": 5.8425,
      "step": 2964
    },
    {
      "epoch": 4.744,
      "grad_norm": 0.0,
      "learning_rate": 0.0004138,
      "loss": 5.9031,
      "step": 2965
    },
    {
      "epoch": 4.7456,
      "grad_norm": 0.0,
      "learning_rate": 0.00041359999999999997,
      "loss": 5.5365,
      "step": 2966
    },
    {
      "epoch": 4.7472,
      "grad_norm": 0.0,
      "learning_rate": 0.0004133999999999999,
      "loss": 6.1423,
      "step": 2967
    },
    {
      "epoch": 4.7488,
      "grad_norm": 0.0,
      "learning_rate": 0.00041319999999999996,
      "loss": 6.283,
      "step": 2968
    },
    {
      "epoch": 4.7504,
      "grad_norm": 0.0,
      "learning_rate": 0.00041299999999999996,
      "loss": 7.0199,
      "step": 2969
    },
    {
      "epoch": 4.752,
      "grad_norm": 0.0,
      "learning_rate": 0.00041279999999999995,
      "loss": 6.617,
      "step": 2970
    },
    {
      "epoch": 4.7536000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00041259999999999995,
      "loss": 4.9052,
      "step": 2971
    },
    {
      "epoch": 4.7552,
      "grad_norm": 0.0,
      "learning_rate": 0.0004124,
      "loss": 4.7351,
      "step": 2972
    },
    {
      "epoch": 4.7568,
      "grad_norm": 0.0,
      "learning_rate": 0.0004122,
      "loss": 6.1535,
      "step": 2973
    },
    {
      "epoch": 4.7584,
      "grad_norm": 0.0,
      "learning_rate": 0.00041199999999999993,
      "loss": 5.4087,
      "step": 2974
    },
    {
      "epoch": 4.76,
      "grad_norm": 0.0,
      "learning_rate": 0.0004118,
      "loss": 5.1719,
      "step": 2975
    },
    {
      "epoch": 4.7616,
      "grad_norm": 0.0,
      "learning_rate": 0.0004116,
      "loss": 4.4333,
      "step": 2976
    },
    {
      "epoch": 4.7632,
      "grad_norm": 0.0,
      "learning_rate": 0.00041139999999999997,
      "loss": 6.293,
      "step": 2977
    },
    {
      "epoch": 4.7648,
      "grad_norm": 0.0,
      "learning_rate": 0.00041119999999999997,
      "loss": 5.8174,
      "step": 2978
    },
    {
      "epoch": 4.7664,
      "grad_norm": 0.0,
      "learning_rate": 0.000411,
      "loss": 4.1179,
      "step": 2979
    },
    {
      "epoch": 4.768,
      "grad_norm": 0.0,
      "learning_rate": 0.00041079999999999996,
      "loss": 5.873,
      "step": 2980
    },
    {
      "epoch": 4.7696,
      "grad_norm": 0.0,
      "learning_rate": 0.00041059999999999995,
      "loss": 4.9865,
      "step": 2981
    },
    {
      "epoch": 4.7712,
      "grad_norm": 0.0,
      "learning_rate": 0.0004104,
      "loss": 5.094,
      "step": 2982
    },
    {
      "epoch": 4.7728,
      "grad_norm": 0.0,
      "learning_rate": 0.00041019999999999994,
      "loss": 4.8503,
      "step": 2983
    },
    {
      "epoch": 4.7744,
      "grad_norm": 0.0,
      "learning_rate": 0.00041,
      "loss": 5.678,
      "step": 2984
    },
    {
      "epoch": 4.776,
      "grad_norm": 0.0,
      "learning_rate": 0.0004098,
      "loss": 7.1912,
      "step": 2985
    },
    {
      "epoch": 4.7776,
      "grad_norm": 0.0,
      "learning_rate": 0.00040959999999999993,
      "loss": 5.2119,
      "step": 2986
    },
    {
      "epoch": 4.7792,
      "grad_norm": 0.0,
      "learning_rate": 0.0004094,
      "loss": 4.386,
      "step": 2987
    },
    {
      "epoch": 4.7808,
      "grad_norm": 0.0,
      "learning_rate": 0.00040919999999999997,
      "loss": 5.1441,
      "step": 2988
    },
    {
      "epoch": 4.7824,
      "grad_norm": 0.0,
      "learning_rate": 0.00040899999999999997,
      "loss": 5.8762,
      "step": 2989
    },
    {
      "epoch": 4.784,
      "grad_norm": 0.0,
      "learning_rate": 0.00040879999999999996,
      "loss": 4.5841,
      "step": 2990
    },
    {
      "epoch": 4.7856,
      "grad_norm": 0.0,
      "learning_rate": 0.0004086,
      "loss": 6.3816,
      "step": 2991
    },
    {
      "epoch": 4.7872,
      "grad_norm": 0.0,
      "learning_rate": 0.00040839999999999995,
      "loss": 4.907,
      "step": 2992
    },
    {
      "epoch": 4.7888,
      "grad_norm": 0.0,
      "learning_rate": 0.00040819999999999995,
      "loss": 6.8205,
      "step": 2993
    },
    {
      "epoch": 4.7904,
      "grad_norm": 0.0,
      "learning_rate": 0.000408,
      "loss": 6.3567,
      "step": 2994
    },
    {
      "epoch": 4.792,
      "grad_norm": 0.0,
      "learning_rate": 0.00040779999999999994,
      "loss": 3.7933,
      "step": 2995
    },
    {
      "epoch": 4.7936,
      "grad_norm": 0.0,
      "learning_rate": 0.0004076,
      "loss": 4.7355,
      "step": 2996
    },
    {
      "epoch": 4.7952,
      "grad_norm": 0.0,
      "learning_rate": 0.0004074,
      "loss": 5.2632,
      "step": 2997
    },
    {
      "epoch": 4.7968,
      "grad_norm": 0.0,
      "learning_rate": 0.0004071999999999999,
      "loss": 5.1249,
      "step": 2998
    },
    {
      "epoch": 4.7984,
      "grad_norm": 0.0,
      "learning_rate": 0.00040699999999999997,
      "loss": 6.7669,
      "step": 2999
    },
    {
      "epoch": 4.8,
      "grad_norm": NaN,
      "learning_rate": 0.00040699999999999997,
      "loss": 5.5318,
      "step": 3000
    },
    {
      "epoch": 4.8016,
      "grad_norm": 0.0,
      "learning_rate": 0.00040679999999999997,
      "loss": 10.2462,
      "step": 3001
    },
    {
      "epoch": 4.8032,
      "grad_norm": 0.0,
      "learning_rate": 0.00040659999999999996,
      "loss": 6.9759,
      "step": 3002
    },
    {
      "epoch": 4.8048,
      "grad_norm": 0.0,
      "learning_rate": 0.00040639999999999996,
      "loss": 5.6984,
      "step": 3003
    },
    {
      "epoch": 4.8064,
      "grad_norm": 0.0,
      "learning_rate": 0.0004062,
      "loss": 7.0211,
      "step": 3004
    },
    {
      "epoch": 4.808,
      "grad_norm": 0.0,
      "learning_rate": 0.00040599999999999995,
      "loss": 7.0675,
      "step": 3005
    },
    {
      "epoch": 4.8096,
      "grad_norm": 0.0,
      "learning_rate": 0.00040579999999999994,
      "loss": 8.8733,
      "step": 3006
    },
    {
      "epoch": 4.8112,
      "grad_norm": 0.0,
      "learning_rate": 0.0004056,
      "loss": 6.5793,
      "step": 3007
    },
    {
      "epoch": 4.8128,
      "grad_norm": 0.0,
      "learning_rate": 0.00040539999999999993,
      "loss": 5.8908,
      "step": 3008
    },
    {
      "epoch": 4.8144,
      "grad_norm": 0.0,
      "learning_rate": 0.0004052,
      "loss": 6.2365,
      "step": 3009
    },
    {
      "epoch": 4.816,
      "grad_norm": 0.0,
      "learning_rate": 0.000405,
      "loss": 6.5827,
      "step": 3010
    },
    {
      "epoch": 4.8176,
      "grad_norm": 0.0,
      "learning_rate": 0.0004048,
      "loss": 8.2913,
      "step": 3011
    },
    {
      "epoch": 4.8192,
      "grad_norm": 0.0,
      "learning_rate": 0.00040459999999999997,
      "loss": 5.7216,
      "step": 3012
    },
    {
      "epoch": 4.8208,
      "grad_norm": 0.0,
      "learning_rate": 0.0004044,
      "loss": 4.7472,
      "step": 3013
    },
    {
      "epoch": 4.8224,
      "grad_norm": 0.0,
      "learning_rate": 0.00040419999999999996,
      "loss": 5.3596,
      "step": 3014
    },
    {
      "epoch": 4.824,
      "grad_norm": 0.0,
      "learning_rate": 0.00040399999999999995,
      "loss": 6.5334,
      "step": 3015
    },
    {
      "epoch": 4.8256,
      "grad_norm": 0.0,
      "learning_rate": 0.0004038,
      "loss": 6.4598,
      "step": 3016
    },
    {
      "epoch": 4.8272,
      "grad_norm": 0.0,
      "learning_rate": 0.00040359999999999994,
      "loss": 5.1912,
      "step": 3017
    },
    {
      "epoch": 4.8288,
      "grad_norm": 0.0,
      "learning_rate": 0.0004034,
      "loss": 4.6177,
      "step": 3018
    },
    {
      "epoch": 4.8304,
      "grad_norm": 0.0,
      "learning_rate": 0.0004032,
      "loss": 4.7634,
      "step": 3019
    },
    {
      "epoch": 4.832,
      "grad_norm": 0.0,
      "learning_rate": 0.00040299999999999993,
      "loss": 5.1462,
      "step": 3020
    },
    {
      "epoch": 4.8336,
      "grad_norm": 0.0,
      "learning_rate": 0.0004028,
      "loss": 4.9172,
      "step": 3021
    },
    {
      "epoch": 4.8352,
      "grad_norm": 0.0,
      "learning_rate": 0.0004026,
      "loss": 8.2852,
      "step": 3022
    },
    {
      "epoch": 4.8368,
      "grad_norm": 0.0,
      "learning_rate": 0.00040239999999999997,
      "loss": 4.7602,
      "step": 3023
    },
    {
      "epoch": 4.8384,
      "grad_norm": 0.0,
      "learning_rate": 0.00040219999999999996,
      "loss": 5.6188,
      "step": 3024
    },
    {
      "epoch": 4.84,
      "grad_norm": 0.0,
      "learning_rate": 0.000402,
      "loss": 5.4905,
      "step": 3025
    },
    {
      "epoch": 4.8416,
      "grad_norm": 0.0,
      "learning_rate": 0.00040179999999999995,
      "loss": 5.3078,
      "step": 3026
    },
    {
      "epoch": 4.8431999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00040159999999999995,
      "loss": 4.5428,
      "step": 3027
    },
    {
      "epoch": 4.8448,
      "grad_norm": 0.0,
      "learning_rate": 0.0004014,
      "loss": 5.7685,
      "step": 3028
    },
    {
      "epoch": 4.8464,
      "grad_norm": 0.0,
      "learning_rate": 0.00040119999999999994,
      "loss": 4.6266,
      "step": 3029
    },
    {
      "epoch": 4.848,
      "grad_norm": 0.0,
      "learning_rate": 0.000401,
      "loss": 4.8828,
      "step": 3030
    },
    {
      "epoch": 4.8496,
      "grad_norm": 0.0,
      "learning_rate": 0.0004008,
      "loss": 6.5834,
      "step": 3031
    },
    {
      "epoch": 4.8512,
      "grad_norm": 0.0,
      "learning_rate": 0.0004005999999999999,
      "loss": 5.0824,
      "step": 3032
    },
    {
      "epoch": 4.8528,
      "grad_norm": 0.0,
      "learning_rate": 0.0004004,
      "loss": 4.8299,
      "step": 3033
    },
    {
      "epoch": 4.8544,
      "grad_norm": 0.0,
      "learning_rate": 0.00040019999999999997,
      "loss": 5.5092,
      "step": 3034
    },
    {
      "epoch": 4.856,
      "grad_norm": 0.0,
      "learning_rate": 0.00039999999999999996,
      "loss": 5.2468,
      "step": 3035
    },
    {
      "epoch": 4.8576,
      "grad_norm": 0.0,
      "learning_rate": 0.00039979999999999996,
      "loss": 4.6701,
      "step": 3036
    },
    {
      "epoch": 4.8591999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0003996,
      "loss": 6.5081,
      "step": 3037
    },
    {
      "epoch": 4.8608,
      "grad_norm": 0.0,
      "learning_rate": 0.00039939999999999995,
      "loss": 4.3119,
      "step": 3038
    },
    {
      "epoch": 4.8624,
      "grad_norm": 0.0,
      "learning_rate": 0.00039919999999999995,
      "loss": 4.9543,
      "step": 3039
    },
    {
      "epoch": 4.864,
      "grad_norm": 0.0,
      "learning_rate": 0.000399,
      "loss": 7.465,
      "step": 3040
    },
    {
      "epoch": 4.8656,
      "grad_norm": 0.0,
      "learning_rate": 0.00039879999999999994,
      "loss": 4.2138,
      "step": 3041
    },
    {
      "epoch": 4.8672,
      "grad_norm": 0.0,
      "learning_rate": 0.0003986,
      "loss": 4.8901,
      "step": 3042
    },
    {
      "epoch": 4.8688,
      "grad_norm": 0.0,
      "learning_rate": 0.0003984,
      "loss": 5.0104,
      "step": 3043
    },
    {
      "epoch": 4.8704,
      "grad_norm": 0.0,
      "learning_rate": 0.0003981999999999999,
      "loss": 4.4113,
      "step": 3044
    },
    {
      "epoch": 4.872,
      "grad_norm": 0.0,
      "learning_rate": 0.00039799999999999997,
      "loss": 5.7516,
      "step": 3045
    },
    {
      "epoch": 4.8736,
      "grad_norm": 0.0,
      "learning_rate": 0.00039779999999999997,
      "loss": 5.5562,
      "step": 3046
    },
    {
      "epoch": 4.8751999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00039759999999999996,
      "loss": 5.4988,
      "step": 3047
    },
    {
      "epoch": 4.8768,
      "grad_norm": 0.0,
      "learning_rate": 0.00039739999999999996,
      "loss": 5.4396,
      "step": 3048
    },
    {
      "epoch": 4.8784,
      "grad_norm": 0.0,
      "learning_rate": 0.0003972,
      "loss": 4.7456,
      "step": 3049
    },
    {
      "epoch": 4.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003972,
      "loss": 7.3277,
      "step": 3050
    },
    {
      "epoch": 4.8816,
      "grad_norm": 0.0,
      "learning_rate": 0.00039699999999999995,
      "loss": 7.5654,
      "step": 3051
    },
    {
      "epoch": 4.8832,
      "grad_norm": 0.0,
      "learning_rate": 0.00039679999999999994,
      "loss": 11.4621,
      "step": 3052
    },
    {
      "epoch": 4.8848,
      "grad_norm": 0.0,
      "learning_rate": 0.0003966,
      "loss": 7.8216,
      "step": 3053
    },
    {
      "epoch": 4.8864,
      "grad_norm": 0.0,
      "learning_rate": 0.00039639999999999993,
      "loss": 6.2116,
      "step": 3054
    },
    {
      "epoch": 4.888,
      "grad_norm": 0.0,
      "learning_rate": 0.0003962,
      "loss": 5.7363,
      "step": 3055
    },
    {
      "epoch": 4.8896,
      "grad_norm": 0.0,
      "learning_rate": 0.000396,
      "loss": 6.5144,
      "step": 3056
    },
    {
      "epoch": 4.8911999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0003957999999999999,
      "loss": 5.917,
      "step": 3057
    },
    {
      "epoch": 4.8928,
      "grad_norm": 0.0,
      "learning_rate": 0.00039559999999999997,
      "loss": 6.1872,
      "step": 3058
    },
    {
      "epoch": 4.8944,
      "grad_norm": 0.0,
      "learning_rate": 0.00039539999999999996,
      "loss": 6.0313,
      "step": 3059
    },
    {
      "epoch": 4.896,
      "grad_norm": 0.0,
      "learning_rate": 0.00039519999999999996,
      "loss": 5.5926,
      "step": 3060
    },
    {
      "epoch": 4.8976,
      "grad_norm": 0.0,
      "learning_rate": 0.00039499999999999995,
      "loss": 6.9679,
      "step": 3061
    },
    {
      "epoch": 4.8992,
      "grad_norm": 0.0,
      "learning_rate": 0.0003948,
      "loss": 7.5164,
      "step": 3062
    },
    {
      "epoch": 4.9008,
      "grad_norm": 0.0,
      "learning_rate": 0.00039459999999999994,
      "loss": 5.4189,
      "step": 3063
    },
    {
      "epoch": 4.9024,
      "grad_norm": 0.0,
      "learning_rate": 0.00039439999999999994,
      "loss": 5.2463,
      "step": 3064
    },
    {
      "epoch": 4.904,
      "grad_norm": 0.0,
      "learning_rate": 0.0003942,
      "loss": 5.7083,
      "step": 3065
    },
    {
      "epoch": 4.9056,
      "grad_norm": 0.0,
      "learning_rate": 0.00039399999999999993,
      "loss": 5.7834,
      "step": 3066
    },
    {
      "epoch": 4.9072,
      "grad_norm": 0.0,
      "learning_rate": 0.0003938,
      "loss": 4.8085,
      "step": 3067
    },
    {
      "epoch": 4.9088,
      "grad_norm": 0.0,
      "learning_rate": 0.00039359999999999997,
      "loss": 5.291,
      "step": 3068
    },
    {
      "epoch": 4.9104,
      "grad_norm": 0.0,
      "learning_rate": 0.0003933999999999999,
      "loss": 6.1978,
      "step": 3069
    },
    {
      "epoch": 4.912,
      "grad_norm": 0.0,
      "learning_rate": 0.00039319999999999996,
      "loss": 5.6269,
      "step": 3070
    },
    {
      "epoch": 4.9136,
      "grad_norm": 0.0,
      "learning_rate": 0.00039299999999999996,
      "loss": 4.6422,
      "step": 3071
    },
    {
      "epoch": 4.9152000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00039279999999999995,
      "loss": 6.294,
      "step": 3072
    },
    {
      "epoch": 4.9168,
      "grad_norm": 0.0,
      "learning_rate": 0.00039259999999999995,
      "loss": 6.4443,
      "step": 3073
    },
    {
      "epoch": 4.9184,
      "grad_norm": 0.0,
      "learning_rate": 0.0003924,
      "loss": 7.8158,
      "step": 3074
    },
    {
      "epoch": 4.92,
      "grad_norm": 0.0,
      "learning_rate": 0.00039219999999999994,
      "loss": 5.6271,
      "step": 3075
    },
    {
      "epoch": 4.9216,
      "grad_norm": 0.0,
      "learning_rate": 0.00039199999999999993,
      "loss": 5.1731,
      "step": 3076
    },
    {
      "epoch": 4.9232,
      "grad_norm": 0.0,
      "learning_rate": 0.0003918,
      "loss": 4.3069,
      "step": 3077
    },
    {
      "epoch": 4.9248,
      "grad_norm": 0.0,
      "learning_rate": 0.0003915999999999999,
      "loss": 5.0069,
      "step": 3078
    },
    {
      "epoch": 4.9264,
      "grad_norm": 0.0,
      "learning_rate": 0.00039139999999999997,
      "loss": 5.2292,
      "step": 3079
    },
    {
      "epoch": 4.928,
      "grad_norm": 0.0,
      "learning_rate": 0.00039119999999999997,
      "loss": 4.2463,
      "step": 3080
    },
    {
      "epoch": 4.9296,
      "grad_norm": 0.0,
      "learning_rate": 0.0003909999999999999,
      "loss": 5.2186,
      "step": 3081
    },
    {
      "epoch": 4.9312000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00039079999999999996,
      "loss": 4.6326,
      "step": 3082
    },
    {
      "epoch": 4.9328,
      "grad_norm": 0.0,
      "learning_rate": 0.00039059999999999995,
      "loss": 5.6659,
      "step": 3083
    },
    {
      "epoch": 4.9344,
      "grad_norm": 0.0,
      "learning_rate": 0.00039039999999999995,
      "loss": 4.5974,
      "step": 3084
    },
    {
      "epoch": 4.936,
      "grad_norm": 0.0,
      "learning_rate": 0.00039019999999999994,
      "loss": 4.748,
      "step": 3085
    },
    {
      "epoch": 4.9376,
      "grad_norm": 0.0,
      "learning_rate": 0.00039,
      "loss": 4.8799,
      "step": 3086
    },
    {
      "epoch": 4.9392,
      "grad_norm": 0.0,
      "learning_rate": 0.00038979999999999993,
      "loss": 5.0342,
      "step": 3087
    },
    {
      "epoch": 4.9408,
      "grad_norm": 0.0,
      "learning_rate": 0.0003896,
      "loss": 5.5914,
      "step": 3088
    },
    {
      "epoch": 4.9424,
      "grad_norm": 0.0,
      "learning_rate": 0.0003894,
      "loss": 5.3472,
      "step": 3089
    },
    {
      "epoch": 4.944,
      "grad_norm": 0.0,
      "learning_rate": 0.0003891999999999999,
      "loss": 5.4005,
      "step": 3090
    },
    {
      "epoch": 4.9456,
      "grad_norm": 0.0,
      "learning_rate": 0.00038899999999999997,
      "loss": 6.1949,
      "step": 3091
    },
    {
      "epoch": 4.9472000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00038879999999999996,
      "loss": 5.9667,
      "step": 3092
    },
    {
      "epoch": 4.9488,
      "grad_norm": 0.0,
      "learning_rate": 0.00038859999999999996,
      "loss": 5.5679,
      "step": 3093
    },
    {
      "epoch": 4.9504,
      "grad_norm": 0.0,
      "learning_rate": 0.00038839999999999995,
      "loss": 5.1527,
      "step": 3094
    },
    {
      "epoch": 4.952,
      "grad_norm": 0.0,
      "learning_rate": 0.0003882,
      "loss": 4.991,
      "step": 3095
    },
    {
      "epoch": 4.9536,
      "grad_norm": 0.0,
      "learning_rate": 0.00038799999999999994,
      "loss": 5.4299,
      "step": 3096
    },
    {
      "epoch": 4.9552,
      "grad_norm": 0.0,
      "learning_rate": 0.00038779999999999994,
      "loss": 7.1702,
      "step": 3097
    },
    {
      "epoch": 4.9568,
      "grad_norm": 0.0,
      "learning_rate": 0.0003876,
      "loss": 4.5268,
      "step": 3098
    },
    {
      "epoch": 4.9584,
      "grad_norm": 0.0,
      "learning_rate": 0.0003874,
      "loss": 7.0175,
      "step": 3099
    },
    {
      "epoch": 4.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003874,
      "loss": 4.9075,
      "step": 3100
    },
    {
      "epoch": 4.9616,
      "grad_norm": 0.0,
      "learning_rate": 0.0003872,
      "loss": 9.0214,
      "step": 3101
    },
    {
      "epoch": 4.9632,
      "grad_norm": 0.0,
      "learning_rate": 0.000387,
      "loss": 5.9765,
      "step": 3102
    },
    {
      "epoch": 4.9648,
      "grad_norm": 0.0,
      "learning_rate": 0.0003868,
      "loss": 7.0184,
      "step": 3103
    },
    {
      "epoch": 4.9664,
      "grad_norm": 0.0,
      "learning_rate": 0.00038659999999999996,
      "loss": 7.8053,
      "step": 3104
    },
    {
      "epoch": 4.968,
      "grad_norm": 0.0,
      "learning_rate": 0.00038639999999999996,
      "loss": 5.9001,
      "step": 3105
    },
    {
      "epoch": 4.9696,
      "grad_norm": 0.0,
      "learning_rate": 0.0003862,
      "loss": 6.0759,
      "step": 3106
    },
    {
      "epoch": 4.9712,
      "grad_norm": 0.0,
      "learning_rate": 0.00038599999999999995,
      "loss": 6.2509,
      "step": 3107
    },
    {
      "epoch": 4.9728,
      "grad_norm": 0.0,
      "learning_rate": 0.0003858,
      "loss": 7.205,
      "step": 3108
    },
    {
      "epoch": 4.9744,
      "grad_norm": 0.0,
      "learning_rate": 0.0003856,
      "loss": 5.5714,
      "step": 3109
    },
    {
      "epoch": 4.976,
      "grad_norm": 0.0,
      "learning_rate": 0.00038539999999999994,
      "loss": 8.2532,
      "step": 3110
    },
    {
      "epoch": 4.9776,
      "grad_norm": 0.0,
      "learning_rate": 0.0003852,
      "loss": 5.728,
      "step": 3111
    },
    {
      "epoch": 4.9792,
      "grad_norm": 0.0,
      "learning_rate": 0.000385,
      "loss": 5.8812,
      "step": 3112
    },
    {
      "epoch": 4.9808,
      "grad_norm": 0.0,
      "learning_rate": 0.0003848,
      "loss": 4.8908,
      "step": 3113
    },
    {
      "epoch": 4.9824,
      "grad_norm": 0.0,
      "learning_rate": 0.00038459999999999997,
      "loss": 4.0623,
      "step": 3114
    },
    {
      "epoch": 4.984,
      "grad_norm": 0.0,
      "learning_rate": 0.0003844,
      "loss": 5.6762,
      "step": 3115
    },
    {
      "epoch": 4.9856,
      "grad_norm": 0.0,
      "learning_rate": 0.00038419999999999996,
      "loss": 4.9697,
      "step": 3116
    },
    {
      "epoch": 4.9872,
      "grad_norm": 0.0,
      "learning_rate": 0.00038399999999999996,
      "loss": 4.1973,
      "step": 3117
    },
    {
      "epoch": 4.9888,
      "grad_norm": 0.0,
      "learning_rate": 0.0003838,
      "loss": 5.2126,
      "step": 3118
    },
    {
      "epoch": 4.9904,
      "grad_norm": 0.0,
      "learning_rate": 0.00038359999999999995,
      "loss": 4.5909,
      "step": 3119
    },
    {
      "epoch": 4.992,
      "grad_norm": 0.0,
      "learning_rate": 0.0003834,
      "loss": 5.4625,
      "step": 3120
    },
    {
      "epoch": 4.9936,
      "grad_norm": 0.0,
      "learning_rate": 0.0003832,
      "loss": 5.0547,
      "step": 3121
    },
    {
      "epoch": 4.9952,
      "grad_norm": 0.0,
      "learning_rate": 0.00038299999999999993,
      "loss": 5.2914,
      "step": 3122
    },
    {
      "epoch": 4.9968,
      "grad_norm": 0.0,
      "learning_rate": 0.0003828,
      "loss": 6.4537,
      "step": 3123
    },
    {
      "epoch": 4.9984,
      "grad_norm": 0.0,
      "learning_rate": 0.0003826,
      "loss": 6.0983,
      "step": 3124
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.0,
      "learning_rate": 0.00038239999999999997,
      "loss": 5.5575,
      "step": 3125
    },
    {
      "epoch": 5.0016,
      "grad_norm": 0.0,
      "learning_rate": 0.00038219999999999997,
      "loss": 8.9916,
      "step": 3126
    },
    {
      "epoch": 5.0032,
      "grad_norm": 0.0,
      "learning_rate": 0.000382,
      "loss": 7.0435,
      "step": 3127
    },
    {
      "epoch": 5.0048,
      "grad_norm": 0.0,
      "learning_rate": 0.00038179999999999996,
      "loss": 9.3534,
      "step": 3128
    },
    {
      "epoch": 5.0064,
      "grad_norm": 0.0,
      "learning_rate": 0.00038159999999999995,
      "loss": 8.0404,
      "step": 3129
    },
    {
      "epoch": 5.008,
      "grad_norm": 0.0,
      "learning_rate": 0.0003814,
      "loss": 6.1829,
      "step": 3130
    },
    {
      "epoch": 5.0096,
      "grad_norm": 0.0,
      "learning_rate": 0.00038119999999999994,
      "loss": 7.4766,
      "step": 3131
    },
    {
      "epoch": 5.0112,
      "grad_norm": 0.0,
      "learning_rate": 0.000381,
      "loss": 6.6343,
      "step": 3132
    },
    {
      "epoch": 5.0128,
      "grad_norm": 0.0,
      "learning_rate": 0.0003808,
      "loss": 5.7863,
      "step": 3133
    },
    {
      "epoch": 5.0144,
      "grad_norm": 0.0,
      "learning_rate": 0.0003805999999999999,
      "loss": 6.0439,
      "step": 3134
    },
    {
      "epoch": 5.016,
      "grad_norm": 0.0,
      "learning_rate": 0.0003804,
      "loss": 5.3478,
      "step": 3135
    },
    {
      "epoch": 5.0176,
      "grad_norm": 0.0,
      "learning_rate": 0.00038019999999999997,
      "loss": 9.3696,
      "step": 3136
    },
    {
      "epoch": 5.0192,
      "grad_norm": 0.0,
      "learning_rate": 0.00037999999999999997,
      "loss": 6.8533,
      "step": 3137
    },
    {
      "epoch": 5.0208,
      "grad_norm": 0.0,
      "learning_rate": 0.00037979999999999996,
      "loss": 10.5829,
      "step": 3138
    },
    {
      "epoch": 5.0224,
      "grad_norm": 0.0,
      "learning_rate": 0.0003796,
      "loss": 7.599,
      "step": 3139
    },
    {
      "epoch": 5.024,
      "grad_norm": 0.0,
      "learning_rate": 0.00037939999999999995,
      "loss": 4.6454,
      "step": 3140
    },
    {
      "epoch": 5.0256,
      "grad_norm": 0.0,
      "learning_rate": 0.00037919999999999995,
      "loss": 5.7198,
      "step": 3141
    },
    {
      "epoch": 5.0272,
      "grad_norm": 0.0,
      "learning_rate": 0.000379,
      "loss": 5.4773,
      "step": 3142
    },
    {
      "epoch": 5.0288,
      "grad_norm": 0.0,
      "learning_rate": 0.00037879999999999994,
      "loss": 4.9752,
      "step": 3143
    },
    {
      "epoch": 5.0304,
      "grad_norm": 0.0,
      "learning_rate": 0.0003786,
      "loss": 7.4662,
      "step": 3144
    },
    {
      "epoch": 5.032,
      "grad_norm": 0.0,
      "learning_rate": 0.0003784,
      "loss": 5.157,
      "step": 3145
    },
    {
      "epoch": 5.0336,
      "grad_norm": 0.0,
      "learning_rate": 0.0003781999999999999,
      "loss": 6.8937,
      "step": 3146
    },
    {
      "epoch": 5.0352,
      "grad_norm": 0.0,
      "learning_rate": 0.00037799999999999997,
      "loss": 5.406,
      "step": 3147
    },
    {
      "epoch": 5.0368,
      "grad_norm": 0.0,
      "learning_rate": 0.00037779999999999997,
      "loss": 5.8694,
      "step": 3148
    },
    {
      "epoch": 5.0384,
      "grad_norm": 0.0,
      "learning_rate": 0.00037759999999999996,
      "loss": 4.9241,
      "step": 3149
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.0,
      "learning_rate": 0.00037739999999999996,
      "loss": 5.2262,
      "step": 3150
    },
    {
      "epoch": 5.0416,
      "grad_norm": 0.0,
      "learning_rate": 0.0003772,
      "loss": 6.398,
      "step": 3151
    },
    {
      "epoch": 5.0432,
      "grad_norm": 0.0,
      "learning_rate": 0.00037699999999999995,
      "loss": 6.5993,
      "step": 3152
    },
    {
      "epoch": 5.0448,
      "grad_norm": 0.0,
      "learning_rate": 0.00037679999999999994,
      "loss": 7.0651,
      "step": 3153
    },
    {
      "epoch": 5.0464,
      "grad_norm": 0.0,
      "learning_rate": 0.0003766,
      "loss": 4.9128,
      "step": 3154
    },
    {
      "epoch": 5.048,
      "grad_norm": 0.0,
      "learning_rate": 0.00037639999999999993,
      "loss": 5.2534,
      "step": 3155
    },
    {
      "epoch": 5.0496,
      "grad_norm": 0.0,
      "learning_rate": 0.0003762,
      "loss": 5.4155,
      "step": 3156
    },
    {
      "epoch": 5.0512,
      "grad_norm": 0.0,
      "learning_rate": 0.000376,
      "loss": 5.4697,
      "step": 3157
    },
    {
      "epoch": 5.0528,
      "grad_norm": 0.0,
      "learning_rate": 0.0003757999999999999,
      "loss": 5.3402,
      "step": 3158
    },
    {
      "epoch": 5.0544,
      "grad_norm": 0.0,
      "learning_rate": 0.00037559999999999997,
      "loss": 4.567,
      "step": 3159
    },
    {
      "epoch": 5.056,
      "grad_norm": 0.0,
      "learning_rate": 0.00037539999999999996,
      "loss": 5.3377,
      "step": 3160
    },
    {
      "epoch": 5.0576,
      "grad_norm": 0.0,
      "learning_rate": 0.00037519999999999996,
      "loss": 5.9542,
      "step": 3161
    },
    {
      "epoch": 5.0592,
      "grad_norm": 0.0,
      "learning_rate": 0.00037499999999999995,
      "loss": 6.3136,
      "step": 3162
    },
    {
      "epoch": 5.0608,
      "grad_norm": 0.0,
      "learning_rate": 0.0003748,
      "loss": 5.353,
      "step": 3163
    },
    {
      "epoch": 5.0624,
      "grad_norm": 0.0,
      "learning_rate": 0.00037459999999999994,
      "loss": 4.4713,
      "step": 3164
    },
    {
      "epoch": 5.064,
      "grad_norm": 0.0,
      "learning_rate": 0.0003744,
      "loss": 7.116,
      "step": 3165
    },
    {
      "epoch": 5.0656,
      "grad_norm": 0.0,
      "learning_rate": 0.0003742,
      "loss": 5.4026,
      "step": 3166
    },
    {
      "epoch": 5.0672,
      "grad_norm": 0.0,
      "learning_rate": 0.00037399999999999993,
      "loss": 4.4876,
      "step": 3167
    },
    {
      "epoch": 5.0688,
      "grad_norm": 0.0,
      "learning_rate": 0.0003738,
      "loss": 5.2662,
      "step": 3168
    },
    {
      "epoch": 5.0704,
      "grad_norm": 0.0,
      "learning_rate": 0.0003736,
      "loss": 5.4257,
      "step": 3169
    },
    {
      "epoch": 5.072,
      "grad_norm": 0.0,
      "learning_rate": 0.00037339999999999997,
      "loss": 5.0846,
      "step": 3170
    },
    {
      "epoch": 5.0736,
      "grad_norm": 0.0,
      "learning_rate": 0.00037319999999999996,
      "loss": 6.6244,
      "step": 3171
    },
    {
      "epoch": 5.0752,
      "grad_norm": 0.0,
      "learning_rate": 0.000373,
      "loss": 5.6759,
      "step": 3172
    },
    {
      "epoch": 5.0768,
      "grad_norm": 0.0,
      "learning_rate": 0.00037279999999999995,
      "loss": 5.6952,
      "step": 3173
    },
    {
      "epoch": 5.0784,
      "grad_norm": 0.0,
      "learning_rate": 0.00037259999999999995,
      "loss": 4.549,
      "step": 3174
    },
    {
      "epoch": 5.08,
      "grad_norm": 0.0,
      "learning_rate": 0.0003724,
      "loss": 5.9356,
      "step": 3175
    },
    {
      "epoch": 5.0816,
      "grad_norm": 0.0,
      "learning_rate": 0.00037219999999999994,
      "loss": 8.8312,
      "step": 3176
    },
    {
      "epoch": 5.0832,
      "grad_norm": 0.0,
      "learning_rate": 0.000372,
      "loss": 8.3805,
      "step": 3177
    },
    {
      "epoch": 5.0848,
      "grad_norm": 0.0,
      "learning_rate": 0.0003718,
      "loss": 6.2337,
      "step": 3178
    },
    {
      "epoch": 5.0864,
      "grad_norm": 0.0,
      "learning_rate": 0.0003715999999999999,
      "loss": 5.0957,
      "step": 3179
    },
    {
      "epoch": 5.088,
      "grad_norm": 0.0,
      "learning_rate": 0.0003714,
      "loss": 6.8679,
      "step": 3180
    },
    {
      "epoch": 5.0896,
      "grad_norm": 0.0,
      "learning_rate": 0.00037119999999999997,
      "loss": 5.7902,
      "step": 3181
    },
    {
      "epoch": 5.0912,
      "grad_norm": 0.0,
      "learning_rate": 0.00037099999999999996,
      "loss": 7.3836,
      "step": 3182
    },
    {
      "epoch": 5.0928,
      "grad_norm": 0.0,
      "learning_rate": 0.00037079999999999996,
      "loss": 6.0675,
      "step": 3183
    },
    {
      "epoch": 5.0944,
      "grad_norm": 0.0,
      "learning_rate": 0.0003706,
      "loss": 5.5288,
      "step": 3184
    },
    {
      "epoch": 5.096,
      "grad_norm": 0.0,
      "learning_rate": 0.00037039999999999995,
      "loss": 6.7686,
      "step": 3185
    },
    {
      "epoch": 5.0976,
      "grad_norm": 0.0,
      "learning_rate": 0.00037019999999999995,
      "loss": 7.3085,
      "step": 3186
    },
    {
      "epoch": 5.0992,
      "grad_norm": 0.0,
      "learning_rate": 0.00037,
      "loss": 6.9464,
      "step": 3187
    },
    {
      "epoch": 5.1008,
      "grad_norm": 0.0,
      "learning_rate": 0.00036979999999999994,
      "loss": 5.409,
      "step": 3188
    },
    {
      "epoch": 5.1024,
      "grad_norm": 0.0,
      "learning_rate": 0.0003696,
      "loss": 6.0839,
      "step": 3189
    },
    {
      "epoch": 5.104,
      "grad_norm": 0.0,
      "learning_rate": 0.0003694,
      "loss": 5.3394,
      "step": 3190
    },
    {
      "epoch": 5.1056,
      "grad_norm": 0.0,
      "learning_rate": 0.0003691999999999999,
      "loss": 6.4967,
      "step": 3191
    },
    {
      "epoch": 5.1072,
      "grad_norm": 0.0,
      "learning_rate": 0.00036899999999999997,
      "loss": 5.727,
      "step": 3192
    },
    {
      "epoch": 5.1088,
      "grad_norm": 0.0,
      "learning_rate": 0.00036879999999999997,
      "loss": 5.8019,
      "step": 3193
    },
    {
      "epoch": 5.1104,
      "grad_norm": 0.0,
      "learning_rate": 0.00036859999999999996,
      "loss": 8.9153,
      "step": 3194
    },
    {
      "epoch": 5.112,
      "grad_norm": 0.0,
      "learning_rate": 0.00036839999999999996,
      "loss": 4.3745,
      "step": 3195
    },
    {
      "epoch": 5.1136,
      "grad_norm": 0.0,
      "learning_rate": 0.0003682,
      "loss": 4.3136,
      "step": 3196
    },
    {
      "epoch": 5.1152,
      "grad_norm": 0.0,
      "learning_rate": 0.00036799999999999995,
      "loss": 6.0979,
      "step": 3197
    },
    {
      "epoch": 5.1168,
      "grad_norm": 0.0,
      "learning_rate": 0.00036779999999999994,
      "loss": 5.4874,
      "step": 3198
    },
    {
      "epoch": 5.1184,
      "grad_norm": 0.0,
      "learning_rate": 0.0003676,
      "loss": 6.3162,
      "step": 3199
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.0,
      "learning_rate": 0.00036739999999999993,
      "loss": 5.7947,
      "step": 3200
    },
    {
      "epoch": 5.1216,
      "grad_norm": 0.0,
      "learning_rate": 0.0003672,
      "loss": 4.4182,
      "step": 3201
    },
    {
      "epoch": 5.1232,
      "grad_norm": 0.0,
      "learning_rate": 0.000367,
      "loss": 6.0254,
      "step": 3202
    },
    {
      "epoch": 5.1248,
      "grad_norm": 0.0,
      "learning_rate": 0.0003667999999999999,
      "loss": 5.349,
      "step": 3203
    },
    {
      "epoch": 5.1264,
      "grad_norm": 0.0,
      "learning_rate": 0.00036659999999999997,
      "loss": 4.7453,
      "step": 3204
    },
    {
      "epoch": 5.128,
      "grad_norm": 0.0,
      "learning_rate": 0.00036639999999999996,
      "loss": 5.2687,
      "step": 3205
    },
    {
      "epoch": 5.1296,
      "grad_norm": 0.0,
      "learning_rate": 0.00036619999999999996,
      "loss": 3.9506,
      "step": 3206
    },
    {
      "epoch": 5.1312,
      "grad_norm": 0.0,
      "learning_rate": 0.00036599999999999995,
      "loss": 5.6731,
      "step": 3207
    },
    {
      "epoch": 5.1328,
      "grad_norm": 0.0,
      "learning_rate": 0.0003658,
      "loss": 7.6111,
      "step": 3208
    },
    {
      "epoch": 5.1344,
      "grad_norm": 0.0,
      "learning_rate": 0.00036559999999999994,
      "loss": 5.8718,
      "step": 3209
    },
    {
      "epoch": 5.136,
      "grad_norm": 0.0,
      "learning_rate": 0.00036539999999999994,
      "loss": 6.4942,
      "step": 3210
    },
    {
      "epoch": 5.1376,
      "grad_norm": 0.0,
      "learning_rate": 0.0003652,
      "loss": 4.4153,
      "step": 3211
    },
    {
      "epoch": 5.1392,
      "grad_norm": 0.0,
      "learning_rate": 0.00036499999999999993,
      "loss": 6.7634,
      "step": 3212
    },
    {
      "epoch": 5.1408,
      "grad_norm": 0.0,
      "learning_rate": 0.0003648,
      "loss": 6.3913,
      "step": 3213
    },
    {
      "epoch": 5.1424,
      "grad_norm": 0.0,
      "learning_rate": 0.00036459999999999997,
      "loss": 7.0869,
      "step": 3214
    },
    {
      "epoch": 5.144,
      "grad_norm": 0.0,
      "learning_rate": 0.0003643999999999999,
      "loss": 5.1837,
      "step": 3215
    },
    {
      "epoch": 5.1456,
      "grad_norm": 0.0,
      "learning_rate": 0.00036419999999999996,
      "loss": 4.7044,
      "step": 3216
    },
    {
      "epoch": 5.1472,
      "grad_norm": 0.0,
      "learning_rate": 0.00036399999999999996,
      "loss": 4.1418,
      "step": 3217
    },
    {
      "epoch": 5.1488,
      "grad_norm": 0.0,
      "learning_rate": 0.00036379999999999995,
      "loss": 5.5412,
      "step": 3218
    },
    {
      "epoch": 5.1504,
      "grad_norm": 0.0,
      "learning_rate": 0.00036359999999999995,
      "loss": 5.4164,
      "step": 3219
    },
    {
      "epoch": 5.152,
      "grad_norm": 0.0,
      "learning_rate": 0.0003634,
      "loss": 7.6755,
      "step": 3220
    },
    {
      "epoch": 5.1536,
      "grad_norm": 0.0,
      "learning_rate": 0.00036319999999999994,
      "loss": 5.351,
      "step": 3221
    },
    {
      "epoch": 5.1552,
      "grad_norm": 0.0,
      "learning_rate": 0.00036299999999999993,
      "loss": 5.0267,
      "step": 3222
    },
    {
      "epoch": 5.1568,
      "grad_norm": 0.0,
      "learning_rate": 0.0003628,
      "loss": 5.2381,
      "step": 3223
    },
    {
      "epoch": 5.1584,
      "grad_norm": 0.0,
      "learning_rate": 0.0003625999999999999,
      "loss": 5.8054,
      "step": 3224
    },
    {
      "epoch": 5.16,
      "grad_norm": 0.0,
      "learning_rate": 0.00036239999999999997,
      "loss": 7.8959,
      "step": 3225
    },
    {
      "epoch": 5.1616,
      "grad_norm": 0.0,
      "learning_rate": 0.00036219999999999997,
      "loss": 9.2238,
      "step": 3226
    },
    {
      "epoch": 5.1632,
      "grad_norm": 0.0,
      "learning_rate": 0.000362,
      "loss": 7.1367,
      "step": 3227
    },
    {
      "epoch": 5.1648,
      "grad_norm": 0.0,
      "learning_rate": 0.00036179999999999996,
      "loss": 7.2586,
      "step": 3228
    },
    {
      "epoch": 5.1664,
      "grad_norm": 0.0,
      "learning_rate": 0.00036159999999999995,
      "loss": 6.4825,
      "step": 3229
    },
    {
      "epoch": 5.168,
      "grad_norm": 0.0,
      "learning_rate": 0.0003614,
      "loss": 5.8703,
      "step": 3230
    },
    {
      "epoch": 5.1696,
      "grad_norm": 0.0,
      "learning_rate": 0.00036119999999999994,
      "loss": 7.3977,
      "step": 3231
    },
    {
      "epoch": 5.1712,
      "grad_norm": 0.0,
      "learning_rate": 0.000361,
      "loss": 6.3445,
      "step": 3232
    },
    {
      "epoch": 5.1728,
      "grad_norm": 0.0,
      "learning_rate": 0.0003608,
      "loss": 5.2915,
      "step": 3233
    },
    {
      "epoch": 5.1744,
      "grad_norm": 0.0,
      "learning_rate": 0.00036059999999999993,
      "loss": 5.7432,
      "step": 3234
    },
    {
      "epoch": 5.176,
      "grad_norm": 0.0,
      "learning_rate": 0.0003604,
      "loss": 8.5188,
      "step": 3235
    },
    {
      "epoch": 5.1776,
      "grad_norm": 0.0,
      "learning_rate": 0.0003602,
      "loss": 5.4136,
      "step": 3236
    },
    {
      "epoch": 5.1792,
      "grad_norm": 0.0,
      "learning_rate": 0.00035999999999999997,
      "loss": 7.5626,
      "step": 3237
    },
    {
      "epoch": 5.1808,
      "grad_norm": 0.0,
      "learning_rate": 0.00035979999999999996,
      "loss": 5.8757,
      "step": 3238
    },
    {
      "epoch": 5.1824,
      "grad_norm": 0.0,
      "learning_rate": 0.0003596,
      "loss": 5.7759,
      "step": 3239
    },
    {
      "epoch": 5.184,
      "grad_norm": 0.0,
      "learning_rate": 0.00035939999999999995,
      "loss": 6.4547,
      "step": 3240
    },
    {
      "epoch": 5.1856,
      "grad_norm": 0.0,
      "learning_rate": 0.0003592,
      "loss": 5.39,
      "step": 3241
    },
    {
      "epoch": 5.1872,
      "grad_norm": 0.0,
      "learning_rate": 0.000359,
      "loss": 5.5784,
      "step": 3242
    },
    {
      "epoch": 5.1888,
      "grad_norm": 0.0,
      "learning_rate": 0.00035879999999999994,
      "loss": 6.7785,
      "step": 3243
    },
    {
      "epoch": 5.1904,
      "grad_norm": 0.0,
      "learning_rate": 0.0003586,
      "loss": 5.3949,
      "step": 3244
    },
    {
      "epoch": 5.192,
      "grad_norm": 0.0,
      "learning_rate": 0.0003584,
      "loss": 7.2365,
      "step": 3245
    },
    {
      "epoch": 5.1936,
      "grad_norm": 0.0,
      "learning_rate": 0.0003582,
      "loss": 6.3232,
      "step": 3246
    },
    {
      "epoch": 5.1952,
      "grad_norm": 0.0,
      "learning_rate": 0.000358,
      "loss": 5.0038,
      "step": 3247
    },
    {
      "epoch": 5.1968,
      "grad_norm": 0.0,
      "learning_rate": 0.0003578,
      "loss": 5.8545,
      "step": 3248
    },
    {
      "epoch": 5.1984,
      "grad_norm": 0.0,
      "learning_rate": 0.00035759999999999996,
      "loss": 5.1058,
      "step": 3249
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.0,
      "learning_rate": 0.00035739999999999996,
      "loss": 4.1752,
      "step": 3250
    },
    {
      "epoch": 5.2016,
      "grad_norm": 0.0,
      "learning_rate": 0.0003572,
      "loss": 6.5306,
      "step": 3251
    },
    {
      "epoch": 5.2032,
      "grad_norm": 0.0,
      "learning_rate": 0.00035699999999999995,
      "loss": 6.0615,
      "step": 3252
    },
    {
      "epoch": 5.2048,
      "grad_norm": 0.0,
      "learning_rate": 0.0003568,
      "loss": 4.6328,
      "step": 3253
    },
    {
      "epoch": 5.2064,
      "grad_norm": 0.0,
      "learning_rate": 0.0003566,
      "loss": 5.006,
      "step": 3254
    },
    {
      "epoch": 5.208,
      "grad_norm": 0.0,
      "learning_rate": 0.00035639999999999994,
      "loss": 6.521,
      "step": 3255
    },
    {
      "epoch": 5.2096,
      "grad_norm": 0.0,
      "learning_rate": 0.0003562,
      "loss": 5.2562,
      "step": 3256
    },
    {
      "epoch": 5.2112,
      "grad_norm": 0.0,
      "learning_rate": 0.000356,
      "loss": 4.5534,
      "step": 3257
    },
    {
      "epoch": 5.2128,
      "grad_norm": 0.0,
      "learning_rate": 0.0003558,
      "loss": 6.1229,
      "step": 3258
    },
    {
      "epoch": 5.2144,
      "grad_norm": 0.0,
      "learning_rate": 0.00035559999999999997,
      "loss": 5.727,
      "step": 3259
    },
    {
      "epoch": 5.216,
      "grad_norm": 0.0,
      "learning_rate": 0.0003554,
      "loss": 5.9868,
      "step": 3260
    },
    {
      "epoch": 5.2176,
      "grad_norm": 0.0,
      "learning_rate": 0.00035519999999999996,
      "loss": 5.0845,
      "step": 3261
    },
    {
      "epoch": 5.2192,
      "grad_norm": 0.0,
      "learning_rate": 0.00035499999999999996,
      "loss": 5.8569,
      "step": 3262
    },
    {
      "epoch": 5.2208,
      "grad_norm": 0.0,
      "learning_rate": 0.0003548,
      "loss": 4.5071,
      "step": 3263
    },
    {
      "epoch": 5.2224,
      "grad_norm": 0.0,
      "learning_rate": 0.00035459999999999995,
      "loss": 4.6204,
      "step": 3264
    },
    {
      "epoch": 5.224,
      "grad_norm": 0.0,
      "learning_rate": 0.0003544,
      "loss": 5.467,
      "step": 3265
    },
    {
      "epoch": 5.2256,
      "grad_norm": 0.0,
      "learning_rate": 0.0003542,
      "loss": 5.043,
      "step": 3266
    },
    {
      "epoch": 5.2272,
      "grad_norm": 0.0,
      "learning_rate": 0.00035399999999999993,
      "loss": 4.1488,
      "step": 3267
    },
    {
      "epoch": 5.2288,
      "grad_norm": 0.0,
      "learning_rate": 0.0003538,
      "loss": 6.4425,
      "step": 3268
    },
    {
      "epoch": 5.2304,
      "grad_norm": 0.0,
      "learning_rate": 0.0003536,
      "loss": 3.6541,
      "step": 3269
    },
    {
      "epoch": 5.232,
      "grad_norm": 0.0,
      "learning_rate": 0.00035339999999999997,
      "loss": 4.6929,
      "step": 3270
    },
    {
      "epoch": 5.2336,
      "grad_norm": 0.0,
      "learning_rate": 0.00035319999999999997,
      "loss": 5.3044,
      "step": 3271
    },
    {
      "epoch": 5.2352,
      "grad_norm": 0.0,
      "learning_rate": 0.000353,
      "loss": 4.7675,
      "step": 3272
    },
    {
      "epoch": 5.2368,
      "grad_norm": 0.0,
      "learning_rate": 0.00035279999999999996,
      "loss": 7.0071,
      "step": 3273
    },
    {
      "epoch": 5.2384,
      "grad_norm": 0.0,
      "learning_rate": 0.00035259999999999995,
      "loss": 7.6142,
      "step": 3274
    },
    {
      "epoch": 5.24,
      "grad_norm": NaN,
      "learning_rate": 0.00035259999999999995,
      "loss": 4.2145,
      "step": 3275
    },
    {
      "epoch": 5.2416,
      "grad_norm": 0.0,
      "learning_rate": 0.0003524,
      "loss": 7.5835,
      "step": 3276
    },
    {
      "epoch": 5.2432,
      "grad_norm": 0.0,
      "learning_rate": 0.00035219999999999994,
      "loss": 6.5222,
      "step": 3277
    },
    {
      "epoch": 5.2448,
      "grad_norm": 0.0,
      "learning_rate": 0.000352,
      "loss": 7.2513,
      "step": 3278
    },
    {
      "epoch": 5.2464,
      "grad_norm": 0.0,
      "learning_rate": 0.0003518,
      "loss": 7.4396,
      "step": 3279
    },
    {
      "epoch": 5.248,
      "grad_norm": 0.0,
      "learning_rate": 0.0003515999999999999,
      "loss": 7.5025,
      "step": 3280
    },
    {
      "epoch": 5.2496,
      "grad_norm": 0.0,
      "learning_rate": 0.0003514,
      "loss": 7.1106,
      "step": 3281
    },
    {
      "epoch": 5.2512,
      "grad_norm": 0.0,
      "learning_rate": 0.00035119999999999997,
      "loss": 6.0558,
      "step": 3282
    },
    {
      "epoch": 5.2528,
      "grad_norm": 0.0,
      "learning_rate": 0.00035099999999999997,
      "loss": 6.2606,
      "step": 3283
    },
    {
      "epoch": 5.2544,
      "grad_norm": 0.0,
      "learning_rate": 0.00035079999999999996,
      "loss": 6.2598,
      "step": 3284
    },
    {
      "epoch": 5.256,
      "grad_norm": 0.0,
      "learning_rate": 0.0003506,
      "loss": 5.3476,
      "step": 3285
    },
    {
      "epoch": 5.2576,
      "grad_norm": 0.0,
      "learning_rate": 0.00035039999999999995,
      "loss": 5.6261,
      "step": 3286
    },
    {
      "epoch": 5.2592,
      "grad_norm": 0.0,
      "learning_rate": 0.00035019999999999995,
      "loss": 6.2698,
      "step": 3287
    },
    {
      "epoch": 5.2608,
      "grad_norm": 0.0,
      "learning_rate": 0.00035,
      "loss": 5.8383,
      "step": 3288
    },
    {
      "epoch": 5.2624,
      "grad_norm": 0.0,
      "learning_rate": 0.00034979999999999994,
      "loss": 5.8442,
      "step": 3289
    },
    {
      "epoch": 5.264,
      "grad_norm": 0.0,
      "learning_rate": 0.0003496,
      "loss": 5.5433,
      "step": 3290
    },
    {
      "epoch": 5.2656,
      "grad_norm": 0.0,
      "learning_rate": 0.0003494,
      "loss": 4.4822,
      "step": 3291
    },
    {
      "epoch": 5.2672,
      "grad_norm": 0.0,
      "learning_rate": 0.0003491999999999999,
      "loss": 4.9684,
      "step": 3292
    },
    {
      "epoch": 5.2688,
      "grad_norm": 0.0,
      "learning_rate": 0.00034899999999999997,
      "loss": 4.3567,
      "step": 3293
    },
    {
      "epoch": 5.2704,
      "grad_norm": 0.0,
      "learning_rate": 0.00034879999999999997,
      "loss": 6.8008,
      "step": 3294
    },
    {
      "epoch": 5.272,
      "grad_norm": 0.0,
      "learning_rate": 0.00034859999999999996,
      "loss": 5.4058,
      "step": 3295
    },
    {
      "epoch": 5.2736,
      "grad_norm": 0.0,
      "learning_rate": 0.00034839999999999996,
      "loss": 6.1388,
      "step": 3296
    },
    {
      "epoch": 5.2752,
      "grad_norm": 0.0,
      "learning_rate": 0.0003482,
      "loss": 4.6146,
      "step": 3297
    },
    {
      "epoch": 5.2768,
      "grad_norm": 0.0,
      "learning_rate": 0.00034799999999999995,
      "loss": 8.8382,
      "step": 3298
    },
    {
      "epoch": 5.2783999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00034779999999999994,
      "loss": 6.4504,
      "step": 3299
    },
    {
      "epoch": 5.28,
      "grad_norm": 0.0,
      "learning_rate": 0.0003476,
      "loss": 6.3413,
      "step": 3300
    },
    {
      "epoch": 5.2816,
      "grad_norm": 0.0,
      "learning_rate": 0.00034739999999999993,
      "loss": 5.3272,
      "step": 3301
    },
    {
      "epoch": 5.2832,
      "grad_norm": 0.0,
      "learning_rate": 0.0003472,
      "loss": 5.3075,
      "step": 3302
    },
    {
      "epoch": 5.2848,
      "grad_norm": 0.0,
      "learning_rate": 0.000347,
      "loss": 4.318,
      "step": 3303
    },
    {
      "epoch": 5.2864,
      "grad_norm": 0.0,
      "learning_rate": 0.0003467999999999999,
      "loss": 5.5483,
      "step": 3304
    },
    {
      "epoch": 5.288,
      "grad_norm": 0.0,
      "learning_rate": 0.00034659999999999997,
      "loss": 5.4227,
      "step": 3305
    },
    {
      "epoch": 5.2896,
      "grad_norm": 0.0,
      "learning_rate": 0.00034639999999999996,
      "loss": 6.2516,
      "step": 3306
    },
    {
      "epoch": 5.2912,
      "grad_norm": 0.0,
      "learning_rate": 0.00034619999999999996,
      "loss": 5.937,
      "step": 3307
    },
    {
      "epoch": 5.2928,
      "grad_norm": 0.0,
      "learning_rate": 0.00034599999999999995,
      "loss": 8.1099,
      "step": 3308
    },
    {
      "epoch": 5.2943999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.0003458,
      "loss": 7.4788,
      "step": 3309
    },
    {
      "epoch": 5.296,
      "grad_norm": 0.0,
      "learning_rate": 0.00034559999999999994,
      "loss": 4.6478,
      "step": 3310
    },
    {
      "epoch": 5.2976,
      "grad_norm": 0.0,
      "learning_rate": 0.00034539999999999994,
      "loss": 6.6285,
      "step": 3311
    },
    {
      "epoch": 5.2992,
      "grad_norm": 0.0,
      "learning_rate": 0.0003452,
      "loss": 5.8699,
      "step": 3312
    },
    {
      "epoch": 5.3008,
      "grad_norm": 0.0,
      "learning_rate": 0.00034499999999999993,
      "loss": 6.5373,
      "step": 3313
    },
    {
      "epoch": 5.3024000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.0003448,
      "loss": 6.5422,
      "step": 3314
    },
    {
      "epoch": 5.304,
      "grad_norm": 0.0,
      "learning_rate": 0.0003446,
      "loss": 4.812,
      "step": 3315
    },
    {
      "epoch": 5.3056,
      "grad_norm": 0.0,
      "learning_rate": 0.00034439999999999997,
      "loss": 4.6931,
      "step": 3316
    },
    {
      "epoch": 5.3072,
      "grad_norm": 0.0,
      "learning_rate": 0.00034419999999999996,
      "loss": 5.4772,
      "step": 3317
    },
    {
      "epoch": 5.3088,
      "grad_norm": 0.0,
      "learning_rate": 0.000344,
      "loss": 5.0108,
      "step": 3318
    },
    {
      "epoch": 5.3104,
      "grad_norm": 0.0,
      "learning_rate": 0.00034379999999999995,
      "loss": 4.4123,
      "step": 3319
    },
    {
      "epoch": 5.312,
      "grad_norm": 0.0,
      "learning_rate": 0.00034359999999999995,
      "loss": 5.9074,
      "step": 3320
    },
    {
      "epoch": 5.3136,
      "grad_norm": 0.0,
      "learning_rate": 0.0003434,
      "loss": 5.5586,
      "step": 3321
    },
    {
      "epoch": 5.3152,
      "grad_norm": 0.0,
      "learning_rate": 0.00034319999999999994,
      "loss": 5.8787,
      "step": 3322
    },
    {
      "epoch": 5.3168,
      "grad_norm": 0.0,
      "learning_rate": 0.000343,
      "loss": 7.6869,
      "step": 3323
    },
    {
      "epoch": 5.3184000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0003428,
      "loss": 5.4342,
      "step": 3324
    },
    {
      "epoch": 5.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003428,
      "loss": 6.3203,
      "step": 3325
    },
    {
      "epoch": 5.3216,
      "grad_norm": 0.0,
      "learning_rate": 0.0003425999999999999,
      "loss": 10.9897,
      "step": 3326
    },
    {
      "epoch": 5.3232,
      "grad_norm": 0.0,
      "learning_rate": 0.0003424,
      "loss": 6.4558,
      "step": 3327
    },
    {
      "epoch": 5.3248,
      "grad_norm": 0.0,
      "learning_rate": 0.00034219999999999997,
      "loss": 10.9902,
      "step": 3328
    },
    {
      "epoch": 5.3264,
      "grad_norm": 0.0,
      "learning_rate": 0.00034199999999999996,
      "loss": 6.6559,
      "step": 3329
    },
    {
      "epoch": 5.328,
      "grad_norm": 0.0,
      "learning_rate": 0.00034179999999999996,
      "loss": 5.7364,
      "step": 3330
    },
    {
      "epoch": 5.3296,
      "grad_norm": 0.0,
      "learning_rate": 0.0003416,
      "loss": 5.6043,
      "step": 3331
    },
    {
      "epoch": 5.3312,
      "grad_norm": 0.0,
      "learning_rate": 0.00034139999999999995,
      "loss": 6.9407,
      "step": 3332
    },
    {
      "epoch": 5.3328,
      "grad_norm": 0.0,
      "learning_rate": 0.00034119999999999995,
      "loss": 7.2163,
      "step": 3333
    },
    {
      "epoch": 5.3344,
      "grad_norm": 0.0,
      "learning_rate": 0.000341,
      "loss": 6.3183,
      "step": 3334
    },
    {
      "epoch": 5.336,
      "grad_norm": 0.0,
      "learning_rate": 0.00034079999999999994,
      "loss": 6.4988,
      "step": 3335
    },
    {
      "epoch": 5.3376,
      "grad_norm": 0.0,
      "learning_rate": 0.0003406,
      "loss": 5.2837,
      "step": 3336
    },
    {
      "epoch": 5.3392,
      "grad_norm": 0.0,
      "learning_rate": 0.0003404,
      "loss": 6.7341,
      "step": 3337
    },
    {
      "epoch": 5.3408,
      "grad_norm": 0.0,
      "learning_rate": 0.0003401999999999999,
      "loss": 4.9812,
      "step": 3338
    },
    {
      "epoch": 5.3424,
      "grad_norm": 0.0,
      "learning_rate": 0.00033999999999999997,
      "loss": 5.6653,
      "step": 3339
    },
    {
      "epoch": 5.344,
      "grad_norm": 0.0,
      "learning_rate": 0.00033979999999999997,
      "loss": 5.2281,
      "step": 3340
    },
    {
      "epoch": 5.3456,
      "grad_norm": 0.0,
      "learning_rate": 0.00033959999999999996,
      "loss": 6.2072,
      "step": 3341
    },
    {
      "epoch": 5.3472,
      "grad_norm": 0.0,
      "learning_rate": 0.00033939999999999996,
      "loss": 5.6467,
      "step": 3342
    },
    {
      "epoch": 5.3488,
      "grad_norm": 0.0,
      "learning_rate": 0.0003392,
      "loss": 5.5247,
      "step": 3343
    },
    {
      "epoch": 5.3504,
      "grad_norm": 0.0,
      "learning_rate": 0.00033899999999999995,
      "loss": 5.5503,
      "step": 3344
    },
    {
      "epoch": 5.352,
      "grad_norm": 0.0,
      "learning_rate": 0.00033879999999999994,
      "loss": 4.943,
      "step": 3345
    },
    {
      "epoch": 5.3536,
      "grad_norm": 0.0,
      "learning_rate": 0.0003386,
      "loss": 5.5551,
      "step": 3346
    },
    {
      "epoch": 5.3552,
      "grad_norm": 0.0,
      "learning_rate": 0.00033839999999999993,
      "loss": 5.0287,
      "step": 3347
    },
    {
      "epoch": 5.3568,
      "grad_norm": 0.0,
      "learning_rate": 0.0003382,
      "loss": 5.1007,
      "step": 3348
    },
    {
      "epoch": 5.3584,
      "grad_norm": 0.0,
      "learning_rate": 0.000338,
      "loss": 4.5669,
      "step": 3349
    },
    {
      "epoch": 5.36,
      "grad_norm": 0.0,
      "learning_rate": 0.0003377999999999999,
      "loss": 5.3355,
      "step": 3350
    },
    {
      "epoch": 5.3616,
      "grad_norm": 0.0,
      "learning_rate": 0.00033759999999999997,
      "loss": 4.641,
      "step": 3351
    },
    {
      "epoch": 5.3632,
      "grad_norm": 0.0,
      "learning_rate": 0.00033739999999999996,
      "loss": 5.8638,
      "step": 3352
    },
    {
      "epoch": 5.3648,
      "grad_norm": 0.0,
      "learning_rate": 0.0003372,
      "loss": 6.2771,
      "step": 3353
    },
    {
      "epoch": 5.3664,
      "grad_norm": 0.0,
      "learning_rate": 0.00033699999999999995,
      "loss": 5.096,
      "step": 3354
    },
    {
      "epoch": 5.368,
      "grad_norm": 0.0,
      "learning_rate": 0.0003368,
      "loss": 4.9151,
      "step": 3355
    },
    {
      "epoch": 5.3696,
      "grad_norm": 0.0,
      "learning_rate": 0.0003366,
      "loss": 4.7871,
      "step": 3356
    },
    {
      "epoch": 5.3712,
      "grad_norm": 0.0,
      "learning_rate": 0.00033639999999999994,
      "loss": 5.5332,
      "step": 3357
    },
    {
      "epoch": 5.3728,
      "grad_norm": 0.0,
      "learning_rate": 0.0003362,
      "loss": 5.0234,
      "step": 3358
    },
    {
      "epoch": 5.3744,
      "grad_norm": 0.0,
      "learning_rate": 0.000336,
      "loss": 6.6034,
      "step": 3359
    },
    {
      "epoch": 5.376,
      "grad_norm": 0.0,
      "learning_rate": 0.0003358,
      "loss": 8.1305,
      "step": 3360
    },
    {
      "epoch": 5.3776,
      "grad_norm": 0.0,
      "learning_rate": 0.00033559999999999997,
      "loss": 5.8665,
      "step": 3361
    },
    {
      "epoch": 5.3792,
      "grad_norm": 0.0,
      "learning_rate": 0.0003354,
      "loss": 4.6754,
      "step": 3362
    },
    {
      "epoch": 5.3808,
      "grad_norm": 0.0,
      "learning_rate": 0.00033519999999999996,
      "loss": 4.583,
      "step": 3363
    },
    {
      "epoch": 5.3824,
      "grad_norm": 0.0,
      "learning_rate": 0.00033499999999999996,
      "loss": 5.3577,
      "step": 3364
    },
    {
      "epoch": 5.384,
      "grad_norm": 0.0,
      "learning_rate": 0.0003348,
      "loss": 4.7554,
      "step": 3365
    },
    {
      "epoch": 5.3856,
      "grad_norm": 0.0,
      "learning_rate": 0.00033459999999999995,
      "loss": 4.5869,
      "step": 3366
    },
    {
      "epoch": 5.3872,
      "grad_norm": 0.0,
      "learning_rate": 0.0003344,
      "loss": 4.0933,
      "step": 3367
    },
    {
      "epoch": 5.3888,
      "grad_norm": 0.0,
      "learning_rate": 0.0003342,
      "loss": 4.5981,
      "step": 3368
    },
    {
      "epoch": 5.3904,
      "grad_norm": 0.0,
      "learning_rate": 0.00033399999999999993,
      "loss": 4.7746,
      "step": 3369
    },
    {
      "epoch": 5.392,
      "grad_norm": 0.0,
      "learning_rate": 0.0003338,
      "loss": 8.1881,
      "step": 3370
    },
    {
      "epoch": 5.3936,
      "grad_norm": 0.0,
      "learning_rate": 0.0003336,
      "loss": 4.9805,
      "step": 3371
    },
    {
      "epoch": 5.3952,
      "grad_norm": 0.0,
      "learning_rate": 0.00033339999999999997,
      "loss": 4.8328,
      "step": 3372
    },
    {
      "epoch": 5.3968,
      "grad_norm": 0.0,
      "learning_rate": 0.00033319999999999997,
      "loss": 4.5362,
      "step": 3373
    },
    {
      "epoch": 5.3984,
      "grad_norm": 0.0,
      "learning_rate": 0.000333,
      "loss": 6.3657,
      "step": 3374
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.0,
      "learning_rate": 0.00033279999999999996,
      "loss": 7.0812,
      "step": 3375
    },
    {
      "epoch": 5.4016,
      "grad_norm": 0.0,
      "learning_rate": 0.00033259999999999995,
      "loss": 8.602,
      "step": 3376
    },
    {
      "epoch": 5.4032,
      "grad_norm": 0.0,
      "learning_rate": 0.0003324,
      "loss": 5.8295,
      "step": 3377
    },
    {
      "epoch": 5.4048,
      "grad_norm": 0.0,
      "learning_rate": 0.00033219999999999994,
      "loss": 6.2085,
      "step": 3378
    },
    {
      "epoch": 5.4064,
      "grad_norm": 0.0,
      "learning_rate": 0.000332,
      "loss": 6.1029,
      "step": 3379
    },
    {
      "epoch": 5.408,
      "grad_norm": 0.0,
      "learning_rate": 0.0003318,
      "loss": 5.5902,
      "step": 3380
    },
    {
      "epoch": 5.4096,
      "grad_norm": 0.0,
      "learning_rate": 0.00033159999999999993,
      "loss": 6.9608,
      "step": 3381
    },
    {
      "epoch": 5.4112,
      "grad_norm": 0.0,
      "learning_rate": 0.0003314,
      "loss": 4.9996,
      "step": 3382
    },
    {
      "epoch": 5.4128,
      "grad_norm": 0.0,
      "learning_rate": 0.0003312,
      "loss": 6.9153,
      "step": 3383
    },
    {
      "epoch": 5.4144,
      "grad_norm": 0.0,
      "learning_rate": 0.00033099999999999997,
      "loss": 6.1443,
      "step": 3384
    },
    {
      "epoch": 5.416,
      "grad_norm": 0.0,
      "learning_rate": 0.00033079999999999996,
      "loss": 5.8148,
      "step": 3385
    },
    {
      "epoch": 5.4176,
      "grad_norm": 0.0,
      "learning_rate": 0.0003306,
      "loss": 5.6061,
      "step": 3386
    },
    {
      "epoch": 5.4192,
      "grad_norm": 0.0,
      "learning_rate": 0.00033039999999999995,
      "loss": 6.5339,
      "step": 3387
    },
    {
      "epoch": 5.4208,
      "grad_norm": 0.0,
      "learning_rate": 0.00033019999999999995,
      "loss": 5.8298,
      "step": 3388
    },
    {
      "epoch": 5.4224,
      "grad_norm": 0.0,
      "learning_rate": 0.00033,
      "loss": 5.9716,
      "step": 3389
    },
    {
      "epoch": 5.424,
      "grad_norm": 0.0,
      "learning_rate": 0.00032979999999999994,
      "loss": 5.0324,
      "step": 3390
    },
    {
      "epoch": 5.4256,
      "grad_norm": 0.0,
      "learning_rate": 0.0003296,
      "loss": 6.0342,
      "step": 3391
    },
    {
      "epoch": 5.4272,
      "grad_norm": 0.0,
      "learning_rate": 0.0003294,
      "loss": 6.7758,
      "step": 3392
    },
    {
      "epoch": 5.4288,
      "grad_norm": 0.0,
      "learning_rate": 0.0003292,
      "loss": 5.3112,
      "step": 3393
    },
    {
      "epoch": 5.4304,
      "grad_norm": 0.0,
      "learning_rate": 0.000329,
      "loss": 4.8849,
      "step": 3394
    },
    {
      "epoch": 5.432,
      "grad_norm": 0.0,
      "learning_rate": 0.0003288,
      "loss": 5.8174,
      "step": 3395
    },
    {
      "epoch": 5.4336,
      "grad_norm": 0.0,
      "learning_rate": 0.00032859999999999996,
      "loss": 5.8588,
      "step": 3396
    },
    {
      "epoch": 5.4352,
      "grad_norm": 0.0,
      "learning_rate": 0.00032839999999999996,
      "loss": 5.3251,
      "step": 3397
    },
    {
      "epoch": 5.4368,
      "grad_norm": 0.0,
      "learning_rate": 0.0003282,
      "loss": 4.6848,
      "step": 3398
    },
    {
      "epoch": 5.4384,
      "grad_norm": 0.0,
      "learning_rate": 0.00032799999999999995,
      "loss": 5.1109,
      "step": 3399
    },
    {
      "epoch": 5.44,
      "grad_norm": 0.0,
      "learning_rate": 0.0003278,
      "loss": 9.1261,
      "step": 3400
    },
    {
      "epoch": 5.4416,
      "grad_norm": 0.0,
      "learning_rate": 0.0003276,
      "loss": 4.3006,
      "step": 3401
    },
    {
      "epoch": 5.4432,
      "grad_norm": 0.0,
      "learning_rate": 0.00032739999999999993,
      "loss": 4.6643,
      "step": 3402
    },
    {
      "epoch": 5.4448,
      "grad_norm": 0.0,
      "learning_rate": 0.0003272,
      "loss": 4.8954,
      "step": 3403
    },
    {
      "epoch": 5.4464,
      "grad_norm": 0.0,
      "learning_rate": 0.000327,
      "loss": 5.122,
      "step": 3404
    },
    {
      "epoch": 5.448,
      "grad_norm": 0.0,
      "learning_rate": 0.0003268,
      "loss": 5.6855,
      "step": 3405
    },
    {
      "epoch": 5.4496,
      "grad_norm": 0.0,
      "learning_rate": 0.00032659999999999997,
      "loss": 5.8883,
      "step": 3406
    },
    {
      "epoch": 5.4512,
      "grad_norm": 0.0,
      "learning_rate": 0.0003264,
      "loss": 5.5127,
      "step": 3407
    },
    {
      "epoch": 5.4528,
      "grad_norm": 0.0,
      "learning_rate": 0.00032619999999999996,
      "loss": 6.1715,
      "step": 3408
    },
    {
      "epoch": 5.4544,
      "grad_norm": 0.0,
      "learning_rate": 0.00032599999999999996,
      "loss": 5.2576,
      "step": 3409
    },
    {
      "epoch": 5.456,
      "grad_norm": 0.0,
      "learning_rate": 0.0003258,
      "loss": 5.6109,
      "step": 3410
    },
    {
      "epoch": 5.4576,
      "grad_norm": 0.0,
      "learning_rate": 0.00032559999999999995,
      "loss": 4.5647,
      "step": 3411
    },
    {
      "epoch": 5.4592,
      "grad_norm": 0.0,
      "learning_rate": 0.0003254,
      "loss": 4.5388,
      "step": 3412
    },
    {
      "epoch": 5.4608,
      "grad_norm": 0.0,
      "learning_rate": 0.0003252,
      "loss": 4.3299,
      "step": 3413
    },
    {
      "epoch": 5.4624,
      "grad_norm": 0.0,
      "learning_rate": 0.00032499999999999993,
      "loss": 5.0299,
      "step": 3414
    },
    {
      "epoch": 5.464,
      "grad_norm": 0.0,
      "learning_rate": 0.0003248,
      "loss": 3.8678,
      "step": 3415
    },
    {
      "epoch": 5.4656,
      "grad_norm": 0.0,
      "learning_rate": 0.0003246,
      "loss": 5.7612,
      "step": 3416
    },
    {
      "epoch": 5.4672,
      "grad_norm": 0.0,
      "learning_rate": 0.00032439999999999997,
      "loss": 7.5586,
      "step": 3417
    },
    {
      "epoch": 5.4688,
      "grad_norm": 0.0,
      "learning_rate": 0.00032419999999999997,
      "loss": 4.0426,
      "step": 3418
    },
    {
      "epoch": 5.4704,
      "grad_norm": 0.0,
      "learning_rate": 0.000324,
      "loss": 5.2368,
      "step": 3419
    },
    {
      "epoch": 5.4719999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00032379999999999996,
      "loss": 6.5466,
      "step": 3420
    },
    {
      "epoch": 5.4736,
      "grad_norm": 0.0,
      "learning_rate": 0.00032359999999999995,
      "loss": 6.2514,
      "step": 3421
    },
    {
      "epoch": 5.4752,
      "grad_norm": 0.0,
      "learning_rate": 0.0003234,
      "loss": 5.6582,
      "step": 3422
    },
    {
      "epoch": 5.4768,
      "grad_norm": 0.0,
      "learning_rate": 0.00032319999999999994,
      "loss": 5.2433,
      "step": 3423
    },
    {
      "epoch": 5.4784,
      "grad_norm": 0.0,
      "learning_rate": 0.000323,
      "loss": 3.9395,
      "step": 3424
    },
    {
      "epoch": 5.48,
      "grad_norm": NaN,
      "learning_rate": 0.000323,
      "loss": 5.3993,
      "step": 3425
    },
    {
      "epoch": 5.4816,
      "grad_norm": 0.0,
      "learning_rate": 0.0003228,
      "loss": 8.6974,
      "step": 3426
    },
    {
      "epoch": 5.4832,
      "grad_norm": 0.0,
      "learning_rate": 0.0003225999999999999,
      "loss": 8.4708,
      "step": 3427
    },
    {
      "epoch": 5.4848,
      "grad_norm": 0.0,
      "learning_rate": 0.0003224,
      "loss": 6.4114,
      "step": 3428
    },
    {
      "epoch": 5.4864,
      "grad_norm": 0.0,
      "learning_rate": 0.00032219999999999997,
      "loss": 8.877,
      "step": 3429
    },
    {
      "epoch": 5.4879999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00032199999999999997,
      "loss": 6.088,
      "step": 3430
    },
    {
      "epoch": 5.4896,
      "grad_norm": 0.0,
      "learning_rate": 0.00032179999999999996,
      "loss": 10.0941,
      "step": 3431
    },
    {
      "epoch": 5.4912,
      "grad_norm": 0.0,
      "learning_rate": 0.0003216,
      "loss": 5.8752,
      "step": 3432
    },
    {
      "epoch": 5.4928,
      "grad_norm": 0.0,
      "learning_rate": 0.00032139999999999995,
      "loss": 5.7305,
      "step": 3433
    },
    {
      "epoch": 5.4944,
      "grad_norm": 0.0,
      "learning_rate": 0.00032119999999999995,
      "loss": 8.352,
      "step": 3434
    },
    {
      "epoch": 5.496,
      "grad_norm": 0.0,
      "learning_rate": 0.000321,
      "loss": 5.8897,
      "step": 3435
    },
    {
      "epoch": 5.4976,
      "grad_norm": 0.0,
      "learning_rate": 0.00032079999999999994,
      "loss": 5.2924,
      "step": 3436
    },
    {
      "epoch": 5.4992,
      "grad_norm": 0.0,
      "learning_rate": 0.0003206,
      "loss": 5.1051,
      "step": 3437
    },
    {
      "epoch": 5.5008,
      "grad_norm": 0.0,
      "learning_rate": 0.0003204,
      "loss": 5.6145,
      "step": 3438
    },
    {
      "epoch": 5.5024,
      "grad_norm": 0.0,
      "learning_rate": 0.0003201999999999999,
      "loss": 5.5766,
      "step": 3439
    },
    {
      "epoch": 5.504,
      "grad_norm": 0.0,
      "learning_rate": 0.00031999999999999997,
      "loss": 5.6915,
      "step": 3440
    },
    {
      "epoch": 5.5056,
      "grad_norm": 0.0,
      "learning_rate": 0.00031979999999999997,
      "loss": 6.1116,
      "step": 3441
    },
    {
      "epoch": 5.5072,
      "grad_norm": 0.0,
      "learning_rate": 0.00031959999999999996,
      "loss": 5.745,
      "step": 3442
    },
    {
      "epoch": 5.5088,
      "grad_norm": 0.0,
      "learning_rate": 0.00031939999999999996,
      "loss": 6.2138,
      "step": 3443
    },
    {
      "epoch": 5.5104,
      "grad_norm": 0.0,
      "learning_rate": 0.0003192,
      "loss": 5.5046,
      "step": 3444
    },
    {
      "epoch": 5.5120000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00031899999999999995,
      "loss": 5.8324,
      "step": 3445
    },
    {
      "epoch": 5.5136,
      "grad_norm": 0.0,
      "learning_rate": 0.00031879999999999994,
      "loss": 5.9572,
      "step": 3446
    },
    {
      "epoch": 5.5152,
      "grad_norm": 0.0,
      "learning_rate": 0.0003186,
      "loss": 5.9537,
      "step": 3447
    },
    {
      "epoch": 5.5168,
      "grad_norm": 0.0,
      "learning_rate": 0.00031839999999999993,
      "loss": 4.9738,
      "step": 3448
    },
    {
      "epoch": 5.5184,
      "grad_norm": 0.0,
      "learning_rate": 0.0003182,
      "loss": 5.9412,
      "step": 3449
    },
    {
      "epoch": 5.52,
      "grad_norm": 0.0,
      "learning_rate": 0.000318,
      "loss": 6.1548,
      "step": 3450
    },
    {
      "epoch": 5.5216,
      "grad_norm": 0.0,
      "learning_rate": 0.0003177999999999999,
      "loss": 5.6497,
      "step": 3451
    },
    {
      "epoch": 5.5232,
      "grad_norm": 0.0,
      "learning_rate": 0.00031759999999999997,
      "loss": 5.1785,
      "step": 3452
    },
    {
      "epoch": 5.5248,
      "grad_norm": 0.0,
      "learning_rate": 0.00031739999999999996,
      "loss": 5.704,
      "step": 3453
    },
    {
      "epoch": 5.5264,
      "grad_norm": 0.0,
      "learning_rate": 0.00031719999999999996,
      "loss": 4.6606,
      "step": 3454
    },
    {
      "epoch": 5.5280000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00031699999999999995,
      "loss": 5.8791,
      "step": 3455
    },
    {
      "epoch": 5.5296,
      "grad_norm": 0.0,
      "learning_rate": 0.0003168,
      "loss": 4.7122,
      "step": 3456
    },
    {
      "epoch": 5.5312,
      "grad_norm": 0.0,
      "learning_rate": 0.00031659999999999994,
      "loss": 4.6218,
      "step": 3457
    },
    {
      "epoch": 5.5328,
      "grad_norm": 0.0,
      "learning_rate": 0.00031639999999999994,
      "loss": 3.9034,
      "step": 3458
    },
    {
      "epoch": 5.5344,
      "grad_norm": 0.0,
      "learning_rate": 0.0003162,
      "loss": 5.5434,
      "step": 3459
    },
    {
      "epoch": 5.536,
      "grad_norm": 0.0,
      "learning_rate": 0.00031599999999999993,
      "loss": 5.7622,
      "step": 3460
    },
    {
      "epoch": 5.5376,
      "grad_norm": 0.0,
      "learning_rate": 0.0003158,
      "loss": 5.0766,
      "step": 3461
    },
    {
      "epoch": 5.5392,
      "grad_norm": 0.0,
      "learning_rate": 0.0003156,
      "loss": 6.8144,
      "step": 3462
    },
    {
      "epoch": 5.5408,
      "grad_norm": 0.0,
      "learning_rate": 0.00031539999999999997,
      "loss": 5.1277,
      "step": 3463
    },
    {
      "epoch": 5.5424,
      "grad_norm": 0.0,
      "learning_rate": 0.00031519999999999996,
      "loss": 6.1543,
      "step": 3464
    },
    {
      "epoch": 5.5440000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00031499999999999996,
      "loss": 6.665,
      "step": 3465
    },
    {
      "epoch": 5.5456,
      "grad_norm": 0.0,
      "learning_rate": 0.00031479999999999995,
      "loss": 4.5117,
      "step": 3466
    },
    {
      "epoch": 5.5472,
      "grad_norm": 0.0,
      "learning_rate": 0.00031459999999999995,
      "loss": 4.858,
      "step": 3467
    },
    {
      "epoch": 5.5488,
      "grad_norm": 0.0,
      "learning_rate": 0.0003144,
      "loss": 5.9249,
      "step": 3468
    },
    {
      "epoch": 5.5504,
      "grad_norm": 0.0,
      "learning_rate": 0.00031419999999999994,
      "loss": 5.5568,
      "step": 3469
    },
    {
      "epoch": 5.552,
      "grad_norm": 0.0,
      "learning_rate": 0.000314,
      "loss": 6.1535,
      "step": 3470
    },
    {
      "epoch": 5.5536,
      "grad_norm": 0.0,
      "learning_rate": 0.0003138,
      "loss": 4.8313,
      "step": 3471
    },
    {
      "epoch": 5.5552,
      "grad_norm": 0.0,
      "learning_rate": 0.0003135999999999999,
      "loss": 4.4061,
      "step": 3472
    },
    {
      "epoch": 5.5568,
      "grad_norm": 0.0,
      "learning_rate": 0.0003134,
      "loss": 6.5979,
      "step": 3473
    },
    {
      "epoch": 5.5584,
      "grad_norm": 0.0,
      "learning_rate": 0.00031319999999999997,
      "loss": 5.5534,
      "step": 3474
    },
    {
      "epoch": 5.5600000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00031299999999999996,
      "loss": 6.1232,
      "step": 3475
    },
    {
      "epoch": 5.5616,
      "grad_norm": 0.0,
      "learning_rate": 0.00031279999999999996,
      "loss": 8.8069,
      "step": 3476
    },
    {
      "epoch": 5.5632,
      "grad_norm": 0.0,
      "learning_rate": 0.0003126,
      "loss": 10.0194,
      "step": 3477
    },
    {
      "epoch": 5.5648,
      "grad_norm": 0.0,
      "learning_rate": 0.0003124,
      "loss": 7.7735,
      "step": 3478
    },
    {
      "epoch": 5.5664,
      "grad_norm": 0.0,
      "learning_rate": 0.00031219999999999995,
      "loss": 7.6879,
      "step": 3479
    },
    {
      "epoch": 5.568,
      "grad_norm": 0.0,
      "learning_rate": 0.000312,
      "loss": 6.2111,
      "step": 3480
    },
    {
      "epoch": 5.5696,
      "grad_norm": 0.0,
      "learning_rate": 0.0003118,
      "loss": 5.668,
      "step": 3481
    },
    {
      "epoch": 5.5712,
      "grad_norm": 0.0,
      "learning_rate": 0.0003116,
      "loss": 5.803,
      "step": 3482
    },
    {
      "epoch": 5.5728,
      "grad_norm": 0.0,
      "learning_rate": 0.0003114,
      "loss": 5.6059,
      "step": 3483
    },
    {
      "epoch": 5.5744,
      "grad_norm": 0.0,
      "learning_rate": 0.00031120000000000003,
      "loss": 6.5504,
      "step": 3484
    },
    {
      "epoch": 5.576,
      "grad_norm": 0.0,
      "learning_rate": 0.00031099999999999997,
      "loss": 4.8661,
      "step": 3485
    },
    {
      "epoch": 5.5776,
      "grad_norm": 0.0,
      "learning_rate": 0.00031079999999999997,
      "loss": 5.4792,
      "step": 3486
    },
    {
      "epoch": 5.5792,
      "grad_norm": 0.0,
      "learning_rate": 0.0003106,
      "loss": 7.2463,
      "step": 3487
    },
    {
      "epoch": 5.5808,
      "grad_norm": 0.0,
      "learning_rate": 0.00031039999999999996,
      "loss": 6.0487,
      "step": 3488
    },
    {
      "epoch": 5.5824,
      "grad_norm": 0.0,
      "learning_rate": 0.0003102,
      "loss": 5.6956,
      "step": 3489
    },
    {
      "epoch": 5.584,
      "grad_norm": 0.0,
      "learning_rate": 0.00031,
      "loss": 5.734,
      "step": 3490
    },
    {
      "epoch": 5.5856,
      "grad_norm": 0.0,
      "learning_rate": 0.00030979999999999994,
      "loss": 5.7294,
      "step": 3491
    },
    {
      "epoch": 5.5872,
      "grad_norm": 0.0,
      "learning_rate": 0.0003096,
      "loss": 4.8868,
      "step": 3492
    },
    {
      "epoch": 5.5888,
      "grad_norm": 0.0,
      "learning_rate": 0.0003094,
      "loss": 8.0877,
      "step": 3493
    },
    {
      "epoch": 5.5904,
      "grad_norm": 0.0,
      "learning_rate": 0.0003092,
      "loss": 5.6308,
      "step": 3494
    },
    {
      "epoch": 5.592,
      "grad_norm": 0.0,
      "learning_rate": 0.000309,
      "loss": 5.894,
      "step": 3495
    },
    {
      "epoch": 5.5936,
      "grad_norm": 0.0,
      "learning_rate": 0.0003088,
      "loss": 4.8339,
      "step": 3496
    },
    {
      "epoch": 5.5952,
      "grad_norm": 0.0,
      "learning_rate": 0.00030859999999999997,
      "loss": 6.5512,
      "step": 3497
    },
    {
      "epoch": 5.5968,
      "grad_norm": 0.0,
      "learning_rate": 0.00030839999999999996,
      "loss": 6.1774,
      "step": 3498
    },
    {
      "epoch": 5.5984,
      "grad_norm": 0.0,
      "learning_rate": 0.0003082,
      "loss": 5.466,
      "step": 3499
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.0,
      "learning_rate": 0.00030799999999999995,
      "loss": 5.1911,
      "step": 3500
    },
    {
      "epoch": 5.6016,
      "grad_norm": 0.0,
      "learning_rate": 0.0003078,
      "loss": 5.6427,
      "step": 3501
    },
    {
      "epoch": 5.6032,
      "grad_norm": 0.0,
      "learning_rate": 0.0003076,
      "loss": 5.775,
      "step": 3502
    },
    {
      "epoch": 5.6048,
      "grad_norm": 0.0,
      "learning_rate": 0.00030739999999999994,
      "loss": 5.11,
      "step": 3503
    },
    {
      "epoch": 5.6064,
      "grad_norm": 0.0,
      "learning_rate": 0.0003072,
      "loss": 4.8973,
      "step": 3504
    },
    {
      "epoch": 5.608,
      "grad_norm": 0.0,
      "learning_rate": 0.000307,
      "loss": 4.6442,
      "step": 3505
    },
    {
      "epoch": 5.6096,
      "grad_norm": 0.0,
      "learning_rate": 0.0003068,
      "loss": 4.3129,
      "step": 3506
    },
    {
      "epoch": 5.6112,
      "grad_norm": 0.0,
      "learning_rate": 0.00030659999999999997,
      "loss": 6.2997,
      "step": 3507
    },
    {
      "epoch": 5.6128,
      "grad_norm": 0.0,
      "learning_rate": 0.0003064,
      "loss": 5.7445,
      "step": 3508
    },
    {
      "epoch": 5.6144,
      "grad_norm": 0.0,
      "learning_rate": 0.00030619999999999996,
      "loss": 4.3291,
      "step": 3509
    },
    {
      "epoch": 5.616,
      "grad_norm": 0.0,
      "learning_rate": 0.00030599999999999996,
      "loss": 4.8229,
      "step": 3510
    },
    {
      "epoch": 5.6176,
      "grad_norm": 0.0,
      "learning_rate": 0.0003058,
      "loss": 5.8915,
      "step": 3511
    },
    {
      "epoch": 5.6192,
      "grad_norm": 0.0,
      "learning_rate": 0.00030559999999999995,
      "loss": 5.8624,
      "step": 3512
    },
    {
      "epoch": 5.6208,
      "grad_norm": 0.0,
      "learning_rate": 0.0003054,
      "loss": 5.0837,
      "step": 3513
    },
    {
      "epoch": 5.6224,
      "grad_norm": 0.0,
      "learning_rate": 0.0003052,
      "loss": 5.597,
      "step": 3514
    },
    {
      "epoch": 5.624,
      "grad_norm": 0.0,
      "learning_rate": 0.00030499999999999993,
      "loss": 5.4179,
      "step": 3515
    },
    {
      "epoch": 5.6256,
      "grad_norm": 0.0,
      "learning_rate": 0.0003048,
      "loss": 4.1584,
      "step": 3516
    },
    {
      "epoch": 5.6272,
      "grad_norm": 0.0,
      "learning_rate": 0.0003046,
      "loss": 4.7938,
      "step": 3517
    },
    {
      "epoch": 5.6288,
      "grad_norm": 0.0,
      "learning_rate": 0.00030439999999999997,
      "loss": 5.203,
      "step": 3518
    },
    {
      "epoch": 5.6304,
      "grad_norm": 0.0,
      "learning_rate": 0.00030419999999999997,
      "loss": 4.6087,
      "step": 3519
    },
    {
      "epoch": 5.632,
      "grad_norm": 0.0,
      "learning_rate": 0.000304,
      "loss": 5.5019,
      "step": 3520
    },
    {
      "epoch": 5.6336,
      "grad_norm": 0.0,
      "learning_rate": 0.00030379999999999996,
      "loss": 6.6593,
      "step": 3521
    },
    {
      "epoch": 5.6352,
      "grad_norm": 0.0,
      "learning_rate": 0.00030359999999999995,
      "loss": 6.3611,
      "step": 3522
    },
    {
      "epoch": 5.6368,
      "grad_norm": 0.0,
      "learning_rate": 0.0003034,
      "loss": 6.8224,
      "step": 3523
    },
    {
      "epoch": 5.6384,
      "grad_norm": 0.0,
      "learning_rate": 0.00030319999999999994,
      "loss": 4.3047,
      "step": 3524
    },
    {
      "epoch": 5.64,
      "grad_norm": 0.0,
      "learning_rate": 0.000303,
      "loss": 6.519,
      "step": 3525
    },
    {
      "epoch": 5.6416,
      "grad_norm": 0.0,
      "learning_rate": 0.0003028,
      "loss": 6.754,
      "step": 3526
    },
    {
      "epoch": 5.6432,
      "grad_norm": 0.0,
      "learning_rate": 0.00030259999999999993,
      "loss": 6.9593,
      "step": 3527
    },
    {
      "epoch": 5.6448,
      "grad_norm": 0.0,
      "learning_rate": 0.0003024,
      "loss": 6.2176,
      "step": 3528
    },
    {
      "epoch": 5.6464,
      "grad_norm": 0.0,
      "learning_rate": 0.0003022,
      "loss": 6.0432,
      "step": 3529
    },
    {
      "epoch": 5.648,
      "grad_norm": 0.0,
      "learning_rate": 0.00030199999999999997,
      "loss": 6.6611,
      "step": 3530
    },
    {
      "epoch": 5.6495999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00030179999999999996,
      "loss": 6.1555,
      "step": 3531
    },
    {
      "epoch": 5.6512,
      "grad_norm": 0.0,
      "learning_rate": 0.0003016,
      "loss": 6.9663,
      "step": 3532
    },
    {
      "epoch": 5.6528,
      "grad_norm": 0.0,
      "learning_rate": 0.00030139999999999995,
      "loss": 6.7112,
      "step": 3533
    },
    {
      "epoch": 5.6544,
      "grad_norm": 0.0,
      "learning_rate": 0.00030119999999999995,
      "loss": 6.6022,
      "step": 3534
    },
    {
      "epoch": 5.656,
      "grad_norm": 0.0,
      "learning_rate": 0.000301,
      "loss": 7.3001,
      "step": 3535
    },
    {
      "epoch": 5.6576,
      "grad_norm": 0.0,
      "learning_rate": 0.00030079999999999994,
      "loss": 6.3927,
      "step": 3536
    },
    {
      "epoch": 5.6592,
      "grad_norm": 0.0,
      "learning_rate": 0.0003006,
      "loss": 4.9856,
      "step": 3537
    },
    {
      "epoch": 5.6608,
      "grad_norm": 0.0,
      "learning_rate": 0.0003004,
      "loss": 7.4152,
      "step": 3538
    },
    {
      "epoch": 5.6624,
      "grad_norm": 0.0,
      "learning_rate": 0.0003002,
      "loss": 5.0768,
      "step": 3539
    },
    {
      "epoch": 5.664,
      "grad_norm": 0.0,
      "learning_rate": 0.0003,
      "loss": 4.3194,
      "step": 3540
    },
    {
      "epoch": 5.6655999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00029979999999999997,
      "loss": 4.9624,
      "step": 3541
    },
    {
      "epoch": 5.6672,
      "grad_norm": 0.0,
      "learning_rate": 0.00029959999999999996,
      "loss": 5.5032,
      "step": 3542
    },
    {
      "epoch": 5.6688,
      "grad_norm": 0.0,
      "learning_rate": 0.00029939999999999996,
      "loss": 5.5542,
      "step": 3543
    },
    {
      "epoch": 5.6704,
      "grad_norm": 0.0,
      "learning_rate": 0.00029919999999999995,
      "loss": 5.5015,
      "step": 3544
    },
    {
      "epoch": 5.672,
      "grad_norm": 0.0,
      "learning_rate": 0.000299,
      "loss": 5.3259,
      "step": 3545
    },
    {
      "epoch": 5.6736,
      "grad_norm": 0.0,
      "learning_rate": 0.0002988,
      "loss": 6.172,
      "step": 3546
    },
    {
      "epoch": 5.6752,
      "grad_norm": 0.0,
      "learning_rate": 0.00029859999999999994,
      "loss": 5.1184,
      "step": 3547
    },
    {
      "epoch": 5.6768,
      "grad_norm": 0.0,
      "learning_rate": 0.0002984,
      "loss": 5.7026,
      "step": 3548
    },
    {
      "epoch": 5.6784,
      "grad_norm": 0.0,
      "learning_rate": 0.0002982,
      "loss": 5.5878,
      "step": 3549
    },
    {
      "epoch": 5.68,
      "grad_norm": 0.0,
      "learning_rate": 0.000298,
      "loss": 5.3587,
      "step": 3550
    },
    {
      "epoch": 5.6815999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0002978,
      "loss": 5.5599,
      "step": 3551
    },
    {
      "epoch": 5.6832,
      "grad_norm": 0.0,
      "learning_rate": 0.00029759999999999997,
      "loss": 5.531,
      "step": 3552
    },
    {
      "epoch": 5.6848,
      "grad_norm": 0.0,
      "learning_rate": 0.00029739999999999996,
      "loss": 7.3248,
      "step": 3553
    },
    {
      "epoch": 5.6864,
      "grad_norm": 0.0,
      "learning_rate": 0.00029719999999999996,
      "loss": 5.0091,
      "step": 3554
    },
    {
      "epoch": 5.688,
      "grad_norm": 0.0,
      "learning_rate": 0.00029699999999999996,
      "loss": 5.243,
      "step": 3555
    },
    {
      "epoch": 5.6896,
      "grad_norm": 0.0,
      "learning_rate": 0.00029679999999999995,
      "loss": 6.226,
      "step": 3556
    },
    {
      "epoch": 5.6912,
      "grad_norm": 0.0,
      "learning_rate": 0.0002966,
      "loss": 4.939,
      "step": 3557
    },
    {
      "epoch": 5.6928,
      "grad_norm": 0.0,
      "learning_rate": 0.0002964,
      "loss": 4.7771,
      "step": 3558
    },
    {
      "epoch": 5.6944,
      "grad_norm": 0.0,
      "learning_rate": 0.00029619999999999994,
      "loss": 7.1094,
      "step": 3559
    },
    {
      "epoch": 5.696,
      "grad_norm": 0.0,
      "learning_rate": 0.000296,
      "loss": 4.1986,
      "step": 3560
    },
    {
      "epoch": 5.6975999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.0002958,
      "loss": 4.4455,
      "step": 3561
    },
    {
      "epoch": 5.6992,
      "grad_norm": 0.0,
      "learning_rate": 0.0002956,
      "loss": 5.7532,
      "step": 3562
    },
    {
      "epoch": 5.7008,
      "grad_norm": 0.0,
      "learning_rate": 0.00029539999999999997,
      "loss": 6.2304,
      "step": 3563
    },
    {
      "epoch": 5.7024,
      "grad_norm": 0.0,
      "learning_rate": 0.00029519999999999997,
      "loss": 4.4639,
      "step": 3564
    },
    {
      "epoch": 5.704,
      "grad_norm": 0.0,
      "learning_rate": 0.00029499999999999996,
      "loss": 5.3329,
      "step": 3565
    },
    {
      "epoch": 5.7056000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.00029479999999999996,
      "loss": 5.4996,
      "step": 3566
    },
    {
      "epoch": 5.7072,
      "grad_norm": 0.0,
      "learning_rate": 0.00029459999999999995,
      "loss": 6.3588,
      "step": 3567
    },
    {
      "epoch": 5.7088,
      "grad_norm": 0.0,
      "learning_rate": 0.00029439999999999995,
      "loss": 5.2107,
      "step": 3568
    },
    {
      "epoch": 5.7104,
      "grad_norm": 0.0,
      "learning_rate": 0.0002942,
      "loss": 5.7148,
      "step": 3569
    },
    {
      "epoch": 5.712,
      "grad_norm": 0.0,
      "learning_rate": 0.000294,
      "loss": 4.3807,
      "step": 3570
    },
    {
      "epoch": 5.7136,
      "grad_norm": 0.0,
      "learning_rate": 0.00029379999999999993,
      "loss": 5.8635,
      "step": 3571
    },
    {
      "epoch": 5.7152,
      "grad_norm": 0.0,
      "learning_rate": 0.0002936,
      "loss": 5.4345,
      "step": 3572
    },
    {
      "epoch": 5.7168,
      "grad_norm": 0.0,
      "learning_rate": 0.0002934,
      "loss": 5.1674,
      "step": 3573
    },
    {
      "epoch": 5.7184,
      "grad_norm": 0.0,
      "learning_rate": 0.00029319999999999997,
      "loss": 5.9964,
      "step": 3574
    },
    {
      "epoch": 5.72,
      "grad_norm": 0.0,
      "learning_rate": 0.00029299999999999997,
      "loss": 8.3877,
      "step": 3575
    },
    {
      "epoch": 5.7216000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00029279999999999996,
      "loss": 6.5507,
      "step": 3576
    },
    {
      "epoch": 5.7232,
      "grad_norm": 0.0,
      "learning_rate": 0.0002926,
      "loss": 6.6776,
      "step": 3577
    },
    {
      "epoch": 5.7248,
      "grad_norm": 0.0,
      "learning_rate": 0.0002924,
      "loss": 6.7916,
      "step": 3578
    },
    {
      "epoch": 5.7264,
      "grad_norm": 0.0,
      "learning_rate": 0.00029219999999999995,
      "loss": 6.5796,
      "step": 3579
    },
    {
      "epoch": 5.728,
      "grad_norm": 0.0,
      "learning_rate": 0.000292,
      "loss": 6.1082,
      "step": 3580
    },
    {
      "epoch": 5.7296,
      "grad_norm": 0.0,
      "learning_rate": 0.0002918,
      "loss": 5.9443,
      "step": 3581
    },
    {
      "epoch": 5.7312,
      "grad_norm": 0.0,
      "learning_rate": 0.0002916,
      "loss": 6.2337,
      "step": 3582
    },
    {
      "epoch": 5.7328,
      "grad_norm": 0.0,
      "learning_rate": 0.0002914,
      "loss": 6.095,
      "step": 3583
    },
    {
      "epoch": 5.7344,
      "grad_norm": 0.0,
      "learning_rate": 0.0002912,
      "loss": 7.4777,
      "step": 3584
    },
    {
      "epoch": 5.736,
      "grad_norm": 0.0,
      "learning_rate": 0.00029099999999999997,
      "loss": 6.7638,
      "step": 3585
    },
    {
      "epoch": 5.7376000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00029079999999999997,
      "loss": 5.733,
      "step": 3586
    },
    {
      "epoch": 5.7392,
      "grad_norm": 0.0,
      "learning_rate": 0.00029059999999999996,
      "loss": 4.4245,
      "step": 3587
    },
    {
      "epoch": 5.7408,
      "grad_norm": 0.0,
      "learning_rate": 0.00029039999999999996,
      "loss": 5.5837,
      "step": 3588
    },
    {
      "epoch": 5.7424,
      "grad_norm": 0.0,
      "learning_rate": 0.0002902,
      "loss": 6.2073,
      "step": 3589
    },
    {
      "epoch": 5.744,
      "grad_norm": 0.0,
      "learning_rate": 0.00029,
      "loss": 5.8264,
      "step": 3590
    },
    {
      "epoch": 5.7456,
      "grad_norm": 0.0,
      "learning_rate": 0.00028979999999999994,
      "loss": 4.6939,
      "step": 3591
    },
    {
      "epoch": 5.7472,
      "grad_norm": 0.0,
      "learning_rate": 0.0002896,
      "loss": 5.3144,
      "step": 3592
    },
    {
      "epoch": 5.7488,
      "grad_norm": 0.0,
      "learning_rate": 0.0002894,
      "loss": 6.251,
      "step": 3593
    },
    {
      "epoch": 5.7504,
      "grad_norm": 0.0,
      "learning_rate": 0.0002892,
      "loss": 6.5238,
      "step": 3594
    },
    {
      "epoch": 5.752,
      "grad_norm": 0.0,
      "learning_rate": 0.000289,
      "loss": 6.2432,
      "step": 3595
    },
    {
      "epoch": 5.7536000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00028879999999999997,
      "loss": 4.7342,
      "step": 3596
    },
    {
      "epoch": 5.7552,
      "grad_norm": 0.0,
      "learning_rate": 0.00028859999999999997,
      "loss": 6.8051,
      "step": 3597
    },
    {
      "epoch": 5.7568,
      "grad_norm": 0.0,
      "learning_rate": 0.00028839999999999996,
      "loss": 6.8365,
      "step": 3598
    },
    {
      "epoch": 5.7584,
      "grad_norm": 0.0,
      "learning_rate": 0.00028819999999999996,
      "loss": 4.9514,
      "step": 3599
    },
    {
      "epoch": 5.76,
      "grad_norm": 0.0,
      "learning_rate": 0.00028799999999999995,
      "loss": 5.5533,
      "step": 3600
    },
    {
      "epoch": 5.7616,
      "grad_norm": 0.0,
      "learning_rate": 0.0002878,
      "loss": 5.4546,
      "step": 3601
    },
    {
      "epoch": 5.7632,
      "grad_norm": 0.0,
      "learning_rate": 0.0002876,
      "loss": 4.9962,
      "step": 3602
    },
    {
      "epoch": 5.7648,
      "grad_norm": 0.0,
      "learning_rate": 0.00028739999999999994,
      "loss": 6.338,
      "step": 3603
    },
    {
      "epoch": 5.7664,
      "grad_norm": 0.0,
      "learning_rate": 0.0002872,
      "loss": 7.0083,
      "step": 3604
    },
    {
      "epoch": 5.768,
      "grad_norm": 0.0,
      "learning_rate": 0.000287,
      "loss": 4.8454,
      "step": 3605
    },
    {
      "epoch": 5.7696,
      "grad_norm": 0.0,
      "learning_rate": 0.0002868,
      "loss": 5.3004,
      "step": 3606
    },
    {
      "epoch": 5.7712,
      "grad_norm": 0.0,
      "learning_rate": 0.0002866,
      "loss": 4.8438,
      "step": 3607
    },
    {
      "epoch": 5.7728,
      "grad_norm": 0.0,
      "learning_rate": 0.00028639999999999997,
      "loss": 5.2329,
      "step": 3608
    },
    {
      "epoch": 5.7744,
      "grad_norm": 0.0,
      "learning_rate": 0.00028619999999999996,
      "loss": 4.1446,
      "step": 3609
    },
    {
      "epoch": 5.776,
      "grad_norm": 0.0,
      "learning_rate": 0.00028599999999999996,
      "loss": 5.5349,
      "step": 3610
    },
    {
      "epoch": 5.7776,
      "grad_norm": 0.0,
      "learning_rate": 0.00028579999999999995,
      "loss": 5.4936,
      "step": 3611
    },
    {
      "epoch": 5.7792,
      "grad_norm": 0.0,
      "learning_rate": 0.00028559999999999995,
      "loss": 4.7326,
      "step": 3612
    },
    {
      "epoch": 5.7808,
      "grad_norm": 0.0,
      "learning_rate": 0.0002854,
      "loss": 5.9447,
      "step": 3613
    },
    {
      "epoch": 5.7824,
      "grad_norm": 0.0,
      "learning_rate": 0.0002852,
      "loss": 4.9128,
      "step": 3614
    },
    {
      "epoch": 5.784,
      "grad_norm": 0.0,
      "learning_rate": 0.000285,
      "loss": 5.7036,
      "step": 3615
    },
    {
      "epoch": 5.7856,
      "grad_norm": 0.0,
      "learning_rate": 0.0002848,
      "loss": 5.1957,
      "step": 3616
    },
    {
      "epoch": 5.7872,
      "grad_norm": 0.0,
      "learning_rate": 0.0002846,
      "loss": 4.7366,
      "step": 3617
    },
    {
      "epoch": 5.7888,
      "grad_norm": 0.0,
      "learning_rate": 0.0002844,
      "loss": 5.3741,
      "step": 3618
    },
    {
      "epoch": 5.7904,
      "grad_norm": 0.0,
      "learning_rate": 0.00028419999999999997,
      "loss": 4.4804,
      "step": 3619
    },
    {
      "epoch": 5.792,
      "grad_norm": 0.0,
      "learning_rate": 0.00028399999999999996,
      "loss": 4.8407,
      "step": 3620
    },
    {
      "epoch": 5.7936,
      "grad_norm": 0.0,
      "learning_rate": 0.00028379999999999996,
      "loss": 5.6581,
      "step": 3621
    },
    {
      "epoch": 5.7952,
      "grad_norm": 0.0,
      "learning_rate": 0.0002836,
      "loss": 8.0049,
      "step": 3622
    },
    {
      "epoch": 5.7968,
      "grad_norm": 0.0,
      "learning_rate": 0.00028339999999999995,
      "loss": 4.7602,
      "step": 3623
    },
    {
      "epoch": 5.7984,
      "grad_norm": 0.0,
      "learning_rate": 0.00028319999999999994,
      "loss": 4.9305,
      "step": 3624
    },
    {
      "epoch": 5.8,
      "grad_norm": NaN,
      "learning_rate": 0.00028319999999999994,
      "loss": 5.7485,
      "step": 3625
    },
    {
      "epoch": 5.8016,
      "grad_norm": 0.0,
      "learning_rate": 0.000283,
      "loss": 8.3658,
      "step": 3626
    },
    {
      "epoch": 5.8032,
      "grad_norm": 0.0,
      "learning_rate": 0.0002828,
      "loss": 7.1211,
      "step": 3627
    },
    {
      "epoch": 5.8048,
      "grad_norm": 0.0,
      "learning_rate": 0.0002826,
      "loss": 7.0322,
      "step": 3628
    },
    {
      "epoch": 5.8064,
      "grad_norm": 0.0,
      "learning_rate": 0.0002824,
      "loss": 8.3492,
      "step": 3629
    },
    {
      "epoch": 5.808,
      "grad_norm": 0.0,
      "learning_rate": 0.0002822,
      "loss": 6.3224,
      "step": 3630
    },
    {
      "epoch": 5.8096,
      "grad_norm": 0.0,
      "learning_rate": 0.00028199999999999997,
      "loss": 6.6665,
      "step": 3631
    },
    {
      "epoch": 5.8112,
      "grad_norm": 0.0,
      "learning_rate": 0.00028179999999999997,
      "loss": 5.8809,
      "step": 3632
    },
    {
      "epoch": 5.8128,
      "grad_norm": 0.0,
      "learning_rate": 0.00028159999999999996,
      "loss": 7.3065,
      "step": 3633
    },
    {
      "epoch": 5.8144,
      "grad_norm": 0.0,
      "learning_rate": 0.00028139999999999996,
      "loss": 5.906,
      "step": 3634
    },
    {
      "epoch": 5.816,
      "grad_norm": 0.0,
      "learning_rate": 0.0002812,
      "loss": 5.3947,
      "step": 3635
    },
    {
      "epoch": 5.8176,
      "grad_norm": 0.0,
      "learning_rate": 0.00028099999999999995,
      "loss": 6.9699,
      "step": 3636
    },
    {
      "epoch": 5.8192,
      "grad_norm": 0.0,
      "learning_rate": 0.0002808,
      "loss": 6.1025,
      "step": 3637
    },
    {
      "epoch": 5.8208,
      "grad_norm": 0.0,
      "learning_rate": 0.0002806,
      "loss": 5.37,
      "step": 3638
    },
    {
      "epoch": 5.8224,
      "grad_norm": 0.0,
      "learning_rate": 0.0002804,
      "loss": 6.642,
      "step": 3639
    },
    {
      "epoch": 5.824,
      "grad_norm": 0.0,
      "learning_rate": 0.0002802,
      "loss": 5.8273,
      "step": 3640
    },
    {
      "epoch": 5.8256,
      "grad_norm": 0.0,
      "learning_rate": 0.00028,
      "loss": 5.6738,
      "step": 3641
    },
    {
      "epoch": 5.8272,
      "grad_norm": 0.0,
      "learning_rate": 0.00027979999999999997,
      "loss": 5.8018,
      "step": 3642
    },
    {
      "epoch": 5.8288,
      "grad_norm": 0.0,
      "learning_rate": 0.00027959999999999997,
      "loss": 5.2876,
      "step": 3643
    },
    {
      "epoch": 5.8304,
      "grad_norm": 0.0,
      "learning_rate": 0.00027939999999999996,
      "loss": 4.9762,
      "step": 3644
    },
    {
      "epoch": 5.832,
      "grad_norm": 0.0,
      "learning_rate": 0.00027919999999999996,
      "loss": 5.017,
      "step": 3645
    },
    {
      "epoch": 5.8336,
      "grad_norm": 0.0,
      "learning_rate": 0.000279,
      "loss": 5.5559,
      "step": 3646
    },
    {
      "epoch": 5.8352,
      "grad_norm": 0.0,
      "learning_rate": 0.0002788,
      "loss": 5.2275,
      "step": 3647
    },
    {
      "epoch": 5.8368,
      "grad_norm": 0.0,
      "learning_rate": 0.00027859999999999994,
      "loss": 4.935,
      "step": 3648
    },
    {
      "epoch": 5.8384,
      "grad_norm": 0.0,
      "learning_rate": 0.0002784,
      "loss": 5.0413,
      "step": 3649
    },
    {
      "epoch": 5.84,
      "grad_norm": 0.0,
      "learning_rate": 0.0002782,
      "loss": 5.7146,
      "step": 3650
    },
    {
      "epoch": 5.8416,
      "grad_norm": 0.0,
      "learning_rate": 0.000278,
      "loss": 5.5271,
      "step": 3651
    },
    {
      "epoch": 5.8431999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0002778,
      "loss": 6.8281,
      "step": 3652
    },
    {
      "epoch": 5.8448,
      "grad_norm": 0.0,
      "learning_rate": 0.00027759999999999997,
      "loss": 5.5622,
      "step": 3653
    },
    {
      "epoch": 5.8464,
      "grad_norm": 0.0,
      "learning_rate": 0.00027739999999999997,
      "loss": 5.2229,
      "step": 3654
    },
    {
      "epoch": 5.848,
      "grad_norm": 0.0,
      "learning_rate": 0.0002772,
      "loss": 4.256,
      "step": 3655
    },
    {
      "epoch": 5.8496,
      "grad_norm": 0.0,
      "learning_rate": 0.00027699999999999996,
      "loss": 4.9199,
      "step": 3656
    },
    {
      "epoch": 5.8512,
      "grad_norm": 0.0,
      "learning_rate": 0.00027679999999999995,
      "loss": 4.5997,
      "step": 3657
    },
    {
      "epoch": 5.8528,
      "grad_norm": 0.0,
      "learning_rate": 0.0002766,
      "loss": 6.0303,
      "step": 3658
    },
    {
      "epoch": 5.8544,
      "grad_norm": 0.0,
      "learning_rate": 0.0002764,
      "loss": 6.3918,
      "step": 3659
    },
    {
      "epoch": 5.856,
      "grad_norm": 0.0,
      "learning_rate": 0.0002762,
      "loss": 5.9235,
      "step": 3660
    },
    {
      "epoch": 5.8576,
      "grad_norm": 0.0,
      "learning_rate": 0.000276,
      "loss": 6.4329,
      "step": 3661
    },
    {
      "epoch": 5.8591999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0002758,
      "loss": 5.6884,
      "step": 3662
    },
    {
      "epoch": 5.8608,
      "grad_norm": 0.0,
      "learning_rate": 0.0002756,
      "loss": 4.744,
      "step": 3663
    },
    {
      "epoch": 5.8624,
      "grad_norm": 0.0,
      "learning_rate": 0.00027539999999999997,
      "loss": 5.5336,
      "step": 3664
    },
    {
      "epoch": 5.864,
      "grad_norm": 0.0,
      "learning_rate": 0.00027519999999999997,
      "loss": 5.4217,
      "step": 3665
    },
    {
      "epoch": 5.8656,
      "grad_norm": 0.0,
      "learning_rate": 0.00027499999999999996,
      "loss": 4.8725,
      "step": 3666
    },
    {
      "epoch": 5.8672,
      "grad_norm": 0.0,
      "learning_rate": 0.0002748,
      "loss": 5.2555,
      "step": 3667
    },
    {
      "epoch": 5.8688,
      "grad_norm": 0.0,
      "learning_rate": 0.00027459999999999995,
      "loss": 5.1452,
      "step": 3668
    },
    {
      "epoch": 5.8704,
      "grad_norm": 0.0,
      "learning_rate": 0.00027439999999999995,
      "loss": 6.4179,
      "step": 3669
    },
    {
      "epoch": 5.872,
      "grad_norm": 0.0,
      "learning_rate": 0.0002742,
      "loss": 4.8269,
      "step": 3670
    },
    {
      "epoch": 5.8736,
      "grad_norm": 0.0,
      "learning_rate": 0.000274,
      "loss": 6.6833,
      "step": 3671
    },
    {
      "epoch": 5.8751999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0002738,
      "loss": 4.792,
      "step": 3672
    },
    {
      "epoch": 5.8768,
      "grad_norm": 0.0,
      "learning_rate": 0.0002736,
      "loss": 5.3367,
      "step": 3673
    },
    {
      "epoch": 5.8784,
      "grad_norm": 0.0,
      "learning_rate": 0.0002734,
      "loss": 4.7007,
      "step": 3674
    },
    {
      "epoch": 5.88,
      "grad_norm": 0.0,
      "learning_rate": 0.00027319999999999997,
      "loss": 7.16,
      "step": 3675
    },
    {
      "epoch": 5.8816,
      "grad_norm": 0.0,
      "learning_rate": 0.00027299999999999997,
      "loss": 6.8287,
      "step": 3676
    },
    {
      "epoch": 5.8832,
      "grad_norm": 0.0,
      "learning_rate": 0.00027279999999999996,
      "loss": 6.2576,
      "step": 3677
    },
    {
      "epoch": 5.8848,
      "grad_norm": 0.0,
      "learning_rate": 0.00027259999999999996,
      "loss": 7.6439,
      "step": 3678
    },
    {
      "epoch": 5.8864,
      "grad_norm": 0.0,
      "learning_rate": 0.0002724,
      "loss": 7.9377,
      "step": 3679
    },
    {
      "epoch": 5.888,
      "grad_norm": 0.0,
      "learning_rate": 0.00027219999999999995,
      "loss": 6.8442,
      "step": 3680
    },
    {
      "epoch": 5.8896,
      "grad_norm": 0.0,
      "learning_rate": 0.00027199999999999994,
      "loss": 5.2543,
      "step": 3681
    },
    {
      "epoch": 5.8911999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0002718,
      "loss": 6.3046,
      "step": 3682
    },
    {
      "epoch": 5.8928,
      "grad_norm": 0.0,
      "learning_rate": 0.0002716,
      "loss": 6.2755,
      "step": 3683
    },
    {
      "epoch": 5.8944,
      "grad_norm": 0.0,
      "learning_rate": 0.0002714,
      "loss": 6.6268,
      "step": 3684
    },
    {
      "epoch": 5.896,
      "grad_norm": 0.0,
      "learning_rate": 0.0002712,
      "loss": 5.7255,
      "step": 3685
    },
    {
      "epoch": 5.8976,
      "grad_norm": 0.0,
      "learning_rate": 0.000271,
      "loss": 5.3728,
      "step": 3686
    },
    {
      "epoch": 5.8992,
      "grad_norm": 0.0,
      "learning_rate": 0.00027079999999999997,
      "loss": 4.9809,
      "step": 3687
    },
    {
      "epoch": 5.9008,
      "grad_norm": 0.0,
      "learning_rate": 0.00027059999999999996,
      "loss": 5.3099,
      "step": 3688
    },
    {
      "epoch": 5.9024,
      "grad_norm": 0.0,
      "learning_rate": 0.00027039999999999996,
      "loss": 5.7011,
      "step": 3689
    },
    {
      "epoch": 5.904,
      "grad_norm": 0.0,
      "learning_rate": 0.00027019999999999995,
      "loss": 6.6388,
      "step": 3690
    },
    {
      "epoch": 5.9056,
      "grad_norm": 0.0,
      "learning_rate": 0.00027,
      "loss": 6.7033,
      "step": 3691
    },
    {
      "epoch": 5.9072,
      "grad_norm": 0.0,
      "learning_rate": 0.0002698,
      "loss": 5.7401,
      "step": 3692
    },
    {
      "epoch": 5.9088,
      "grad_norm": 0.0,
      "learning_rate": 0.00026959999999999994,
      "loss": 6.2838,
      "step": 3693
    },
    {
      "epoch": 5.9104,
      "grad_norm": 0.0,
      "learning_rate": 0.0002694,
      "loss": 4.524,
      "step": 3694
    },
    {
      "epoch": 5.912,
      "grad_norm": 0.0,
      "learning_rate": 0.0002692,
      "loss": 4.595,
      "step": 3695
    },
    {
      "epoch": 5.9136,
      "grad_norm": 0.0,
      "learning_rate": 0.000269,
      "loss": 5.2411,
      "step": 3696
    },
    {
      "epoch": 5.9152000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0002688,
      "loss": 6.8652,
      "step": 3697
    },
    {
      "epoch": 5.9168,
      "grad_norm": 0.0,
      "learning_rate": 0.00026859999999999997,
      "loss": 6.3878,
      "step": 3698
    },
    {
      "epoch": 5.9184,
      "grad_norm": 0.0,
      "learning_rate": 0.0002684,
      "loss": 5.5974,
      "step": 3699
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.0,
      "learning_rate": 0.00026819999999999996,
      "loss": 5.8375,
      "step": 3700
    },
    {
      "epoch": 5.9216,
      "grad_norm": 0.0,
      "learning_rate": 0.00026799999999999995,
      "loss": 5.9957,
      "step": 3701
    },
    {
      "epoch": 5.9232,
      "grad_norm": 0.0,
      "learning_rate": 0.0002678,
      "loss": 5.005,
      "step": 3702
    },
    {
      "epoch": 5.9248,
      "grad_norm": 0.0,
      "learning_rate": 0.0002676,
      "loss": 6.4649,
      "step": 3703
    },
    {
      "epoch": 5.9264,
      "grad_norm": 0.0,
      "learning_rate": 0.0002674,
      "loss": 4.3296,
      "step": 3704
    },
    {
      "epoch": 5.928,
      "grad_norm": 0.0,
      "learning_rate": 0.0002672,
      "loss": 5.4839,
      "step": 3705
    },
    {
      "epoch": 5.9296,
      "grad_norm": 0.0,
      "learning_rate": 0.000267,
      "loss": 6.3118,
      "step": 3706
    },
    {
      "epoch": 5.9312000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0002668,
      "loss": 5.6869,
      "step": 3707
    },
    {
      "epoch": 5.9328,
      "grad_norm": 0.0,
      "learning_rate": 0.0002666,
      "loss": 4.7917,
      "step": 3708
    },
    {
      "epoch": 5.9344,
      "grad_norm": 0.0,
      "learning_rate": 0.00026639999999999997,
      "loss": 3.9526,
      "step": 3709
    },
    {
      "epoch": 5.936,
      "grad_norm": 0.0,
      "learning_rate": 0.00026619999999999997,
      "loss": 5.9955,
      "step": 3710
    },
    {
      "epoch": 5.9376,
      "grad_norm": 0.0,
      "learning_rate": 0.000266,
      "loss": 4.7419,
      "step": 3711
    },
    {
      "epoch": 5.9392,
      "grad_norm": 0.0,
      "learning_rate": 0.00026579999999999996,
      "loss": 5.9813,
      "step": 3712
    },
    {
      "epoch": 5.9408,
      "grad_norm": 0.0,
      "learning_rate": 0.00026559999999999995,
      "loss": 5.1499,
      "step": 3713
    },
    {
      "epoch": 5.9424,
      "grad_norm": 0.0,
      "learning_rate": 0.0002654,
      "loss": 4.8764,
      "step": 3714
    },
    {
      "epoch": 5.944,
      "grad_norm": 0.0,
      "learning_rate": 0.0002652,
      "loss": 4.8173,
      "step": 3715
    },
    {
      "epoch": 5.9456,
      "grad_norm": 0.0,
      "learning_rate": 0.000265,
      "loss": 5.5797,
      "step": 3716
    },
    {
      "epoch": 5.9472000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0002648,
      "loss": 4.5446,
      "step": 3717
    },
    {
      "epoch": 5.9488,
      "grad_norm": 0.0,
      "learning_rate": 0.0002646,
      "loss": 3.742,
      "step": 3718
    },
    {
      "epoch": 5.9504,
      "grad_norm": 0.0,
      "learning_rate": 0.0002644,
      "loss": 5.1998,
      "step": 3719
    },
    {
      "epoch": 5.952,
      "grad_norm": 0.0,
      "learning_rate": 0.00026419999999999997,
      "loss": 7.5806,
      "step": 3720
    },
    {
      "epoch": 5.9536,
      "grad_norm": 0.0,
      "learning_rate": 0.00026399999999999997,
      "loss": 5.7512,
      "step": 3721
    },
    {
      "epoch": 5.9552,
      "grad_norm": 0.0,
      "learning_rate": 0.00026379999999999996,
      "loss": 4.9907,
      "step": 3722
    },
    {
      "epoch": 5.9568,
      "grad_norm": 0.0,
      "learning_rate": 0.0002636,
      "loss": 5.0717,
      "step": 3723
    },
    {
      "epoch": 5.9584,
      "grad_norm": 0.0,
      "learning_rate": 0.00026339999999999995,
      "loss": 5.6612,
      "step": 3724
    },
    {
      "epoch": 5.96,
      "grad_norm": NaN,
      "learning_rate": 0.00026339999999999995,
      "loss": 3.9089,
      "step": 3725
    },
    {
      "epoch": 5.9616,
      "grad_norm": 0.0,
      "learning_rate": 0.00026319999999999995,
      "loss": 7.2625,
      "step": 3726
    },
    {
      "epoch": 5.9632,
      "grad_norm": 0.0,
      "learning_rate": 0.000263,
      "loss": 6.0971,
      "step": 3727
    },
    {
      "epoch": 5.9648,
      "grad_norm": 0.0,
      "learning_rate": 0.0002628,
      "loss": 6.1193,
      "step": 3728
    },
    {
      "epoch": 5.9664,
      "grad_norm": 0.0,
      "learning_rate": 0.0002626,
      "loss": 6.1007,
      "step": 3729
    },
    {
      "epoch": 5.968,
      "grad_norm": 0.0,
      "learning_rate": 0.0002624,
      "loss": 6.2722,
      "step": 3730
    },
    {
      "epoch": 5.9696,
      "grad_norm": 0.0,
      "learning_rate": 0.0002622,
      "loss": 6.1931,
      "step": 3731
    },
    {
      "epoch": 5.9712,
      "grad_norm": 0.0,
      "learning_rate": 0.00026199999999999997,
      "loss": 6.1803,
      "step": 3732
    },
    {
      "epoch": 5.9728,
      "grad_norm": 0.0,
      "learning_rate": 0.00026179999999999997,
      "loss": 7.0627,
      "step": 3733
    },
    {
      "epoch": 5.9744,
      "grad_norm": 0.0,
      "learning_rate": 0.00026159999999999996,
      "loss": 5.5696,
      "step": 3734
    },
    {
      "epoch": 5.976,
      "grad_norm": 0.0,
      "learning_rate": 0.00026139999999999996,
      "loss": 5.6518,
      "step": 3735
    },
    {
      "epoch": 5.9776,
      "grad_norm": 0.0,
      "learning_rate": 0.0002612,
      "loss": 5.3313,
      "step": 3736
    },
    {
      "epoch": 5.9792,
      "grad_norm": 0.0,
      "learning_rate": 0.000261,
      "loss": 6.4509,
      "step": 3737
    },
    {
      "epoch": 5.9808,
      "grad_norm": 0.0,
      "learning_rate": 0.00026079999999999994,
      "loss": 5.8548,
      "step": 3738
    },
    {
      "epoch": 5.9824,
      "grad_norm": 0.0,
      "learning_rate": 0.0002606,
      "loss": 5.4002,
      "step": 3739
    },
    {
      "epoch": 5.984,
      "grad_norm": 0.0,
      "learning_rate": 0.0002604,
      "loss": 4.4642,
      "step": 3740
    },
    {
      "epoch": 5.9856,
      "grad_norm": 0.0,
      "learning_rate": 0.0002602,
      "loss": 4.807,
      "step": 3741
    },
    {
      "epoch": 5.9872,
      "grad_norm": 0.0,
      "learning_rate": 0.00026,
      "loss": 5.7274,
      "step": 3742
    },
    {
      "epoch": 5.9888,
      "grad_norm": 0.0,
      "learning_rate": 0.00025979999999999997,
      "loss": 4.3287,
      "step": 3743
    },
    {
      "epoch": 5.9904,
      "grad_norm": 0.0,
      "learning_rate": 0.00025959999999999997,
      "loss": 5.3405,
      "step": 3744
    },
    {
      "epoch": 5.992,
      "grad_norm": 0.0,
      "learning_rate": 0.00025939999999999996,
      "loss": 4.8432,
      "step": 3745
    },
    {
      "epoch": 5.9936,
      "grad_norm": 0.0,
      "learning_rate": 0.00025919999999999996,
      "loss": 6.0134,
      "step": 3746
    },
    {
      "epoch": 5.9952,
      "grad_norm": 0.0,
      "learning_rate": 0.00025899999999999995,
      "loss": 5.9685,
      "step": 3747
    },
    {
      "epoch": 5.9968,
      "grad_norm": 0.0,
      "learning_rate": 0.0002588,
      "loss": 6.4016,
      "step": 3748
    },
    {
      "epoch": 5.9984,
      "grad_norm": 0.0,
      "learning_rate": 0.0002586,
      "loss": 4.3907,
      "step": 3749
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.0,
      "learning_rate": 0.00025839999999999994,
      "loss": 4.9855,
      "step": 3750
    },
    {
      "epoch": 6.0016,
      "grad_norm": 0.0,
      "learning_rate": 0.0002582,
      "loss": 7.903,
      "step": 3751
    },
    {
      "epoch": 6.0032,
      "grad_norm": 0.0,
      "learning_rate": 0.000258,
      "loss": 8.2425,
      "step": 3752
    },
    {
      "epoch": 6.0048,
      "grad_norm": 0.0,
      "learning_rate": 0.0002578,
      "loss": 6.6237,
      "step": 3753
    },
    {
      "epoch": 6.0064,
      "grad_norm": 0.0,
      "learning_rate": 0.0002576,
      "loss": 6.7151,
      "step": 3754
    },
    {
      "epoch": 6.008,
      "grad_norm": 0.0,
      "learning_rate": 0.00025739999999999997,
      "loss": 6.7659,
      "step": 3755
    },
    {
      "epoch": 6.0096,
      "grad_norm": 0.0,
      "learning_rate": 0.00025719999999999996,
      "loss": 5.9836,
      "step": 3756
    },
    {
      "epoch": 6.0112,
      "grad_norm": 0.0,
      "learning_rate": 0.00025699999999999996,
      "loss": 6.175,
      "step": 3757
    },
    {
      "epoch": 6.0128,
      "grad_norm": 0.0,
      "learning_rate": 0.00025679999999999995,
      "loss": 5.6578,
      "step": 3758
    },
    {
      "epoch": 6.0144,
      "grad_norm": 0.0,
      "learning_rate": 0.00025659999999999995,
      "loss": 5.2847,
      "step": 3759
    },
    {
      "epoch": 6.016,
      "grad_norm": 0.0,
      "learning_rate": 0.0002564,
      "loss": 4.9896,
      "step": 3760
    },
    {
      "epoch": 6.0176,
      "grad_norm": 0.0,
      "learning_rate": 0.0002562,
      "loss": 6.4981,
      "step": 3761
    },
    {
      "epoch": 6.0192,
      "grad_norm": 0.0,
      "learning_rate": 0.000256,
      "loss": 5.0104,
      "step": 3762
    },
    {
      "epoch": 6.0208,
      "grad_norm": 0.0,
      "learning_rate": 0.0002558,
      "loss": 6.4033,
      "step": 3763
    },
    {
      "epoch": 6.0224,
      "grad_norm": 0.0,
      "learning_rate": 0.0002556,
      "loss": 5.2367,
      "step": 3764
    },
    {
      "epoch": 6.024,
      "grad_norm": 0.0,
      "learning_rate": 0.0002554,
      "loss": 6.7913,
      "step": 3765
    },
    {
      "epoch": 6.0256,
      "grad_norm": 0.0,
      "learning_rate": 0.00025519999999999997,
      "loss": 6.1005,
      "step": 3766
    },
    {
      "epoch": 6.0272,
      "grad_norm": 0.0,
      "learning_rate": 0.00025499999999999996,
      "loss": 5.4404,
      "step": 3767
    },
    {
      "epoch": 6.0288,
      "grad_norm": 0.0,
      "learning_rate": 0.0002548,
      "loss": 5.2762,
      "step": 3768
    },
    {
      "epoch": 6.0304,
      "grad_norm": 0.0,
      "learning_rate": 0.0002546,
      "loss": 4.5447,
      "step": 3769
    },
    {
      "epoch": 6.032,
      "grad_norm": 0.0,
      "learning_rate": 0.00025439999999999995,
      "loss": 5.6099,
      "step": 3770
    },
    {
      "epoch": 6.0336,
      "grad_norm": 0.0,
      "learning_rate": 0.0002542,
      "loss": 5.8155,
      "step": 3771
    },
    {
      "epoch": 6.0352,
      "grad_norm": 0.0,
      "learning_rate": 0.000254,
      "loss": 4.7098,
      "step": 3772
    },
    {
      "epoch": 6.0368,
      "grad_norm": 0.0,
      "learning_rate": 0.0002538,
      "loss": 5.0747,
      "step": 3773
    },
    {
      "epoch": 6.0384,
      "grad_norm": 0.0,
      "learning_rate": 0.0002536,
      "loss": 6.1499,
      "step": 3774
    },
    {
      "epoch": 6.04,
      "grad_norm": 0.0,
      "learning_rate": 0.0002534,
      "loss": 5.3974,
      "step": 3775
    },
    {
      "epoch": 6.0416,
      "grad_norm": 0.0,
      "learning_rate": 0.0002532,
      "loss": 5.9723,
      "step": 3776
    },
    {
      "epoch": 6.0432,
      "grad_norm": 0.0,
      "learning_rate": 0.00025299999999999997,
      "loss": 5.1909,
      "step": 3777
    },
    {
      "epoch": 6.0448,
      "grad_norm": 0.0,
      "learning_rate": 0.00025279999999999996,
      "loss": 5.6738,
      "step": 3778
    },
    {
      "epoch": 6.0464,
      "grad_norm": 0.0,
      "learning_rate": 0.00025259999999999996,
      "loss": 4.4649,
      "step": 3779
    },
    {
      "epoch": 6.048,
      "grad_norm": 0.0,
      "learning_rate": 0.0002524,
      "loss": 5.0202,
      "step": 3780
    },
    {
      "epoch": 6.0496,
      "grad_norm": 0.0,
      "learning_rate": 0.0002522,
      "loss": 5.1147,
      "step": 3781
    },
    {
      "epoch": 6.0512,
      "grad_norm": 0.0,
      "learning_rate": 0.00025199999999999995,
      "loss": 5.1592,
      "step": 3782
    },
    {
      "epoch": 6.0528,
      "grad_norm": 0.0,
      "learning_rate": 0.0002518,
      "loss": 6.1826,
      "step": 3783
    },
    {
      "epoch": 6.0544,
      "grad_norm": 0.0,
      "learning_rate": 0.0002516,
      "loss": 5.7229,
      "step": 3784
    },
    {
      "epoch": 6.056,
      "grad_norm": 0.0,
      "learning_rate": 0.0002514,
      "loss": 7.5871,
      "step": 3785
    },
    {
      "epoch": 6.0576,
      "grad_norm": 0.0,
      "learning_rate": 0.0002512,
      "loss": 5.1573,
      "step": 3786
    },
    {
      "epoch": 6.0592,
      "grad_norm": 0.0,
      "learning_rate": 0.000251,
      "loss": 4.9079,
      "step": 3787
    },
    {
      "epoch": 6.0608,
      "grad_norm": 0.0,
      "learning_rate": 0.00025079999999999997,
      "loss": 4.5917,
      "step": 3788
    },
    {
      "epoch": 6.0624,
      "grad_norm": 0.0,
      "learning_rate": 0.00025059999999999997,
      "loss": 6.7335,
      "step": 3789
    },
    {
      "epoch": 6.064,
      "grad_norm": 0.0,
      "learning_rate": 0.00025039999999999996,
      "loss": 6.1439,
      "step": 3790
    },
    {
      "epoch": 6.0656,
      "grad_norm": 0.0,
      "learning_rate": 0.00025019999999999996,
      "loss": 5.16,
      "step": 3791
    },
    {
      "epoch": 6.0672,
      "grad_norm": 0.0,
      "learning_rate": 0.00025,
      "loss": 5.8172,
      "step": 3792
    },
    {
      "epoch": 6.0688,
      "grad_norm": 0.0,
      "learning_rate": 0.0002498,
      "loss": 4.9083,
      "step": 3793
    },
    {
      "epoch": 6.0704,
      "grad_norm": 0.0,
      "learning_rate": 0.00024959999999999994,
      "loss": 5.1364,
      "step": 3794
    },
    {
      "epoch": 6.072,
      "grad_norm": 0.0,
      "learning_rate": 0.0002494,
      "loss": 4.7678,
      "step": 3795
    },
    {
      "epoch": 6.0736,
      "grad_norm": 0.0,
      "learning_rate": 0.0002492,
      "loss": 4.9779,
      "step": 3796
    },
    {
      "epoch": 6.0752,
      "grad_norm": 0.0,
      "learning_rate": 0.000249,
      "loss": 4.7857,
      "step": 3797
    },
    {
      "epoch": 6.0768,
      "grad_norm": 0.0,
      "learning_rate": 0.0002488,
      "loss": 5.6867,
      "step": 3798
    },
    {
      "epoch": 6.0784,
      "grad_norm": 0.0,
      "learning_rate": 0.00024859999999999997,
      "loss": 6.0305,
      "step": 3799
    },
    {
      "epoch": 6.08,
      "grad_norm": NaN,
      "learning_rate": 0.00024859999999999997,
      "loss": 5.1104,
      "step": 3800
    },
    {
      "epoch": 6.0816,
      "grad_norm": 0.0,
      "learning_rate": 0.00024839999999999997,
      "loss": 9.4278,
      "step": 3801
    },
    {
      "epoch": 6.0832,
      "grad_norm": 0.0,
      "learning_rate": 0.00024819999999999996,
      "loss": 6.2426,
      "step": 3802
    },
    {
      "epoch": 6.0848,
      "grad_norm": 0.0,
      "learning_rate": 0.00024799999999999996,
      "loss": 8.4432,
      "step": 3803
    },
    {
      "epoch": 6.0864,
      "grad_norm": 0.0,
      "learning_rate": 0.00024779999999999995,
      "loss": 7.1244,
      "step": 3804
    },
    {
      "epoch": 6.088,
      "grad_norm": 0.0,
      "learning_rate": 0.0002476,
      "loss": 7.5285,
      "step": 3805
    },
    {
      "epoch": 6.0896,
      "grad_norm": 0.0,
      "learning_rate": 0.0002474,
      "loss": 6.0996,
      "step": 3806
    },
    {
      "epoch": 6.0912,
      "grad_norm": 0.0,
      "learning_rate": 0.0002472,
      "loss": 5.0784,
      "step": 3807
    },
    {
      "epoch": 6.0928,
      "grad_norm": 0.0,
      "learning_rate": 0.000247,
      "loss": 6.9685,
      "step": 3808
    },
    {
      "epoch": 6.0944,
      "grad_norm": 0.0,
      "learning_rate": 0.0002468,
      "loss": 6.6873,
      "step": 3809
    },
    {
      "epoch": 6.096,
      "grad_norm": 0.0,
      "learning_rate": 0.0002466,
      "loss": 6.9079,
      "step": 3810
    },
    {
      "epoch": 6.0976,
      "grad_norm": 0.0,
      "learning_rate": 0.00024639999999999997,
      "loss": 6.7021,
      "step": 3811
    },
    {
      "epoch": 6.0992,
      "grad_norm": 0.0,
      "learning_rate": 0.00024619999999999997,
      "loss": 6.1739,
      "step": 3812
    },
    {
      "epoch": 6.1008,
      "grad_norm": 0.0,
      "learning_rate": 0.00024599999999999996,
      "loss": 7.103,
      "step": 3813
    },
    {
      "epoch": 6.1024,
      "grad_norm": 0.0,
      "learning_rate": 0.0002458,
      "loss": 5.3594,
      "step": 3814
    },
    {
      "epoch": 6.104,
      "grad_norm": 0.0,
      "learning_rate": 0.00024559999999999995,
      "loss": 5.6977,
      "step": 3815
    },
    {
      "epoch": 6.1056,
      "grad_norm": 0.0,
      "learning_rate": 0.00024539999999999995,
      "loss": 4.9392,
      "step": 3816
    },
    {
      "epoch": 6.1072,
      "grad_norm": 0.0,
      "learning_rate": 0.0002452,
      "loss": 6.8875,
      "step": 3817
    },
    {
      "epoch": 6.1088,
      "grad_norm": 0.0,
      "learning_rate": 0.000245,
      "loss": 5.0149,
      "step": 3818
    },
    {
      "epoch": 6.1104,
      "grad_norm": 0.0,
      "learning_rate": 0.0002448,
      "loss": 5.7098,
      "step": 3819
    },
    {
      "epoch": 6.112,
      "grad_norm": 0.0,
      "learning_rate": 0.0002446,
      "loss": 7.3,
      "step": 3820
    },
    {
      "epoch": 6.1136,
      "grad_norm": 0.0,
      "learning_rate": 0.0002444,
      "loss": 6.8998,
      "step": 3821
    },
    {
      "epoch": 6.1152,
      "grad_norm": 0.0,
      "learning_rate": 0.00024419999999999997,
      "loss": 5.5671,
      "step": 3822
    },
    {
      "epoch": 6.1168,
      "grad_norm": 0.0,
      "learning_rate": 0.000244,
      "loss": 5.0307,
      "step": 3823
    },
    {
      "epoch": 6.1184,
      "grad_norm": 0.0,
      "learning_rate": 0.00024379999999999996,
      "loss": 4.9341,
      "step": 3824
    },
    {
      "epoch": 6.12,
      "grad_norm": 0.0,
      "learning_rate": 0.00024359999999999999,
      "loss": 5.5168,
      "step": 3825
    },
    {
      "epoch": 6.1216,
      "grad_norm": 0.0,
      "learning_rate": 0.00024339999999999998,
      "loss": 6.2582,
      "step": 3826
    },
    {
      "epoch": 6.1232,
      "grad_norm": 0.0,
      "learning_rate": 0.00024319999999999998,
      "loss": 5.3042,
      "step": 3827
    },
    {
      "epoch": 6.1248,
      "grad_norm": 0.0,
      "learning_rate": 0.000243,
      "loss": 4.689,
      "step": 3828
    },
    {
      "epoch": 6.1264,
      "grad_norm": 0.0,
      "learning_rate": 0.0002428,
      "loss": 5.6967,
      "step": 3829
    },
    {
      "epoch": 6.128,
      "grad_norm": 0.0,
      "learning_rate": 0.00024259999999999996,
      "loss": 5.9225,
      "step": 3830
    },
    {
      "epoch": 6.1296,
      "grad_norm": 0.0,
      "learning_rate": 0.00024239999999999998,
      "loss": 5.503,
      "step": 3831
    },
    {
      "epoch": 6.1312,
      "grad_norm": 0.0,
      "learning_rate": 0.00024219999999999998,
      "loss": 3.8699,
      "step": 3832
    },
    {
      "epoch": 6.1328,
      "grad_norm": 0.0,
      "learning_rate": 0.00024199999999999997,
      "loss": 6.7203,
      "step": 3833
    },
    {
      "epoch": 6.1344,
      "grad_norm": 0.0,
      "learning_rate": 0.0002418,
      "loss": 4.5486,
      "step": 3834
    },
    {
      "epoch": 6.136,
      "grad_norm": 0.0,
      "learning_rate": 0.0002416,
      "loss": 5.3035,
      "step": 3835
    },
    {
      "epoch": 6.1376,
      "grad_norm": 0.0,
      "learning_rate": 0.00024139999999999996,
      "loss": 6.0709,
      "step": 3836
    },
    {
      "epoch": 6.1392,
      "grad_norm": 0.0,
      "learning_rate": 0.00024119999999999998,
      "loss": 5.2587,
      "step": 3837
    },
    {
      "epoch": 6.1408,
      "grad_norm": 0.0,
      "learning_rate": 0.00024099999999999998,
      "loss": 4.4856,
      "step": 3838
    },
    {
      "epoch": 6.1424,
      "grad_norm": 0.0,
      "learning_rate": 0.00024079999999999997,
      "loss": 6.3636,
      "step": 3839
    },
    {
      "epoch": 6.144,
      "grad_norm": 0.0,
      "learning_rate": 0.0002406,
      "loss": 4.715,
      "step": 3840
    },
    {
      "epoch": 6.1456,
      "grad_norm": 0.0,
      "learning_rate": 0.0002404,
      "loss": 5.179,
      "step": 3841
    },
    {
      "epoch": 6.1472,
      "grad_norm": 0.0,
      "learning_rate": 0.00024019999999999996,
      "loss": 5.3661,
      "step": 3842
    },
    {
      "epoch": 6.1488,
      "grad_norm": 0.0,
      "learning_rate": 0.00023999999999999998,
      "loss": 4.3894,
      "step": 3843
    },
    {
      "epoch": 6.1504,
      "grad_norm": 0.0,
      "learning_rate": 0.00023979999999999997,
      "loss": 6.9619,
      "step": 3844
    },
    {
      "epoch": 6.152,
      "grad_norm": 0.0,
      "learning_rate": 0.00023959999999999997,
      "loss": 5.6009,
      "step": 3845
    },
    {
      "epoch": 6.1536,
      "grad_norm": 0.0,
      "learning_rate": 0.0002394,
      "loss": 5.4545,
      "step": 3846
    },
    {
      "epoch": 6.1552,
      "grad_norm": 0.0,
      "learning_rate": 0.0002392,
      "loss": 6.2692,
      "step": 3847
    },
    {
      "epoch": 6.1568,
      "grad_norm": 0.0,
      "learning_rate": 0.00023899999999999998,
      "loss": 6.455,
      "step": 3848
    },
    {
      "epoch": 6.1584,
      "grad_norm": 0.0,
      "learning_rate": 0.0002388,
      "loss": 4.4629,
      "step": 3849
    },
    {
      "epoch": 6.16,
      "grad_norm": 0.0,
      "learning_rate": 0.00023859999999999997,
      "loss": 5.9264,
      "step": 3850
    },
    {
      "epoch": 6.1616,
      "grad_norm": 0.0,
      "learning_rate": 0.00023839999999999997,
      "loss": 8.888,
      "step": 3851
    },
    {
      "epoch": 6.1632,
      "grad_norm": 0.0,
      "learning_rate": 0.0002382,
      "loss": 7.2334,
      "step": 3852
    },
    {
      "epoch": 6.1648,
      "grad_norm": 0.0,
      "learning_rate": 0.00023799999999999998,
      "loss": 8.2169,
      "step": 3853
    },
    {
      "epoch": 6.1664,
      "grad_norm": 0.0,
      "learning_rate": 0.00023779999999999998,
      "loss": 6.3764,
      "step": 3854
    },
    {
      "epoch": 6.168,
      "grad_norm": 0.0,
      "learning_rate": 0.0002376,
      "loss": 6.8972,
      "step": 3855
    },
    {
      "epoch": 6.1696,
      "grad_norm": 0.0,
      "learning_rate": 0.00023739999999999997,
      "loss": 5.7974,
      "step": 3856
    },
    {
      "epoch": 6.1712,
      "grad_norm": 0.0,
      "learning_rate": 0.00023719999999999997,
      "loss": 5.8833,
      "step": 3857
    },
    {
      "epoch": 6.1728,
      "grad_norm": 0.0,
      "learning_rate": 0.000237,
      "loss": 5.781,
      "step": 3858
    },
    {
      "epoch": 6.1744,
      "grad_norm": 0.0,
      "learning_rate": 0.00023679999999999998,
      "loss": 5.2432,
      "step": 3859
    },
    {
      "epoch": 6.176,
      "grad_norm": 0.0,
      "learning_rate": 0.00023659999999999998,
      "loss": 5.9126,
      "step": 3860
    },
    {
      "epoch": 6.1776,
      "grad_norm": 0.0,
      "learning_rate": 0.0002364,
      "loss": 5.7147,
      "step": 3861
    },
    {
      "epoch": 6.1792,
      "grad_norm": 0.0,
      "learning_rate": 0.00023619999999999997,
      "loss": 10.5996,
      "step": 3862
    },
    {
      "epoch": 6.1808,
      "grad_norm": 0.0,
      "learning_rate": 0.00023599999999999996,
      "loss": 7.0736,
      "step": 3863
    },
    {
      "epoch": 6.1824,
      "grad_norm": 0.0,
      "learning_rate": 0.00023579999999999999,
      "loss": 6.2343,
      "step": 3864
    },
    {
      "epoch": 6.184,
      "grad_norm": 0.0,
      "learning_rate": 0.00023559999999999998,
      "loss": 6.0624,
      "step": 3865
    },
    {
      "epoch": 6.1856,
      "grad_norm": 0.0,
      "learning_rate": 0.00023539999999999998,
      "loss": 6.0613,
      "step": 3866
    },
    {
      "epoch": 6.1872,
      "grad_norm": 0.0,
      "learning_rate": 0.0002352,
      "loss": 5.388,
      "step": 3867
    },
    {
      "epoch": 6.1888,
      "grad_norm": 0.0,
      "learning_rate": 0.00023499999999999997,
      "loss": 5.8486,
      "step": 3868
    },
    {
      "epoch": 6.1904,
      "grad_norm": 0.0,
      "learning_rate": 0.00023479999999999996,
      "loss": 4.9837,
      "step": 3869
    },
    {
      "epoch": 6.192,
      "grad_norm": 0.0,
      "learning_rate": 0.00023459999999999998,
      "loss": 5.7935,
      "step": 3870
    },
    {
      "epoch": 6.1936,
      "grad_norm": 0.0,
      "learning_rate": 0.00023439999999999998,
      "loss": 5.2261,
      "step": 3871
    },
    {
      "epoch": 6.1952,
      "grad_norm": 0.0,
      "learning_rate": 0.00023419999999999997,
      "loss": 6.4889,
      "step": 3872
    },
    {
      "epoch": 6.1968,
      "grad_norm": 0.0,
      "learning_rate": 0.000234,
      "loss": 5.166,
      "step": 3873
    },
    {
      "epoch": 6.1984,
      "grad_norm": 0.0,
      "learning_rate": 0.00023379999999999996,
      "loss": 4.3852,
      "step": 3874
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.0,
      "learning_rate": 0.00023359999999999996,
      "loss": 4.5725,
      "step": 3875
    },
    {
      "epoch": 6.2016,
      "grad_norm": 0.0,
      "learning_rate": 0.00023339999999999998,
      "loss": 6.1091,
      "step": 3876
    },
    {
      "epoch": 6.2032,
      "grad_norm": 0.0,
      "learning_rate": 0.00023319999999999998,
      "loss": 5.7987,
      "step": 3877
    },
    {
      "epoch": 6.2048,
      "grad_norm": 0.0,
      "learning_rate": 0.00023299999999999997,
      "loss": 7.822,
      "step": 3878
    },
    {
      "epoch": 6.2064,
      "grad_norm": 0.0,
      "learning_rate": 0.0002328,
      "loss": 4.9151,
      "step": 3879
    },
    {
      "epoch": 6.208,
      "grad_norm": 0.0,
      "learning_rate": 0.00023259999999999996,
      "loss": 6.7336,
      "step": 3880
    },
    {
      "epoch": 6.2096,
      "grad_norm": 0.0,
      "learning_rate": 0.00023239999999999996,
      "loss": 5.2923,
      "step": 3881
    },
    {
      "epoch": 6.2112,
      "grad_norm": 0.0,
      "learning_rate": 0.00023219999999999998,
      "loss": 5.8514,
      "step": 3882
    },
    {
      "epoch": 6.2128,
      "grad_norm": 0.0,
      "learning_rate": 0.00023199999999999997,
      "loss": 5.226,
      "step": 3883
    },
    {
      "epoch": 6.2144,
      "grad_norm": 0.0,
      "learning_rate": 0.00023179999999999997,
      "loss": 4.2487,
      "step": 3884
    },
    {
      "epoch": 6.216,
      "grad_norm": 0.0,
      "learning_rate": 0.0002316,
      "loss": 4.7346,
      "step": 3885
    },
    {
      "epoch": 6.2176,
      "grad_norm": 0.0,
      "learning_rate": 0.0002314,
      "loss": 6.2053,
      "step": 3886
    },
    {
      "epoch": 6.2192,
      "grad_norm": 0.0,
      "learning_rate": 0.0002312,
      "loss": 6.8738,
      "step": 3887
    },
    {
      "epoch": 6.2208,
      "grad_norm": 0.0,
      "learning_rate": 0.00023099999999999998,
      "loss": 5.0234,
      "step": 3888
    },
    {
      "epoch": 6.2224,
      "grad_norm": 0.0,
      "learning_rate": 0.00023079999999999997,
      "loss": 5.9592,
      "step": 3889
    },
    {
      "epoch": 6.224,
      "grad_norm": 0.0,
      "learning_rate": 0.0002306,
      "loss": 5.0649,
      "step": 3890
    },
    {
      "epoch": 6.2256,
      "grad_norm": 0.0,
      "learning_rate": 0.0002304,
      "loss": 4.5155,
      "step": 3891
    },
    {
      "epoch": 6.2272,
      "grad_norm": 0.0,
      "learning_rate": 0.00023019999999999998,
      "loss": 4.475,
      "step": 3892
    },
    {
      "epoch": 6.2288,
      "grad_norm": 0.0,
      "learning_rate": 0.00023,
      "loss": 5.257,
      "step": 3893
    },
    {
      "epoch": 6.2304,
      "grad_norm": 0.0,
      "learning_rate": 0.00022979999999999997,
      "loss": 6.7025,
      "step": 3894
    },
    {
      "epoch": 6.232,
      "grad_norm": 0.0,
      "learning_rate": 0.00022959999999999997,
      "loss": 4.8638,
      "step": 3895
    },
    {
      "epoch": 6.2336,
      "grad_norm": 0.0,
      "learning_rate": 0.0002294,
      "loss": 6.1504,
      "step": 3896
    },
    {
      "epoch": 6.2352,
      "grad_norm": 0.0,
      "learning_rate": 0.0002292,
      "loss": 6.4339,
      "step": 3897
    },
    {
      "epoch": 6.2368,
      "grad_norm": 0.0,
      "learning_rate": 0.00022899999999999998,
      "loss": 5.8082,
      "step": 3898
    },
    {
      "epoch": 6.2384,
      "grad_norm": 0.0,
      "learning_rate": 0.0002288,
      "loss": 4.2343,
      "step": 3899
    },
    {
      "epoch": 6.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002288,
      "loss": 4.4807,
      "step": 3900
    },
    {
      "epoch": 6.2416,
      "grad_norm": 0.0,
      "learning_rate": 0.00022859999999999997,
      "loss": 10.1381,
      "step": 3901
    },
    {
      "epoch": 6.2432,
      "grad_norm": 0.0,
      "learning_rate": 0.00022839999999999997,
      "loss": 7.7384,
      "step": 3902
    },
    {
      "epoch": 6.2448,
      "grad_norm": 0.0,
      "learning_rate": 0.0002282,
      "loss": 7.6657,
      "step": 3903
    },
    {
      "epoch": 6.2464,
      "grad_norm": 0.0,
      "learning_rate": 0.00022799999999999999,
      "loss": 6.9036,
      "step": 3904
    },
    {
      "epoch": 6.248,
      "grad_norm": 0.0,
      "learning_rate": 0.00022779999999999998,
      "loss": 6.1985,
      "step": 3905
    },
    {
      "epoch": 6.2496,
      "grad_norm": 0.0,
      "learning_rate": 0.0002276,
      "loss": 5.9983,
      "step": 3906
    },
    {
      "epoch": 6.2512,
      "grad_norm": 0.0,
      "learning_rate": 0.00022739999999999997,
      "loss": 6.286,
      "step": 3907
    },
    {
      "epoch": 6.2528,
      "grad_norm": 0.0,
      "learning_rate": 0.00022719999999999997,
      "loss": 5.6263,
      "step": 3908
    },
    {
      "epoch": 6.2544,
      "grad_norm": 0.0,
      "learning_rate": 0.000227,
      "loss": 7.0504,
      "step": 3909
    },
    {
      "epoch": 6.256,
      "grad_norm": 0.0,
      "learning_rate": 0.00022679999999999998,
      "loss": 6.7953,
      "step": 3910
    },
    {
      "epoch": 6.2576,
      "grad_norm": 0.0,
      "learning_rate": 0.00022659999999999998,
      "loss": 5.4169,
      "step": 3911
    },
    {
      "epoch": 6.2592,
      "grad_norm": 0.0,
      "learning_rate": 0.0002264,
      "loss": 6.4364,
      "step": 3912
    },
    {
      "epoch": 6.2608,
      "grad_norm": 0.0,
      "learning_rate": 0.00022619999999999997,
      "loss": 7.2482,
      "step": 3913
    },
    {
      "epoch": 6.2624,
      "grad_norm": 0.0,
      "learning_rate": 0.00022599999999999996,
      "loss": 4.7631,
      "step": 3914
    },
    {
      "epoch": 6.264,
      "grad_norm": 0.0,
      "learning_rate": 0.00022579999999999999,
      "loss": 5.5082,
      "step": 3915
    },
    {
      "epoch": 6.2656,
      "grad_norm": 0.0,
      "learning_rate": 0.00022559999999999998,
      "loss": 5.6763,
      "step": 3916
    },
    {
      "epoch": 6.2672,
      "grad_norm": 0.0,
      "learning_rate": 0.00022539999999999998,
      "loss": 5.0926,
      "step": 3917
    },
    {
      "epoch": 6.2688,
      "grad_norm": 0.0,
      "learning_rate": 0.0002252,
      "loss": 6.2179,
      "step": 3918
    },
    {
      "epoch": 6.2704,
      "grad_norm": 0.0,
      "learning_rate": 0.000225,
      "loss": 5.484,
      "step": 3919
    },
    {
      "epoch": 6.272,
      "grad_norm": 0.0,
      "learning_rate": 0.00022479999999999996,
      "loss": 5.6124,
      "step": 3920
    },
    {
      "epoch": 6.2736,
      "grad_norm": 0.0,
      "learning_rate": 0.00022459999999999998,
      "loss": 6.1253,
      "step": 3921
    },
    {
      "epoch": 6.2752,
      "grad_norm": 0.0,
      "learning_rate": 0.00022439999999999998,
      "loss": 5.8437,
      "step": 3922
    },
    {
      "epoch": 6.2768,
      "grad_norm": 0.0,
      "learning_rate": 0.00022419999999999997,
      "loss": 6.4418,
      "step": 3923
    },
    {
      "epoch": 6.2783999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.000224,
      "loss": 6.9793,
      "step": 3924
    },
    {
      "epoch": 6.28,
      "grad_norm": 0.0,
      "learning_rate": 0.0002238,
      "loss": 6.736,
      "step": 3925
    },
    {
      "epoch": 6.2816,
      "grad_norm": 0.0,
      "learning_rate": 0.00022359999999999996,
      "loss": 8.1995,
      "step": 3926
    },
    {
      "epoch": 6.2832,
      "grad_norm": 0.0,
      "learning_rate": 0.00022339999999999998,
      "loss": 5.2651,
      "step": 3927
    },
    {
      "epoch": 6.2848,
      "grad_norm": 0.0,
      "learning_rate": 0.00022319999999999998,
      "loss": 4.5386,
      "step": 3928
    },
    {
      "epoch": 6.2864,
      "grad_norm": 0.0,
      "learning_rate": 0.00022299999999999997,
      "loss": 5.3976,
      "step": 3929
    },
    {
      "epoch": 6.288,
      "grad_norm": 0.0,
      "learning_rate": 0.0002228,
      "loss": 7.3623,
      "step": 3930
    },
    {
      "epoch": 6.2896,
      "grad_norm": 0.0,
      "learning_rate": 0.0002226,
      "loss": 5.0797,
      "step": 3931
    },
    {
      "epoch": 6.2912,
      "grad_norm": 0.0,
      "learning_rate": 0.00022239999999999996,
      "loss": 5.7404,
      "step": 3932
    },
    {
      "epoch": 6.2928,
      "grad_norm": 0.0,
      "learning_rate": 0.00022219999999999998,
      "loss": 5.8032,
      "step": 3933
    },
    {
      "epoch": 6.2943999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.00022199999999999998,
      "loss": 6.7893,
      "step": 3934
    },
    {
      "epoch": 6.296,
      "grad_norm": 0.0,
      "learning_rate": 0.00022179999999999997,
      "loss": 5.3799,
      "step": 3935
    },
    {
      "epoch": 6.2976,
      "grad_norm": 0.0,
      "learning_rate": 0.0002216,
      "loss": 4.5106,
      "step": 3936
    },
    {
      "epoch": 6.2992,
      "grad_norm": 0.0,
      "learning_rate": 0.0002214,
      "loss": 5.7517,
      "step": 3937
    },
    {
      "epoch": 6.3008,
      "grad_norm": 0.0,
      "learning_rate": 0.00022119999999999996,
      "loss": 5.4802,
      "step": 3938
    },
    {
      "epoch": 6.3024000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.00022099999999999998,
      "loss": 4.6119,
      "step": 3939
    },
    {
      "epoch": 6.304,
      "grad_norm": 0.0,
      "learning_rate": 0.00022079999999999997,
      "loss": 4.9958,
      "step": 3940
    },
    {
      "epoch": 6.3056,
      "grad_norm": 0.0,
      "learning_rate": 0.00022059999999999997,
      "loss": 3.9698,
      "step": 3941
    },
    {
      "epoch": 6.3072,
      "grad_norm": 0.0,
      "learning_rate": 0.0002204,
      "loss": 7.3422,
      "step": 3942
    },
    {
      "epoch": 6.3088,
      "grad_norm": 0.0,
      "learning_rate": 0.00022019999999999999,
      "loss": 5.0724,
      "step": 3943
    },
    {
      "epoch": 6.3104,
      "grad_norm": 0.0,
      "learning_rate": 0.00021999999999999995,
      "loss": 5.3685,
      "step": 3944
    },
    {
      "epoch": 6.312,
      "grad_norm": 0.0,
      "learning_rate": 0.00021979999999999998,
      "loss": 3.855,
      "step": 3945
    },
    {
      "epoch": 6.3136,
      "grad_norm": 0.0,
      "learning_rate": 0.00021959999999999997,
      "loss": 5.6462,
      "step": 3946
    },
    {
      "epoch": 6.3152,
      "grad_norm": 0.0,
      "learning_rate": 0.00021939999999999997,
      "loss": 5.5764,
      "step": 3947
    },
    {
      "epoch": 6.3168,
      "grad_norm": 0.0,
      "learning_rate": 0.0002192,
      "loss": 4.6013,
      "step": 3948
    },
    {
      "epoch": 6.3184000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00021899999999999998,
      "loss": 5.538,
      "step": 3949
    },
    {
      "epoch": 6.32,
      "grad_norm": 0.0,
      "learning_rate": 0.00021879999999999995,
      "loss": 5.0623,
      "step": 3950
    },
    {
      "epoch": 6.3216,
      "grad_norm": 0.0,
      "learning_rate": 0.00021859999999999997,
      "loss": 7.6811,
      "step": 3951
    },
    {
      "epoch": 6.3232,
      "grad_norm": 0.0,
      "learning_rate": 0.00021839999999999997,
      "loss": 7.0391,
      "step": 3952
    },
    {
      "epoch": 6.3248,
      "grad_norm": 0.0,
      "learning_rate": 0.0002182,
      "loss": 8.1816,
      "step": 3953
    },
    {
      "epoch": 6.3264,
      "grad_norm": 0.0,
      "learning_rate": 0.00021799999999999999,
      "loss": 6.2525,
      "step": 3954
    },
    {
      "epoch": 6.328,
      "grad_norm": 0.0,
      "learning_rate": 0.00021779999999999998,
      "loss": 8.074,
      "step": 3955
    },
    {
      "epoch": 6.3296,
      "grad_norm": 0.0,
      "learning_rate": 0.0002176,
      "loss": 7.0054,
      "step": 3956
    },
    {
      "epoch": 6.3312,
      "grad_norm": 0.0,
      "learning_rate": 0.0002174,
      "loss": 7.4138,
      "step": 3957
    },
    {
      "epoch": 6.3328,
      "grad_norm": 0.0,
      "learning_rate": 0.00021719999999999997,
      "loss": 6.3797,
      "step": 3958
    },
    {
      "epoch": 6.3344,
      "grad_norm": 0.0,
      "learning_rate": 0.000217,
      "loss": 6.5496,
      "step": 3959
    },
    {
      "epoch": 6.336,
      "grad_norm": 0.0,
      "learning_rate": 0.00021679999999999998,
      "loss": 5.8361,
      "step": 3960
    },
    {
      "epoch": 6.3376,
      "grad_norm": 0.0,
      "learning_rate": 0.00021659999999999998,
      "loss": 7.2696,
      "step": 3961
    },
    {
      "epoch": 6.3392,
      "grad_norm": 0.0,
      "learning_rate": 0.0002164,
      "loss": 5.327,
      "step": 3962
    },
    {
      "epoch": 6.3408,
      "grad_norm": 0.0,
      "learning_rate": 0.0002162,
      "loss": 6.8369,
      "step": 3963
    },
    {
      "epoch": 6.3424,
      "grad_norm": 0.0,
      "learning_rate": 0.00021599999999999996,
      "loss": 6.5091,
      "step": 3964
    },
    {
      "epoch": 6.344,
      "grad_norm": 0.0,
      "learning_rate": 0.0002158,
      "loss": 5.7159,
      "step": 3965
    },
    {
      "epoch": 6.3456,
      "grad_norm": 0.0,
      "learning_rate": 0.00021559999999999998,
      "loss": 4.9117,
      "step": 3966
    },
    {
      "epoch": 6.3472,
      "grad_norm": 0.0,
      "learning_rate": 0.00021539999999999998,
      "loss": 4.9668,
      "step": 3967
    },
    {
      "epoch": 6.3488,
      "grad_norm": 0.0,
      "learning_rate": 0.0002152,
      "loss": 4.935,
      "step": 3968
    },
    {
      "epoch": 6.3504,
      "grad_norm": 0.0,
      "learning_rate": 0.000215,
      "loss": 6.7429,
      "step": 3969
    },
    {
      "epoch": 6.352,
      "grad_norm": 0.0,
      "learning_rate": 0.00021479999999999996,
      "loss": 5.4014,
      "step": 3970
    },
    {
      "epoch": 6.3536,
      "grad_norm": 0.0,
      "learning_rate": 0.00021459999999999998,
      "loss": 5.4004,
      "step": 3971
    },
    {
      "epoch": 6.3552,
      "grad_norm": 0.0,
      "learning_rate": 0.00021439999999999998,
      "loss": 7.0612,
      "step": 3972
    },
    {
      "epoch": 6.3568,
      "grad_norm": 0.0,
      "learning_rate": 0.00021419999999999998,
      "loss": 5.5819,
      "step": 3973
    },
    {
      "epoch": 6.3584,
      "grad_norm": 0.0,
      "learning_rate": 0.000214,
      "loss": 6.9518,
      "step": 3974
    },
    {
      "epoch": 6.36,
      "grad_norm": 0.0,
      "learning_rate": 0.0002138,
      "loss": 6.2981,
      "step": 3975
    },
    {
      "epoch": 6.3616,
      "grad_norm": 0.0,
      "learning_rate": 0.00021359999999999996,
      "loss": 5.4611,
      "step": 3976
    },
    {
      "epoch": 6.3632,
      "grad_norm": 0.0,
      "learning_rate": 0.00021339999999999998,
      "loss": 4.2251,
      "step": 3977
    },
    {
      "epoch": 6.3648,
      "grad_norm": 0.0,
      "learning_rate": 0.00021319999999999998,
      "loss": 4.1801,
      "step": 3978
    },
    {
      "epoch": 6.3664,
      "grad_norm": 0.0,
      "learning_rate": 0.00021299999999999997,
      "loss": 5.8451,
      "step": 3979
    },
    {
      "epoch": 6.368,
      "grad_norm": 0.0,
      "learning_rate": 0.0002128,
      "loss": 4.215,
      "step": 3980
    },
    {
      "epoch": 6.3696,
      "grad_norm": 0.0,
      "learning_rate": 0.0002126,
      "loss": 5.4232,
      "step": 3981
    },
    {
      "epoch": 6.3712,
      "grad_norm": 0.0,
      "learning_rate": 0.00021239999999999996,
      "loss": 4.472,
      "step": 3982
    },
    {
      "epoch": 6.3728,
      "grad_norm": 0.0,
      "learning_rate": 0.00021219999999999998,
      "loss": 4.2589,
      "step": 3983
    },
    {
      "epoch": 6.3744,
      "grad_norm": 0.0,
      "learning_rate": 0.00021199999999999998,
      "loss": 6.2165,
      "step": 3984
    },
    {
      "epoch": 6.376,
      "grad_norm": 0.0,
      "learning_rate": 0.00021179999999999997,
      "loss": 7.2336,
      "step": 3985
    },
    {
      "epoch": 6.3776,
      "grad_norm": 0.0,
      "learning_rate": 0.0002116,
      "loss": 4.8142,
      "step": 3986
    },
    {
      "epoch": 6.3792,
      "grad_norm": 0.0,
      "learning_rate": 0.0002114,
      "loss": 4.3796,
      "step": 3987
    },
    {
      "epoch": 6.3808,
      "grad_norm": 0.0,
      "learning_rate": 0.00021119999999999996,
      "loss": 5.3237,
      "step": 3988
    },
    {
      "epoch": 6.3824,
      "grad_norm": 0.0,
      "learning_rate": 0.00021099999999999998,
      "loss": 7.0998,
      "step": 3989
    },
    {
      "epoch": 6.384,
      "grad_norm": 0.0,
      "learning_rate": 0.00021079999999999997,
      "loss": 10.7843,
      "step": 3990
    },
    {
      "epoch": 6.3856,
      "grad_norm": 0.0,
      "learning_rate": 0.00021059999999999997,
      "loss": 4.2981,
      "step": 3991
    },
    {
      "epoch": 6.3872,
      "grad_norm": 0.0,
      "learning_rate": 0.0002104,
      "loss": 5.1016,
      "step": 3992
    },
    {
      "epoch": 6.3888,
      "grad_norm": 0.0,
      "learning_rate": 0.0002102,
      "loss": 4.9774,
      "step": 3993
    },
    {
      "epoch": 6.3904,
      "grad_norm": 0.0,
      "learning_rate": 0.00020999999999999998,
      "loss": 5.4372,
      "step": 3994
    },
    {
      "epoch": 6.392,
      "grad_norm": 0.0,
      "learning_rate": 0.0002098,
      "loss": 5.6382,
      "step": 3995
    },
    {
      "epoch": 6.3936,
      "grad_norm": 0.0,
      "learning_rate": 0.00020959999999999997,
      "loss": 4.3206,
      "step": 3996
    },
    {
      "epoch": 6.3952,
      "grad_norm": 0.0,
      "learning_rate": 0.00020939999999999997,
      "loss": 6.4536,
      "step": 3997
    },
    {
      "epoch": 6.3968,
      "grad_norm": 0.0,
      "learning_rate": 0.0002092,
      "loss": 6.5461,
      "step": 3998
    },
    {
      "epoch": 6.3984,
      "grad_norm": 0.0,
      "learning_rate": 0.00020899999999999998,
      "loss": 4.1852,
      "step": 3999
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.0,
      "learning_rate": 0.00020879999999999998,
      "loss": 5.0393,
      "step": 4000
    },
    {
      "epoch": 6.4016,
      "grad_norm": 0.0,
      "learning_rate": 0.0002086,
      "loss": 8.1948,
      "step": 4001
    },
    {
      "epoch": 6.4032,
      "grad_norm": 0.0,
      "learning_rate": 0.00020839999999999997,
      "loss": 8.0447,
      "step": 4002
    },
    {
      "epoch": 6.4048,
      "grad_norm": 0.0,
      "learning_rate": 0.00020819999999999996,
      "loss": 6.3871,
      "step": 4003
    },
    {
      "epoch": 6.4064,
      "grad_norm": 0.0,
      "learning_rate": 0.000208,
      "loss": 7.2012,
      "step": 4004
    },
    {
      "epoch": 6.408,
      "grad_norm": 0.0,
      "learning_rate": 0.00020779999999999998,
      "loss": 5.7612,
      "step": 4005
    },
    {
      "epoch": 6.4096,
      "grad_norm": 0.0,
      "learning_rate": 0.00020759999999999998,
      "loss": 6.3648,
      "step": 4006
    },
    {
      "epoch": 6.4112,
      "grad_norm": 0.0,
      "learning_rate": 0.0002074,
      "loss": 6.5219,
      "step": 4007
    },
    {
      "epoch": 6.4128,
      "grad_norm": 0.0,
      "learning_rate": 0.00020719999999999997,
      "loss": 5.8563,
      "step": 4008
    },
    {
      "epoch": 6.4144,
      "grad_norm": 0.0,
      "learning_rate": 0.00020699999999999996,
      "loss": 6.4152,
      "step": 4009
    },
    {
      "epoch": 6.416,
      "grad_norm": 0.0,
      "learning_rate": 0.00020679999999999999,
      "loss": 5.8432,
      "step": 4010
    },
    {
      "epoch": 6.4176,
      "grad_norm": 0.0,
      "learning_rate": 0.00020659999999999998,
      "loss": 5.7853,
      "step": 4011
    },
    {
      "epoch": 6.4192,
      "grad_norm": 0.0,
      "learning_rate": 0.00020639999999999998,
      "loss": 5.6198,
      "step": 4012
    },
    {
      "epoch": 6.4208,
      "grad_norm": 0.0,
      "learning_rate": 0.0002062,
      "loss": 5.1304,
      "step": 4013
    },
    {
      "epoch": 6.4224,
      "grad_norm": 0.0,
      "learning_rate": 0.00020599999999999997,
      "loss": 7.2229,
      "step": 4014
    },
    {
      "epoch": 6.424,
      "grad_norm": 0.0,
      "learning_rate": 0.0002058,
      "loss": 5.5285,
      "step": 4015
    },
    {
      "epoch": 6.4256,
      "grad_norm": 0.0,
      "learning_rate": 0.00020559999999999998,
      "loss": 5.1019,
      "step": 4016
    },
    {
      "epoch": 6.4272,
      "grad_norm": 0.0,
      "learning_rate": 0.00020539999999999998,
      "loss": 5.5576,
      "step": 4017
    },
    {
      "epoch": 6.4288,
      "grad_norm": 0.0,
      "learning_rate": 0.0002052,
      "loss": 6.8628,
      "step": 4018
    },
    {
      "epoch": 6.4304,
      "grad_norm": 0.0,
      "learning_rate": 0.000205,
      "loss": 6.0875,
      "step": 4019
    },
    {
      "epoch": 6.432,
      "grad_norm": 0.0,
      "learning_rate": 0.00020479999999999996,
      "loss": 5.3733,
      "step": 4020
    },
    {
      "epoch": 6.4336,
      "grad_norm": 0.0,
      "learning_rate": 0.00020459999999999999,
      "loss": 8.7083,
      "step": 4021
    },
    {
      "epoch": 6.4352,
      "grad_norm": 0.0,
      "learning_rate": 0.00020439999999999998,
      "loss": 5.2477,
      "step": 4022
    },
    {
      "epoch": 6.4368,
      "grad_norm": 0.0,
      "learning_rate": 0.00020419999999999998,
      "loss": 6.3021,
      "step": 4023
    },
    {
      "epoch": 6.4384,
      "grad_norm": 0.0,
      "learning_rate": 0.000204,
      "loss": 5.0333,
      "step": 4024
    },
    {
      "epoch": 6.44,
      "grad_norm": 0.0,
      "learning_rate": 0.0002038,
      "loss": 5.3617,
      "step": 4025
    },
    {
      "epoch": 6.4416,
      "grad_norm": 0.0,
      "learning_rate": 0.00020359999999999996,
      "loss": 4.8622,
      "step": 4026
    },
    {
      "epoch": 6.4432,
      "grad_norm": 0.0,
      "learning_rate": 0.00020339999999999998,
      "loss": 3.9343,
      "step": 4027
    },
    {
      "epoch": 6.4448,
      "grad_norm": 0.0,
      "learning_rate": 0.00020319999999999998,
      "loss": 5.0388,
      "step": 4028
    },
    {
      "epoch": 6.4464,
      "grad_norm": 0.0,
      "learning_rate": 0.00020299999999999997,
      "loss": 5.4971,
      "step": 4029
    },
    {
      "epoch": 6.448,
      "grad_norm": 0.0,
      "learning_rate": 0.0002028,
      "loss": 7.1424,
      "step": 4030
    },
    {
      "epoch": 6.4496,
      "grad_norm": 0.0,
      "learning_rate": 0.0002026,
      "loss": 4.6645,
      "step": 4031
    },
    {
      "epoch": 6.4512,
      "grad_norm": 0.0,
      "learning_rate": 0.0002024,
      "loss": 5.356,
      "step": 4032
    },
    {
      "epoch": 6.4528,
      "grad_norm": 0.0,
      "learning_rate": 0.0002022,
      "loss": 5.2623,
      "step": 4033
    },
    {
      "epoch": 6.4544,
      "grad_norm": 0.0,
      "learning_rate": 0.00020199999999999998,
      "loss": 5.3529,
      "step": 4034
    },
    {
      "epoch": 6.456,
      "grad_norm": 0.0,
      "learning_rate": 0.00020179999999999997,
      "loss": 5.9766,
      "step": 4035
    },
    {
      "epoch": 6.4576,
      "grad_norm": 0.0,
      "learning_rate": 0.0002016,
      "loss": 5.8505,
      "step": 4036
    },
    {
      "epoch": 6.4592,
      "grad_norm": 0.0,
      "learning_rate": 0.0002014,
      "loss": 4.9831,
      "step": 4037
    },
    {
      "epoch": 6.4608,
      "grad_norm": 0.0,
      "learning_rate": 0.00020119999999999998,
      "loss": 5.3228,
      "step": 4038
    },
    {
      "epoch": 6.4624,
      "grad_norm": 0.0,
      "learning_rate": 0.000201,
      "loss": 5.0874,
      "step": 4039
    },
    {
      "epoch": 6.464,
      "grad_norm": 0.0,
      "learning_rate": 0.00020079999999999997,
      "loss": 5.1374,
      "step": 4040
    },
    {
      "epoch": 6.4656,
      "grad_norm": 0.0,
      "learning_rate": 0.00020059999999999997,
      "loss": 5.4303,
      "step": 4041
    },
    {
      "epoch": 6.4672,
      "grad_norm": 0.0,
      "learning_rate": 0.0002004,
      "loss": 5.0008,
      "step": 4042
    },
    {
      "epoch": 6.4688,
      "grad_norm": 0.0,
      "learning_rate": 0.0002002,
      "loss": 4.9524,
      "step": 4043
    },
    {
      "epoch": 6.4704,
      "grad_norm": 0.0,
      "learning_rate": 0.00019999999999999998,
      "loss": 6.077,
      "step": 4044
    },
    {
      "epoch": 6.4719999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0001998,
      "loss": 4.5066,
      "step": 4045
    },
    {
      "epoch": 6.4736,
      "grad_norm": 0.0,
      "learning_rate": 0.00019959999999999997,
      "loss": 4.5129,
      "step": 4046
    },
    {
      "epoch": 6.4752,
      "grad_norm": 0.0,
      "learning_rate": 0.00019939999999999997,
      "loss": 5.7921,
      "step": 4047
    },
    {
      "epoch": 6.4768,
      "grad_norm": 0.0,
      "learning_rate": 0.0001992,
      "loss": 5.525,
      "step": 4048
    },
    {
      "epoch": 6.4784,
      "grad_norm": 0.0,
      "learning_rate": 0.00019899999999999999,
      "loss": 6.5494,
      "step": 4049
    },
    {
      "epoch": 6.48,
      "grad_norm": 0.0,
      "learning_rate": 0.00019879999999999998,
      "loss": 10.3255,
      "step": 4050
    },
    {
      "epoch": 6.4816,
      "grad_norm": 0.0,
      "learning_rate": 0.0001986,
      "loss": 9.0295,
      "step": 4051
    },
    {
      "epoch": 6.4832,
      "grad_norm": 0.0,
      "learning_rate": 0.00019839999999999997,
      "loss": 7.7972,
      "step": 4052
    },
    {
      "epoch": 6.4848,
      "grad_norm": 0.0,
      "learning_rate": 0.00019819999999999997,
      "loss": 5.952,
      "step": 4053
    },
    {
      "epoch": 6.4864,
      "grad_norm": 0.0,
      "learning_rate": 0.000198,
      "loss": 6.4036,
      "step": 4054
    },
    {
      "epoch": 6.4879999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00019779999999999998,
      "loss": 6.8318,
      "step": 4055
    },
    {
      "epoch": 6.4896,
      "grad_norm": 0.0,
      "learning_rate": 0.00019759999999999998,
      "loss": 9.6484,
      "step": 4056
    },
    {
      "epoch": 6.4912,
      "grad_norm": 0.0,
      "learning_rate": 0.0001974,
      "loss": 7.1129,
      "step": 4057
    },
    {
      "epoch": 6.4928,
      "grad_norm": 0.0,
      "learning_rate": 0.00019719999999999997,
      "loss": 6.464,
      "step": 4058
    },
    {
      "epoch": 6.4944,
      "grad_norm": 0.0,
      "learning_rate": 0.00019699999999999996,
      "loss": 5.1724,
      "step": 4059
    },
    {
      "epoch": 6.496,
      "grad_norm": 0.0,
      "learning_rate": 0.00019679999999999999,
      "loss": 4.8296,
      "step": 4060
    },
    {
      "epoch": 6.4976,
      "grad_norm": 0.0,
      "learning_rate": 0.00019659999999999998,
      "loss": 7.1017,
      "step": 4061
    },
    {
      "epoch": 6.4992,
      "grad_norm": 0.0,
      "learning_rate": 0.00019639999999999998,
      "loss": 5.4083,
      "step": 4062
    },
    {
      "epoch": 6.5008,
      "grad_norm": 0.0,
      "learning_rate": 0.0001962,
      "loss": 6.0432,
      "step": 4063
    },
    {
      "epoch": 6.5024,
      "grad_norm": 0.0,
      "learning_rate": 0.00019599999999999997,
      "loss": 4.9672,
      "step": 4064
    },
    {
      "epoch": 6.504,
      "grad_norm": 0.0,
      "learning_rate": 0.00019579999999999996,
      "loss": 5.8192,
      "step": 4065
    },
    {
      "epoch": 6.5056,
      "grad_norm": 0.0,
      "learning_rate": 0.00019559999999999998,
      "loss": 6.0436,
      "step": 4066
    },
    {
      "epoch": 6.5072,
      "grad_norm": 0.0,
      "learning_rate": 0.00019539999999999998,
      "loss": 6.5994,
      "step": 4067
    },
    {
      "epoch": 6.5088,
      "grad_norm": 0.0,
      "learning_rate": 0.00019519999999999997,
      "loss": 5.4782,
      "step": 4068
    },
    {
      "epoch": 6.5104,
      "grad_norm": 0.0,
      "learning_rate": 0.000195,
      "loss": 6.522,
      "step": 4069
    },
    {
      "epoch": 6.5120000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0001948,
      "loss": 4.8754,
      "step": 4070
    },
    {
      "epoch": 6.5136,
      "grad_norm": 0.0,
      "learning_rate": 0.00019459999999999996,
      "loss": 8.1075,
      "step": 4071
    },
    {
      "epoch": 6.5152,
      "grad_norm": 0.0,
      "learning_rate": 0.00019439999999999998,
      "loss": 5.2561,
      "step": 4072
    },
    {
      "epoch": 6.5168,
      "grad_norm": 0.0,
      "learning_rate": 0.00019419999999999998,
      "loss": 4.8187,
      "step": 4073
    },
    {
      "epoch": 6.5184,
      "grad_norm": 0.0,
      "learning_rate": 0.00019399999999999997,
      "loss": 5.0993,
      "step": 4074
    },
    {
      "epoch": 6.52,
      "grad_norm": 0.0,
      "learning_rate": 0.0001938,
      "loss": 4.854,
      "step": 4075
    },
    {
      "epoch": 6.5216,
      "grad_norm": 0.0,
      "learning_rate": 0.0001936,
      "loss": 4.5327,
      "step": 4076
    },
    {
      "epoch": 6.5232,
      "grad_norm": 0.0,
      "learning_rate": 0.0001934,
      "loss": 5.0608,
      "step": 4077
    },
    {
      "epoch": 6.5248,
      "grad_norm": 0.0,
      "learning_rate": 0.00019319999999999998,
      "loss": 5.0575,
      "step": 4078
    },
    {
      "epoch": 6.5264,
      "grad_norm": 0.0,
      "learning_rate": 0.00019299999999999997,
      "loss": 5.2626,
      "step": 4079
    },
    {
      "epoch": 6.5280000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.0001928,
      "loss": 5.4511,
      "step": 4080
    },
    {
      "epoch": 6.5296,
      "grad_norm": 0.0,
      "learning_rate": 0.0001926,
      "loss": 5.7777,
      "step": 4081
    },
    {
      "epoch": 6.5312,
      "grad_norm": 0.0,
      "learning_rate": 0.0001924,
      "loss": 6.0821,
      "step": 4082
    },
    {
      "epoch": 6.5328,
      "grad_norm": 0.0,
      "learning_rate": 0.0001922,
      "loss": 6.9274,
      "step": 4083
    },
    {
      "epoch": 6.5344,
      "grad_norm": 0.0,
      "learning_rate": 0.00019199999999999998,
      "loss": 5.6503,
      "step": 4084
    },
    {
      "epoch": 6.536,
      "grad_norm": 0.0,
      "learning_rate": 0.00019179999999999997,
      "loss": 4.2726,
      "step": 4085
    },
    {
      "epoch": 6.5376,
      "grad_norm": 0.0,
      "learning_rate": 0.0001916,
      "loss": 5.2065,
      "step": 4086
    },
    {
      "epoch": 6.5392,
      "grad_norm": 0.0,
      "learning_rate": 0.0001914,
      "loss": 5.9331,
      "step": 4087
    },
    {
      "epoch": 6.5408,
      "grad_norm": 0.0,
      "learning_rate": 0.00019119999999999999,
      "loss": 4.5911,
      "step": 4088
    },
    {
      "epoch": 6.5424,
      "grad_norm": 0.0,
      "learning_rate": 0.000191,
      "loss": 6.1543,
      "step": 4089
    },
    {
      "epoch": 6.5440000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00019079999999999998,
      "loss": 5.2918,
      "step": 4090
    },
    {
      "epoch": 6.5456,
      "grad_norm": 0.0,
      "learning_rate": 0.00019059999999999997,
      "loss": 5.9222,
      "step": 4091
    },
    {
      "epoch": 6.5472,
      "grad_norm": 0.0,
      "learning_rate": 0.0001904,
      "loss": 6.6886,
      "step": 4092
    },
    {
      "epoch": 6.5488,
      "grad_norm": 0.0,
      "learning_rate": 0.0001902,
      "loss": 5.3827,
      "step": 4093
    },
    {
      "epoch": 6.5504,
      "grad_norm": 0.0,
      "learning_rate": 0.00018999999999999998,
      "loss": 5.7445,
      "step": 4094
    },
    {
      "epoch": 6.552,
      "grad_norm": 0.0,
      "learning_rate": 0.0001898,
      "loss": 6.8291,
      "step": 4095
    },
    {
      "epoch": 6.5536,
      "grad_norm": 0.0,
      "learning_rate": 0.00018959999999999997,
      "loss": 5.0083,
      "step": 4096
    },
    {
      "epoch": 6.5552,
      "grad_norm": 0.0,
      "learning_rate": 0.00018939999999999997,
      "loss": 5.8043,
      "step": 4097
    },
    {
      "epoch": 6.5568,
      "grad_norm": 0.0,
      "learning_rate": 0.0001892,
      "loss": 4.7089,
      "step": 4098
    },
    {
      "epoch": 6.5584,
      "grad_norm": 0.0,
      "learning_rate": 0.00018899999999999999,
      "loss": 6.6991,
      "step": 4099
    },
    {
      "epoch": 6.5600000000000005,
      "grad_norm": NaN,
      "learning_rate": 0.00018899999999999999,
      "loss": 6.1105,
      "step": 4100
    },
    {
      "epoch": 6.5616,
      "grad_norm": 0.0,
      "learning_rate": 0.00018879999999999998,
      "loss": 9.2272,
      "step": 4101
    },
    {
      "epoch": 6.5632,
      "grad_norm": 0.0,
      "learning_rate": 0.0001886,
      "loss": 7.4793,
      "step": 4102
    },
    {
      "epoch": 6.5648,
      "grad_norm": 0.0,
      "learning_rate": 0.00018839999999999997,
      "loss": 6.9356,
      "step": 4103
    },
    {
      "epoch": 6.5664,
      "grad_norm": 0.0,
      "learning_rate": 0.00018819999999999997,
      "loss": 6.5929,
      "step": 4104
    },
    {
      "epoch": 6.568,
      "grad_norm": 0.0,
      "learning_rate": 0.000188,
      "loss": 6.0832,
      "step": 4105
    },
    {
      "epoch": 6.5696,
      "grad_norm": 0.0,
      "learning_rate": 0.00018779999999999998,
      "loss": 6.6209,
      "step": 4106
    },
    {
      "epoch": 6.5712,
      "grad_norm": 0.0,
      "learning_rate": 0.00018759999999999998,
      "loss": 6.8724,
      "step": 4107
    },
    {
      "epoch": 6.5728,
      "grad_norm": 0.0,
      "learning_rate": 0.0001874,
      "loss": 6.5322,
      "step": 4108
    },
    {
      "epoch": 6.5744,
      "grad_norm": 0.0,
      "learning_rate": 0.0001872,
      "loss": 6.646,
      "step": 4109
    },
    {
      "epoch": 6.576,
      "grad_norm": 0.0,
      "learning_rate": 0.00018699999999999996,
      "loss": 5.9154,
      "step": 4110
    },
    {
      "epoch": 6.5776,
      "grad_norm": 0.0,
      "learning_rate": 0.0001868,
      "loss": 6.5474,
      "step": 4111
    },
    {
      "epoch": 6.5792,
      "grad_norm": 0.0,
      "learning_rate": 0.00018659999999999998,
      "loss": 6.5186,
      "step": 4112
    },
    {
      "epoch": 6.5808,
      "grad_norm": 0.0,
      "learning_rate": 0.00018639999999999998,
      "loss": 4.9023,
      "step": 4113
    },
    {
      "epoch": 6.5824,
      "grad_norm": 0.0,
      "learning_rate": 0.0001862,
      "loss": 8.0242,
      "step": 4114
    },
    {
      "epoch": 6.584,
      "grad_norm": 0.0,
      "learning_rate": 0.000186,
      "loss": 4.9214,
      "step": 4115
    },
    {
      "epoch": 6.5856,
      "grad_norm": 0.0,
      "learning_rate": 0.00018579999999999996,
      "loss": 4.7957,
      "step": 4116
    },
    {
      "epoch": 6.5872,
      "grad_norm": 0.0,
      "learning_rate": 0.00018559999999999998,
      "loss": 5.8198,
      "step": 4117
    },
    {
      "epoch": 6.5888,
      "grad_norm": 0.0,
      "learning_rate": 0.00018539999999999998,
      "loss": 4.7452,
      "step": 4118
    },
    {
      "epoch": 6.5904,
      "grad_norm": 0.0,
      "learning_rate": 0.00018519999999999998,
      "loss": 4.9572,
      "step": 4119
    },
    {
      "epoch": 6.592,
      "grad_norm": 0.0,
      "learning_rate": 0.000185,
      "loss": 5.5537,
      "step": 4120
    },
    {
      "epoch": 6.5936,
      "grad_norm": 0.0,
      "learning_rate": 0.0001848,
      "loss": 6.972,
      "step": 4121
    },
    {
      "epoch": 6.5952,
      "grad_norm": 0.0,
      "learning_rate": 0.00018459999999999996,
      "loss": 4.9161,
      "step": 4122
    },
    {
      "epoch": 6.5968,
      "grad_norm": 0.0,
      "learning_rate": 0.00018439999999999998,
      "loss": 4.8701,
      "step": 4123
    },
    {
      "epoch": 6.5984,
      "grad_norm": 0.0,
      "learning_rate": 0.00018419999999999998,
      "loss": 6.4972,
      "step": 4124
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.0,
      "learning_rate": 0.00018399999999999997,
      "loss": 5.1413,
      "step": 4125
    },
    {
      "epoch": 6.6016,
      "grad_norm": 0.0,
      "learning_rate": 0.0001838,
      "loss": 4.9516,
      "step": 4126
    },
    {
      "epoch": 6.6032,
      "grad_norm": 0.0,
      "learning_rate": 0.0001836,
      "loss": 4.9221,
      "step": 4127
    },
    {
      "epoch": 6.6048,
      "grad_norm": 0.0,
      "learning_rate": 0.00018339999999999996,
      "loss": 5.3704,
      "step": 4128
    },
    {
      "epoch": 6.6064,
      "grad_norm": 0.0,
      "learning_rate": 0.00018319999999999998,
      "loss": 5.7861,
      "step": 4129
    },
    {
      "epoch": 6.608,
      "grad_norm": 0.0,
      "learning_rate": 0.00018299999999999998,
      "loss": 4.5468,
      "step": 4130
    },
    {
      "epoch": 6.6096,
      "grad_norm": 0.0,
      "learning_rate": 0.00018279999999999997,
      "loss": 5.9016,
      "step": 4131
    },
    {
      "epoch": 6.6112,
      "grad_norm": 0.0,
      "learning_rate": 0.0001826,
      "loss": 4.3465,
      "step": 4132
    },
    {
      "epoch": 6.6128,
      "grad_norm": 0.0,
      "learning_rate": 0.0001824,
      "loss": 4.9091,
      "step": 4133
    },
    {
      "epoch": 6.6144,
      "grad_norm": 0.0,
      "learning_rate": 0.00018219999999999996,
      "loss": 5.5963,
      "step": 4134
    },
    {
      "epoch": 6.616,
      "grad_norm": 0.0,
      "learning_rate": 0.00018199999999999998,
      "loss": 4.1554,
      "step": 4135
    },
    {
      "epoch": 6.6176,
      "grad_norm": 0.0,
      "learning_rate": 0.00018179999999999997,
      "loss": 7.1316,
      "step": 4136
    },
    {
      "epoch": 6.6192,
      "grad_norm": 0.0,
      "learning_rate": 0.00018159999999999997,
      "loss": 6.0276,
      "step": 4137
    },
    {
      "epoch": 6.6208,
      "grad_norm": 0.0,
      "learning_rate": 0.0001814,
      "loss": 8.7214,
      "step": 4138
    },
    {
      "epoch": 6.6224,
      "grad_norm": 0.0,
      "learning_rate": 0.00018119999999999999,
      "loss": 4.9247,
      "step": 4139
    },
    {
      "epoch": 6.624,
      "grad_norm": 0.0,
      "learning_rate": 0.000181,
      "loss": 6.2757,
      "step": 4140
    },
    {
      "epoch": 6.6256,
      "grad_norm": 0.0,
      "learning_rate": 0.00018079999999999998,
      "loss": 6.2719,
      "step": 4141
    },
    {
      "epoch": 6.6272,
      "grad_norm": 0.0,
      "learning_rate": 0.00018059999999999997,
      "loss": 4.5367,
      "step": 4142
    },
    {
      "epoch": 6.6288,
      "grad_norm": 0.0,
      "learning_rate": 0.0001804,
      "loss": 5.4118,
      "step": 4143
    },
    {
      "epoch": 6.6304,
      "grad_norm": 0.0,
      "learning_rate": 0.0001802,
      "loss": 5.4421,
      "step": 4144
    },
    {
      "epoch": 6.632,
      "grad_norm": 0.0,
      "learning_rate": 0.00017999999999999998,
      "loss": 5.4491,
      "step": 4145
    },
    {
      "epoch": 6.6336,
      "grad_norm": 0.0,
      "learning_rate": 0.0001798,
      "loss": 4.124,
      "step": 4146
    },
    {
      "epoch": 6.6352,
      "grad_norm": 0.0,
      "learning_rate": 0.0001796,
      "loss": 5.9915,
      "step": 4147
    },
    {
      "epoch": 6.6368,
      "grad_norm": 0.0,
      "learning_rate": 0.00017939999999999997,
      "loss": 6.7769,
      "step": 4148
    },
    {
      "epoch": 6.6384,
      "grad_norm": 0.0,
      "learning_rate": 0.0001792,
      "loss": 4.9773,
      "step": 4149
    },
    {
      "epoch": 6.64,
      "grad_norm": 0.0,
      "learning_rate": 0.000179,
      "loss": 7.5078,
      "step": 4150
    },
    {
      "epoch": 6.6416,
      "grad_norm": 0.0,
      "learning_rate": 0.00017879999999999998,
      "loss": 6.2653,
      "step": 4151
    },
    {
      "epoch": 6.6432,
      "grad_norm": 0.0,
      "learning_rate": 0.0001786,
      "loss": 9.3182,
      "step": 4152
    },
    {
      "epoch": 6.6448,
      "grad_norm": 0.0,
      "learning_rate": 0.0001784,
      "loss": 7.01,
      "step": 4153
    },
    {
      "epoch": 6.6464,
      "grad_norm": 0.0,
      "learning_rate": 0.00017819999999999997,
      "loss": 7.6461,
      "step": 4154
    },
    {
      "epoch": 6.648,
      "grad_norm": 0.0,
      "learning_rate": 0.000178,
      "loss": 6.3456,
      "step": 4155
    },
    {
      "epoch": 6.6495999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00017779999999999998,
      "loss": 6.2202,
      "step": 4156
    },
    {
      "epoch": 6.6512,
      "grad_norm": 0.0,
      "learning_rate": 0.00017759999999999998,
      "loss": 6.0753,
      "step": 4157
    },
    {
      "epoch": 6.6528,
      "grad_norm": 0.0,
      "learning_rate": 0.0001774,
      "loss": 6.4579,
      "step": 4158
    },
    {
      "epoch": 6.6544,
      "grad_norm": 0.0,
      "learning_rate": 0.0001772,
      "loss": 7.1686,
      "step": 4159
    },
    {
      "epoch": 6.656,
      "grad_norm": 0.0,
      "learning_rate": 0.00017699999999999997,
      "loss": 5.7642,
      "step": 4160
    },
    {
      "epoch": 6.6576,
      "grad_norm": 0.0,
      "learning_rate": 0.0001768,
      "loss": 7.1619,
      "step": 4161
    },
    {
      "epoch": 6.6592,
      "grad_norm": 0.0,
      "learning_rate": 0.00017659999999999998,
      "loss": 5.6074,
      "step": 4162
    },
    {
      "epoch": 6.6608,
      "grad_norm": 0.0,
      "learning_rate": 0.00017639999999999998,
      "loss": 5.8866,
      "step": 4163
    },
    {
      "epoch": 6.6624,
      "grad_norm": 0.0,
      "learning_rate": 0.0001762,
      "loss": 5.7208,
      "step": 4164
    },
    {
      "epoch": 6.664,
      "grad_norm": 0.0,
      "learning_rate": 0.000176,
      "loss": 5.5302,
      "step": 4165
    },
    {
      "epoch": 6.6655999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00017579999999999996,
      "loss": 5.1154,
      "step": 4166
    },
    {
      "epoch": 6.6672,
      "grad_norm": 0.0,
      "learning_rate": 0.00017559999999999999,
      "loss": 5.1785,
      "step": 4167
    },
    {
      "epoch": 6.6688,
      "grad_norm": 0.0,
      "learning_rate": 0.00017539999999999998,
      "loss": 4.88,
      "step": 4168
    },
    {
      "epoch": 6.6704,
      "grad_norm": 0.0,
      "learning_rate": 0.00017519999999999998,
      "loss": 4.7664,
      "step": 4169
    },
    {
      "epoch": 6.672,
      "grad_norm": 0.0,
      "learning_rate": 0.000175,
      "loss": 6.8315,
      "step": 4170
    },
    {
      "epoch": 6.6736,
      "grad_norm": 0.0,
      "learning_rate": 0.0001748,
      "loss": 5.391,
      "step": 4171
    },
    {
      "epoch": 6.6752,
      "grad_norm": 0.0,
      "learning_rate": 0.00017459999999999996,
      "loss": 4.8035,
      "step": 4172
    },
    {
      "epoch": 6.6768,
      "grad_norm": 0.0,
      "learning_rate": 0.00017439999999999998,
      "loss": 5.0824,
      "step": 4173
    },
    {
      "epoch": 6.6784,
      "grad_norm": 0.0,
      "learning_rate": 0.00017419999999999998,
      "loss": 5.1261,
      "step": 4174
    },
    {
      "epoch": 6.68,
      "grad_norm": 0.0,
      "learning_rate": 0.00017399999999999997,
      "loss": 4.7606,
      "step": 4175
    },
    {
      "epoch": 6.6815999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0001738,
      "loss": 6.4392,
      "step": 4176
    },
    {
      "epoch": 6.6832,
      "grad_norm": 0.0,
      "learning_rate": 0.0001736,
      "loss": 4.7189,
      "step": 4177
    },
    {
      "epoch": 6.6848,
      "grad_norm": 0.0,
      "learning_rate": 0.00017339999999999996,
      "loss": 6.0987,
      "step": 4178
    },
    {
      "epoch": 6.6864,
      "grad_norm": 0.0,
      "learning_rate": 0.00017319999999999998,
      "loss": 5.8903,
      "step": 4179
    },
    {
      "epoch": 6.688,
      "grad_norm": 0.0,
      "learning_rate": 0.00017299999999999998,
      "loss": 5.6914,
      "step": 4180
    },
    {
      "epoch": 6.6896,
      "grad_norm": 0.0,
      "learning_rate": 0.00017279999999999997,
      "loss": 5.9072,
      "step": 4181
    },
    {
      "epoch": 6.6912,
      "grad_norm": 0.0,
      "learning_rate": 0.0001726,
      "loss": 7.1752,
      "step": 4182
    },
    {
      "epoch": 6.6928,
      "grad_norm": 0.0,
      "learning_rate": 0.0001724,
      "loss": 5.0147,
      "step": 4183
    },
    {
      "epoch": 6.6944,
      "grad_norm": 0.0,
      "learning_rate": 0.00017219999999999998,
      "loss": 6.0951,
      "step": 4184
    },
    {
      "epoch": 6.696,
      "grad_norm": 0.0,
      "learning_rate": 0.000172,
      "loss": 5.668,
      "step": 4185
    },
    {
      "epoch": 6.6975999999999996,
      "grad_norm": 0.0,
      "learning_rate": 0.00017179999999999997,
      "loss": 4.5645,
      "step": 4186
    },
    {
      "epoch": 6.6992,
      "grad_norm": 0.0,
      "learning_rate": 0.00017159999999999997,
      "loss": 5.1264,
      "step": 4187
    },
    {
      "epoch": 6.7008,
      "grad_norm": 0.0,
      "learning_rate": 0.0001714,
      "loss": 4.6198,
      "step": 4188
    },
    {
      "epoch": 6.7024,
      "grad_norm": 0.0,
      "learning_rate": 0.0001712,
      "loss": 5.0099,
      "step": 4189
    },
    {
      "epoch": 6.704,
      "grad_norm": 0.0,
      "learning_rate": 0.00017099999999999998,
      "loss": 7.4505,
      "step": 4190
    },
    {
      "epoch": 6.7056000000000004,
      "grad_norm": 0.0,
      "learning_rate": 0.0001708,
      "loss": 5.4084,
      "step": 4191
    },
    {
      "epoch": 6.7072,
      "grad_norm": 0.0,
      "learning_rate": 0.00017059999999999997,
      "loss": 5.5187,
      "step": 4192
    },
    {
      "epoch": 6.7088,
      "grad_norm": 0.0,
      "learning_rate": 0.00017039999999999997,
      "loss": 5.7204,
      "step": 4193
    },
    {
      "epoch": 6.7104,
      "grad_norm": 0.0,
      "learning_rate": 0.0001702,
      "loss": 4.2576,
      "step": 4194
    },
    {
      "epoch": 6.712,
      "grad_norm": 0.0,
      "learning_rate": 0.00016999999999999999,
      "loss": 5.0965,
      "step": 4195
    },
    {
      "epoch": 6.7136,
      "grad_norm": 0.0,
      "learning_rate": 0.00016979999999999998,
      "loss": 5.4783,
      "step": 4196
    },
    {
      "epoch": 6.7152,
      "grad_norm": 0.0,
      "learning_rate": 0.0001696,
      "loss": 4.2457,
      "step": 4197
    },
    {
      "epoch": 6.7168,
      "grad_norm": 0.0,
      "learning_rate": 0.00016939999999999997,
      "loss": 3.6698,
      "step": 4198
    },
    {
      "epoch": 6.7184,
      "grad_norm": 0.0,
      "learning_rate": 0.00016919999999999997,
      "loss": 5.668,
      "step": 4199
    },
    {
      "epoch": 6.72,
      "grad_norm": NaN,
      "learning_rate": 0.00016919999999999997,
      "loss": 5.0759,
      "step": 4200
    },
    {
      "epoch": 6.7216000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.000169,
      "loss": 8.7148,
      "step": 4201
    },
    {
      "epoch": 6.7232,
      "grad_norm": 0.0,
      "learning_rate": 0.00016879999999999998,
      "loss": 6.4265,
      "step": 4202
    },
    {
      "epoch": 6.7248,
      "grad_norm": 0.0,
      "learning_rate": 0.0001686,
      "loss": 6.1731,
      "step": 4203
    },
    {
      "epoch": 6.7264,
      "grad_norm": 0.0,
      "learning_rate": 0.0001684,
      "loss": 6.1314,
      "step": 4204
    },
    {
      "epoch": 6.728,
      "grad_norm": 0.0,
      "learning_rate": 0.00016819999999999997,
      "loss": 7.3555,
      "step": 4205
    },
    {
      "epoch": 6.7296,
      "grad_norm": 0.0,
      "learning_rate": 0.000168,
      "loss": 4.8547,
      "step": 4206
    },
    {
      "epoch": 6.7312,
      "grad_norm": 0.0,
      "learning_rate": 0.00016779999999999999,
      "loss": 4.3774,
      "step": 4207
    },
    {
      "epoch": 6.7328,
      "grad_norm": 0.0,
      "learning_rate": 0.00016759999999999998,
      "loss": 6.8963,
      "step": 4208
    },
    {
      "epoch": 6.7344,
      "grad_norm": 0.0,
      "learning_rate": 0.0001674,
      "loss": 5.0592,
      "step": 4209
    },
    {
      "epoch": 6.736,
      "grad_norm": 0.0,
      "learning_rate": 0.0001672,
      "loss": 5.3738,
      "step": 4210
    },
    {
      "epoch": 6.7376000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00016699999999999997,
      "loss": 5.43,
      "step": 4211
    },
    {
      "epoch": 6.7392,
      "grad_norm": 0.0,
      "learning_rate": 0.0001668,
      "loss": 6.2524,
      "step": 4212
    },
    {
      "epoch": 6.7408,
      "grad_norm": 0.0,
      "learning_rate": 0.00016659999999999998,
      "loss": 5.1483,
      "step": 4213
    },
    {
      "epoch": 6.7424,
      "grad_norm": 0.0,
      "learning_rate": 0.00016639999999999998,
      "loss": 6.0518,
      "step": 4214
    },
    {
      "epoch": 6.744,
      "grad_norm": 0.0,
      "learning_rate": 0.0001662,
      "loss": 6.0559,
      "step": 4215
    },
    {
      "epoch": 6.7456,
      "grad_norm": 0.0,
      "learning_rate": 0.000166,
      "loss": 4.7188,
      "step": 4216
    },
    {
      "epoch": 6.7472,
      "grad_norm": 0.0,
      "learning_rate": 0.00016579999999999996,
      "loss": 4.9477,
      "step": 4217
    },
    {
      "epoch": 6.7488,
      "grad_norm": 0.0,
      "learning_rate": 0.0001656,
      "loss": 5.7809,
      "step": 4218
    },
    {
      "epoch": 6.7504,
      "grad_norm": 0.0,
      "learning_rate": 0.00016539999999999998,
      "loss": 6.1003,
      "step": 4219
    },
    {
      "epoch": 6.752,
      "grad_norm": 0.0,
      "learning_rate": 0.00016519999999999998,
      "loss": 5.268,
      "step": 4220
    },
    {
      "epoch": 6.7536000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.000165,
      "loss": 6.0587,
      "step": 4221
    },
    {
      "epoch": 6.7552,
      "grad_norm": 0.0,
      "learning_rate": 0.0001648,
      "loss": 5.2584,
      "step": 4222
    },
    {
      "epoch": 6.7568,
      "grad_norm": 0.0,
      "learning_rate": 0.0001646,
      "loss": 5.2158,
      "step": 4223
    },
    {
      "epoch": 6.7584,
      "grad_norm": 0.0,
      "learning_rate": 0.0001644,
      "loss": 6.5743,
      "step": 4224
    },
    {
      "epoch": 6.76,
      "grad_norm": 0.0,
      "learning_rate": 0.00016419999999999998,
      "loss": 6.0184,
      "step": 4225
    },
    {
      "epoch": 6.7616,
      "grad_norm": 0.0,
      "learning_rate": 0.00016399999999999997,
      "loss": 6.0504,
      "step": 4226
    },
    {
      "epoch": 6.7632,
      "grad_norm": 0.0,
      "learning_rate": 0.0001638,
      "loss": 5.21,
      "step": 4227
    },
    {
      "epoch": 6.7648,
      "grad_norm": 0.0,
      "learning_rate": 0.0001636,
      "loss": 4.6084,
      "step": 4228
    },
    {
      "epoch": 6.7664,
      "grad_norm": 0.0,
      "learning_rate": 0.0001634,
      "loss": 4.1066,
      "step": 4229
    },
    {
      "epoch": 6.768,
      "grad_norm": 0.0,
      "learning_rate": 0.0001632,
      "loss": 4.5355,
      "step": 4230
    },
    {
      "epoch": 6.7696,
      "grad_norm": 0.0,
      "learning_rate": 0.00016299999999999998,
      "loss": 5.1876,
      "step": 4231
    },
    {
      "epoch": 6.7712,
      "grad_norm": 0.0,
      "learning_rate": 0.00016279999999999997,
      "loss": 4.274,
      "step": 4232
    },
    {
      "epoch": 6.7728,
      "grad_norm": 0.0,
      "learning_rate": 0.0001626,
      "loss": 5.8047,
      "step": 4233
    },
    {
      "epoch": 6.7744,
      "grad_norm": 0.0,
      "learning_rate": 0.0001624,
      "loss": 6.694,
      "step": 4234
    },
    {
      "epoch": 6.776,
      "grad_norm": 0.0,
      "learning_rate": 0.00016219999999999999,
      "loss": 4.4464,
      "step": 4235
    },
    {
      "epoch": 6.7776,
      "grad_norm": 0.0,
      "learning_rate": 0.000162,
      "loss": 5.0319,
      "step": 4236
    },
    {
      "epoch": 6.7792,
      "grad_norm": 0.0,
      "learning_rate": 0.00016179999999999998,
      "loss": 5.3984,
      "step": 4237
    },
    {
      "epoch": 6.7808,
      "grad_norm": 0.0,
      "learning_rate": 0.00016159999999999997,
      "loss": 5.5782,
      "step": 4238
    },
    {
      "epoch": 6.7824,
      "grad_norm": 0.0,
      "learning_rate": 0.0001614,
      "loss": 4.3758,
      "step": 4239
    },
    {
      "epoch": 6.784,
      "grad_norm": 0.0,
      "learning_rate": 0.0001612,
      "loss": 4.5905,
      "step": 4240
    },
    {
      "epoch": 6.7856,
      "grad_norm": 0.0,
      "learning_rate": 0.00016099999999999998,
      "loss": 4.6257,
      "step": 4241
    },
    {
      "epoch": 6.7872,
      "grad_norm": 0.0,
      "learning_rate": 0.0001608,
      "loss": 6.4815,
      "step": 4242
    },
    {
      "epoch": 6.7888,
      "grad_norm": 0.0,
      "learning_rate": 0.00016059999999999997,
      "loss": 4.7451,
      "step": 4243
    },
    {
      "epoch": 6.7904,
      "grad_norm": 0.0,
      "learning_rate": 0.00016039999999999997,
      "loss": 4.5516,
      "step": 4244
    },
    {
      "epoch": 6.792,
      "grad_norm": 0.0,
      "learning_rate": 0.0001602,
      "loss": 5.5383,
      "step": 4245
    },
    {
      "epoch": 6.7936,
      "grad_norm": 0.0,
      "learning_rate": 0.00015999999999999999,
      "loss": 5.4859,
      "step": 4246
    },
    {
      "epoch": 6.7952,
      "grad_norm": 0.0,
      "learning_rate": 0.00015979999999999998,
      "loss": 4.9607,
      "step": 4247
    },
    {
      "epoch": 6.7968,
      "grad_norm": 0.0,
      "learning_rate": 0.0001596,
      "loss": 4.7679,
      "step": 4248
    },
    {
      "epoch": 6.7984,
      "grad_norm": 0.0,
      "learning_rate": 0.00015939999999999997,
      "loss": 6.806,
      "step": 4249
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.0,
      "learning_rate": 0.00015919999999999997,
      "loss": 8.0953,
      "step": 4250
    },
    {
      "epoch": 6.8016,
      "grad_norm": 0.0,
      "learning_rate": 0.000159,
      "loss": 8.4137,
      "step": 4251
    },
    {
      "epoch": 6.8032,
      "grad_norm": 0.0,
      "learning_rate": 0.00015879999999999998,
      "loss": 6.6673,
      "step": 4252
    },
    {
      "epoch": 6.8048,
      "grad_norm": 0.0,
      "learning_rate": 0.00015859999999999998,
      "loss": 7.8875,
      "step": 4253
    },
    {
      "epoch": 6.8064,
      "grad_norm": 0.0,
      "learning_rate": 0.0001584,
      "loss": 6.823,
      "step": 4254
    },
    {
      "epoch": 6.808,
      "grad_norm": 0.0,
      "learning_rate": 0.00015819999999999997,
      "loss": 5.2241,
      "step": 4255
    },
    {
      "epoch": 6.8096,
      "grad_norm": 0.0,
      "learning_rate": 0.00015799999999999996,
      "loss": 8.0661,
      "step": 4256
    },
    {
      "epoch": 6.8112,
      "grad_norm": 0.0,
      "learning_rate": 0.0001578,
      "loss": 6.7184,
      "step": 4257
    },
    {
      "epoch": 6.8128,
      "grad_norm": 0.0,
      "learning_rate": 0.00015759999999999998,
      "loss": 6.3589,
      "step": 4258
    },
    {
      "epoch": 6.8144,
      "grad_norm": 0.0,
      "learning_rate": 0.00015739999999999998,
      "loss": 6.2219,
      "step": 4259
    },
    {
      "epoch": 6.816,
      "grad_norm": 0.0,
      "learning_rate": 0.0001572,
      "loss": 6.18,
      "step": 4260
    },
    {
      "epoch": 6.8176,
      "grad_norm": 0.0,
      "learning_rate": 0.000157,
      "loss": 6.3529,
      "step": 4261
    },
    {
      "epoch": 6.8192,
      "grad_norm": 0.0,
      "learning_rate": 0.00015679999999999996,
      "loss": 6.6016,
      "step": 4262
    },
    {
      "epoch": 6.8208,
      "grad_norm": 0.0,
      "learning_rate": 0.00015659999999999998,
      "loss": 4.5632,
      "step": 4263
    },
    {
      "epoch": 6.8224,
      "grad_norm": 0.0,
      "learning_rate": 0.00015639999999999998,
      "loss": 6.0819,
      "step": 4264
    },
    {
      "epoch": 6.824,
      "grad_norm": 0.0,
      "learning_rate": 0.0001562,
      "loss": 8.791,
      "step": 4265
    },
    {
      "epoch": 6.8256,
      "grad_norm": 0.0,
      "learning_rate": 0.000156,
      "loss": 5.3828,
      "step": 4266
    },
    {
      "epoch": 6.8272,
      "grad_norm": 0.0,
      "learning_rate": 0.0001558,
      "loss": 5.9052,
      "step": 4267
    },
    {
      "epoch": 6.8288,
      "grad_norm": 0.0,
      "learning_rate": 0.00015560000000000001,
      "loss": 5.381,
      "step": 4268
    },
    {
      "epoch": 6.8304,
      "grad_norm": 0.0,
      "learning_rate": 0.00015539999999999998,
      "loss": 4.8866,
      "step": 4269
    },
    {
      "epoch": 6.832,
      "grad_norm": 0.0,
      "learning_rate": 0.00015519999999999998,
      "loss": 5.7885,
      "step": 4270
    },
    {
      "epoch": 6.8336,
      "grad_norm": 0.0,
      "learning_rate": 0.000155,
      "loss": 5.812,
      "step": 4271
    },
    {
      "epoch": 6.8352,
      "grad_norm": 0.0,
      "learning_rate": 0.0001548,
      "loss": 5.2621,
      "step": 4272
    },
    {
      "epoch": 6.8368,
      "grad_norm": 0.0,
      "learning_rate": 0.0001546,
      "loss": 5.6901,
      "step": 4273
    },
    {
      "epoch": 6.8384,
      "grad_norm": 0.0,
      "learning_rate": 0.0001544,
      "loss": 5.0837,
      "step": 4274
    },
    {
      "epoch": 6.84,
      "grad_norm": 0.0,
      "learning_rate": 0.00015419999999999998,
      "loss": 4.2116,
      "step": 4275
    },
    {
      "epoch": 6.8416,
      "grad_norm": 0.0,
      "learning_rate": 0.00015399999999999998,
      "loss": 5.1249,
      "step": 4276
    },
    {
      "epoch": 6.8431999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.0001538,
      "loss": 5.3888,
      "step": 4277
    },
    {
      "epoch": 6.8448,
      "grad_norm": 0.0,
      "learning_rate": 0.0001536,
      "loss": 4.6081,
      "step": 4278
    },
    {
      "epoch": 6.8464,
      "grad_norm": 0.0,
      "learning_rate": 0.0001534,
      "loss": 6.4538,
      "step": 4279
    },
    {
      "epoch": 6.848,
      "grad_norm": 0.0,
      "learning_rate": 0.0001532,
      "loss": 4.8083,
      "step": 4280
    },
    {
      "epoch": 6.8496,
      "grad_norm": 0.0,
      "learning_rate": 0.00015299999999999998,
      "loss": 5.039,
      "step": 4281
    },
    {
      "epoch": 6.8512,
      "grad_norm": 0.0,
      "learning_rate": 0.00015279999999999997,
      "loss": 5.3073,
      "step": 4282
    },
    {
      "epoch": 6.8528,
      "grad_norm": 0.0,
      "learning_rate": 0.0001526,
      "loss": 5.2667,
      "step": 4283
    },
    {
      "epoch": 6.8544,
      "grad_norm": 0.0,
      "learning_rate": 0.0001524,
      "loss": 4.2385,
      "step": 4284
    },
    {
      "epoch": 6.856,
      "grad_norm": 0.0,
      "learning_rate": 0.00015219999999999999,
      "loss": 6.4816,
      "step": 4285
    },
    {
      "epoch": 6.8576,
      "grad_norm": 0.0,
      "learning_rate": 0.000152,
      "loss": 3.9428,
      "step": 4286
    },
    {
      "epoch": 6.8591999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00015179999999999998,
      "loss": 4.5685,
      "step": 4287
    },
    {
      "epoch": 6.8608,
      "grad_norm": 0.0,
      "learning_rate": 0.00015159999999999997,
      "loss": 4.6636,
      "step": 4288
    },
    {
      "epoch": 6.8624,
      "grad_norm": 0.0,
      "learning_rate": 0.0001514,
      "loss": 5.4109,
      "step": 4289
    },
    {
      "epoch": 6.864,
      "grad_norm": 0.0,
      "learning_rate": 0.0001512,
      "loss": 4.8747,
      "step": 4290
    },
    {
      "epoch": 6.8656,
      "grad_norm": 0.0,
      "learning_rate": 0.00015099999999999998,
      "loss": 7.5344,
      "step": 4291
    },
    {
      "epoch": 6.8672,
      "grad_norm": 0.0,
      "learning_rate": 0.0001508,
      "loss": 5.3078,
      "step": 4292
    },
    {
      "epoch": 6.8688,
      "grad_norm": 0.0,
      "learning_rate": 0.00015059999999999997,
      "loss": 4.5709,
      "step": 4293
    },
    {
      "epoch": 6.8704,
      "grad_norm": 0.0,
      "learning_rate": 0.00015039999999999997,
      "loss": 9.5683,
      "step": 4294
    },
    {
      "epoch": 6.872,
      "grad_norm": 0.0,
      "learning_rate": 0.0001502,
      "loss": 7.8465,
      "step": 4295
    },
    {
      "epoch": 6.8736,
      "grad_norm": 0.0,
      "learning_rate": 0.00015,
      "loss": 5.9877,
      "step": 4296
    },
    {
      "epoch": 6.8751999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.00014979999999999998,
      "loss": 5.6867,
      "step": 4297
    },
    {
      "epoch": 6.8768,
      "grad_norm": 0.0,
      "learning_rate": 0.00014959999999999998,
      "loss": 5.6825,
      "step": 4298
    },
    {
      "epoch": 6.8784,
      "grad_norm": 0.0,
      "learning_rate": 0.0001494,
      "loss": 6.1692,
      "step": 4299
    },
    {
      "epoch": 6.88,
      "grad_norm": NaN,
      "learning_rate": 0.0001494,
      "loss": 8.656,
      "step": 4300
    },
    {
      "epoch": 6.8816,
      "grad_norm": 0.0,
      "learning_rate": 0.0001492,
      "loss": 6.2364,
      "step": 4301
    },
    {
      "epoch": 6.8832,
      "grad_norm": 0.0,
      "learning_rate": 0.000149,
      "loss": 9.5798,
      "step": 4302
    },
    {
      "epoch": 6.8848,
      "grad_norm": 0.0,
      "learning_rate": 0.00014879999999999998,
      "loss": 6.8069,
      "step": 4303
    },
    {
      "epoch": 6.8864,
      "grad_norm": 0.0,
      "learning_rate": 0.00014859999999999998,
      "loss": 7.6856,
      "step": 4304
    },
    {
      "epoch": 6.888,
      "grad_norm": 0.0,
      "learning_rate": 0.00014839999999999998,
      "loss": 7.3696,
      "step": 4305
    },
    {
      "epoch": 6.8896,
      "grad_norm": 0.0,
      "learning_rate": 0.0001482,
      "loss": 8.496,
      "step": 4306
    },
    {
      "epoch": 6.8911999999999995,
      "grad_norm": 0.0,
      "learning_rate": 0.000148,
      "loss": 4.7344,
      "step": 4307
    },
    {
      "epoch": 6.8928,
      "grad_norm": 0.0,
      "learning_rate": 0.0001478,
      "loss": 5.9466,
      "step": 4308
    },
    {
      "epoch": 6.8944,
      "grad_norm": 0.0,
      "learning_rate": 0.00014759999999999998,
      "loss": 6.1564,
      "step": 4309
    },
    {
      "epoch": 6.896,
      "grad_norm": 0.0,
      "learning_rate": 0.00014739999999999998,
      "loss": 7.5019,
      "step": 4310
    },
    {
      "epoch": 6.8976,
      "grad_norm": 0.0,
      "learning_rate": 0.00014719999999999997,
      "loss": 6.6649,
      "step": 4311
    },
    {
      "epoch": 6.8992,
      "grad_norm": 0.0,
      "learning_rate": 0.000147,
      "loss": 6.3927,
      "step": 4312
    },
    {
      "epoch": 6.9008,
      "grad_norm": 0.0,
      "learning_rate": 0.0001468,
      "loss": 7.2916,
      "step": 4313
    },
    {
      "epoch": 6.9024,
      "grad_norm": 0.0,
      "learning_rate": 0.00014659999999999999,
      "loss": 6.0807,
      "step": 4314
    },
    {
      "epoch": 6.904,
      "grad_norm": 0.0,
      "learning_rate": 0.00014639999999999998,
      "loss": 6.3078,
      "step": 4315
    },
    {
      "epoch": 6.9056,
      "grad_norm": 0.0,
      "learning_rate": 0.0001462,
      "loss": 6.1345,
      "step": 4316
    },
    {
      "epoch": 6.9072,
      "grad_norm": 0.0,
      "learning_rate": 0.000146,
      "loss": 7.4456,
      "step": 4317
    },
    {
      "epoch": 6.9088,
      "grad_norm": 0.0,
      "learning_rate": 0.0001458,
      "loss": 5.1236,
      "step": 4318
    },
    {
      "epoch": 6.9104,
      "grad_norm": 0.0,
      "learning_rate": 0.0001456,
      "loss": 5.5366,
      "step": 4319
    },
    {
      "epoch": 6.912,
      "grad_norm": 0.0,
      "learning_rate": 0.00014539999999999998,
      "loss": 7.4259,
      "step": 4320
    },
    {
      "epoch": 6.9136,
      "grad_norm": 0.0,
      "learning_rate": 0.00014519999999999998,
      "loss": 5.9814,
      "step": 4321
    },
    {
      "epoch": 6.9152000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.000145,
      "loss": 5.4896,
      "step": 4322
    },
    {
      "epoch": 6.9168,
      "grad_norm": 0.0,
      "learning_rate": 0.0001448,
      "loss": 4.6442,
      "step": 4323
    },
    {
      "epoch": 6.9184,
      "grad_norm": 0.0,
      "learning_rate": 0.0001446,
      "loss": 4.8726,
      "step": 4324
    },
    {
      "epoch": 6.92,
      "grad_norm": 0.0,
      "learning_rate": 0.00014439999999999999,
      "loss": 6.6722,
      "step": 4325
    },
    {
      "epoch": 6.9216,
      "grad_norm": 0.0,
      "learning_rate": 0.00014419999999999998,
      "loss": 4.7456,
      "step": 4326
    },
    {
      "epoch": 6.9232,
      "grad_norm": 0.0,
      "learning_rate": 0.00014399999999999998,
      "loss": 5.092,
      "step": 4327
    },
    {
      "epoch": 6.9248,
      "grad_norm": 0.0,
      "learning_rate": 0.0001438,
      "loss": 5.9932,
      "step": 4328
    },
    {
      "epoch": 6.9264,
      "grad_norm": 0.0,
      "learning_rate": 0.0001436,
      "loss": 5.1919,
      "step": 4329
    },
    {
      "epoch": 6.928,
      "grad_norm": 0.0,
      "learning_rate": 0.0001434,
      "loss": 5.0041,
      "step": 4330
    },
    {
      "epoch": 6.9296,
      "grad_norm": 0.0,
      "learning_rate": 0.00014319999999999998,
      "loss": 4.8493,
      "step": 4331
    },
    {
      "epoch": 6.9312000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00014299999999999998,
      "loss": 5.3269,
      "step": 4332
    },
    {
      "epoch": 6.9328,
      "grad_norm": 0.0,
      "learning_rate": 0.00014279999999999997,
      "loss": 5.5469,
      "step": 4333
    },
    {
      "epoch": 6.9344,
      "grad_norm": 0.0,
      "learning_rate": 0.0001426,
      "loss": 6.3032,
      "step": 4334
    },
    {
      "epoch": 6.936,
      "grad_norm": 0.0,
      "learning_rate": 0.0001424,
      "loss": 4.7999,
      "step": 4335
    },
    {
      "epoch": 6.9376,
      "grad_norm": 0.0,
      "learning_rate": 0.0001422,
      "loss": 5.418,
      "step": 4336
    },
    {
      "epoch": 6.9392,
      "grad_norm": 0.0,
      "learning_rate": 0.00014199999999999998,
      "loss": 5.2496,
      "step": 4337
    },
    {
      "epoch": 6.9408,
      "grad_norm": 0.0,
      "learning_rate": 0.0001418,
      "loss": 5.1538,
      "step": 4338
    },
    {
      "epoch": 6.9424,
      "grad_norm": 0.0,
      "learning_rate": 0.00014159999999999997,
      "loss": 7.7733,
      "step": 4339
    },
    {
      "epoch": 6.944,
      "grad_norm": 0.0,
      "learning_rate": 0.0001414,
      "loss": 5.1677,
      "step": 4340
    },
    {
      "epoch": 6.9456,
      "grad_norm": 0.0,
      "learning_rate": 0.0001412,
      "loss": 5.1715,
      "step": 4341
    },
    {
      "epoch": 6.9472000000000005,
      "grad_norm": 0.0,
      "learning_rate": 0.00014099999999999998,
      "loss": 5.1323,
      "step": 4342
    },
    {
      "epoch": 6.9488,
      "grad_norm": 0.0,
      "learning_rate": 0.00014079999999999998,
      "loss": 4.6489,
      "step": 4343
    },
    {
      "epoch": 6.9504,
      "grad_norm": 0.0,
      "learning_rate": 0.0001406,
      "loss": 5.2453,
      "step": 4344
    },
    {
      "epoch": 6.952,
      "grad_norm": 0.0,
      "learning_rate": 0.0001404,
      "loss": 5.4791,
      "step": 4345
    },
    {
      "epoch": 6.9536,
      "grad_norm": 0.0,
      "learning_rate": 0.0001402,
      "loss": 5.1121,
      "step": 4346
    },
    {
      "epoch": 6.9552,
      "grad_norm": 0.0,
      "learning_rate": 0.00014,
      "loss": 5.8898,
      "step": 4347
    },
    {
      "epoch": 6.9568,
      "grad_norm": 0.0,
      "learning_rate": 0.00013979999999999998,
      "loss": 4.8784,
      "step": 4348
    },
    {
      "epoch": 6.9584,
      "grad_norm": 0.0,
      "learning_rate": 0.00013959999999999998,
      "loss": 4.8517,
      "step": 4349
    },
    {
      "epoch": 6.96,
      "grad_norm": NaN,
      "learning_rate": 0.00013959999999999998,
      "loss": 5.1453,
      "step": 4350
    },
    {
      "epoch": 6.9616,
      "grad_norm": 0.0,
      "learning_rate": 0.0001394,
      "loss": 6.5692,
      "step": 4351
    },
    {
      "epoch": 6.9632,
      "grad_norm": 0.0,
      "learning_rate": 0.0001392,
      "loss": 7.1124,
      "step": 4352
    },
    {
      "epoch": 6.9648,
      "grad_norm": 0.0,
      "learning_rate": 0.000139,
      "loss": 6.1347,
      "step": 4353
    },
    {
      "epoch": 6.9664,
      "grad_norm": 0.0,
      "learning_rate": 0.00013879999999999999,
      "loss": 5.7037,
      "step": 4354
    },
    {
      "epoch": 6.968,
      "grad_norm": 0.0,
      "learning_rate": 0.0001386,
      "loss": 6.6176,
      "step": 4355
    },
    {
      "epoch": 6.9696,
      "grad_norm": 0.0,
      "learning_rate": 0.00013839999999999998,
      "loss": 5.5577,
      "step": 4356
    },
    {
      "epoch": 6.9712,
      "grad_norm": 0.0,
      "learning_rate": 0.0001382,
      "loss": 6.9877,
      "step": 4357
    },
    {
      "epoch": 6.9728,
      "grad_norm": 0.0,
      "learning_rate": 0.000138,
      "loss": 6.5335,
      "step": 4358
    },
    {
      "epoch": 6.9744,
      "grad_norm": 0.0,
      "learning_rate": 0.0001378,
      "loss": 6.6167,
      "step": 4359
    },
    {
      "epoch": 6.976,
      "grad_norm": 0.0,
      "learning_rate": 0.00013759999999999998,
      "loss": 5.6802,
      "step": 4360
    },
    {
      "epoch": 6.9776,
      "grad_norm": 0.0,
      "learning_rate": 0.0001374,
      "loss": 5.9226,
      "step": 4361
    },
    {
      "epoch": 6.9792,
      "grad_norm": 0.0,
      "learning_rate": 0.00013719999999999997,
      "loss": 5.3872,
      "step": 4362
    },
    {
      "epoch": 6.9808,
      "grad_norm": 0.0,
      "learning_rate": 0.000137,
      "loss": 5.3704,
      "step": 4363
    },
    {
      "epoch": 6.9824,
      "grad_norm": 0.0,
      "learning_rate": 0.0001368,
      "loss": 5.9309,
      "step": 4364
    },
    {
      "epoch": 6.984,
      "grad_norm": 0.0,
      "learning_rate": 0.00013659999999999999,
      "loss": 4.652,
      "step": 4365
    },
    {
      "epoch": 6.9856,
      "grad_norm": 0.0,
      "learning_rate": 0.00013639999999999998,
      "loss": 7.1784,
      "step": 4366
    },
    {
      "epoch": 6.9872,
      "grad_norm": 0.0,
      "learning_rate": 0.0001362,
      "loss": 6.4351,
      "step": 4367
    },
    {
      "epoch": 6.9888,
      "grad_norm": 0.0,
      "learning_rate": 0.00013599999999999997,
      "loss": 4.8783,
      "step": 4368
    },
    {
      "epoch": 6.9904,
      "grad_norm": 0.0,
      "learning_rate": 0.0001358,
      "loss": 4.3315,
      "step": 4369
    },
    {
      "epoch": 6.992,
      "grad_norm": 0.0,
      "learning_rate": 0.0001356,
      "loss": 6.4382,
      "step": 4370
    },
    {
      "epoch": 6.9936,
      "grad_norm": 0.0,
      "learning_rate": 0.00013539999999999998,
      "loss": 5.6157,
      "step": 4371
    },
    {
      "epoch": 6.9952,
      "grad_norm": 0.0,
      "learning_rate": 0.00013519999999999998,
      "loss": 4.3788,
      "step": 4372
    },
    {
      "epoch": 6.9968,
      "grad_norm": 0.0,
      "learning_rate": 0.000135,
      "loss": 5.1114,
      "step": 4373
    },
    {
      "epoch": 6.9984,
      "grad_norm": 0.0,
      "learning_rate": 0.00013479999999999997,
      "loss": 4.2126,
      "step": 4374
    },
    {
      "epoch": 7.0,
      "grad_norm": NaN,
      "learning_rate": 0.00013479999999999997,
      "loss": 4.5977,
      "step": 4375
    },
    {
      "epoch": 7.0016,
      "grad_norm": 0.0,
      "learning_rate": 0.0001346,
      "loss": 7.5475,
      "step": 4376
    },
    {
      "epoch": 7.0032,
      "grad_norm": 0.0,
      "learning_rate": 0.0001344,
      "loss": 9.2323,
      "step": 4377
    },
    {
      "epoch": 7.0048,
      "grad_norm": 0.0,
      "learning_rate": 0.0001342,
      "loss": 6.2872,
      "step": 4378
    },
    {
      "epoch": 7.0064,
      "grad_norm": 0.0,
      "learning_rate": 0.00013399999999999998,
      "loss": 5.7807,
      "step": 4379
    },
    {
      "epoch": 7.008,
      "grad_norm": 0.0,
      "learning_rate": 0.0001338,
      "loss": 7.1882,
      "step": 4380
    },
    {
      "epoch": 7.0096,
      "grad_norm": 0.0,
      "learning_rate": 0.0001336,
      "loss": 6.1936,
      "step": 4381
    },
    {
      "epoch": 7.0112,
      "grad_norm": 0.0,
      "learning_rate": 0.0001334,
      "loss": 5.5946,
      "step": 4382
    },
    {
      "epoch": 7.0128,
      "grad_norm": 0.0,
      "learning_rate": 0.00013319999999999999,
      "loss": 8.3462,
      "step": 4383
    },
    {
      "epoch": 7.0144,
      "grad_norm": 0.0,
      "learning_rate": 0.000133,
      "loss": 5.663,
      "step": 4384
    },
    {
      "epoch": 7.016,
      "grad_norm": 0.0,
      "learning_rate": 0.00013279999999999998,
      "loss": 6.1503,
      "step": 4385
    },
    {
      "epoch": 7.0176,
      "grad_norm": 0.0,
      "learning_rate": 0.0001326,
      "loss": 6.0101,
      "step": 4386
    },
    {
      "epoch": 7.0192,
      "grad_norm": 0.0,
      "learning_rate": 0.0001324,
      "loss": 6.4806,
      "step": 4387
    },
    {
      "epoch": 7.0208,
      "grad_norm": 0.0,
      "learning_rate": 0.0001322,
      "loss": 5.8324,
      "step": 4388
    },
    {
      "epoch": 7.0224,
      "grad_norm": 0.0,
      "learning_rate": 0.00013199999999999998,
      "loss": 5.7663,
      "step": 4389
    },
    {
      "epoch": 7.024,
      "grad_norm": 0.0,
      "learning_rate": 0.0001318,
      "loss": 5.3892,
      "step": 4390
    },
    {
      "epoch": 7.0256,
      "grad_norm": 0.0,
      "learning_rate": 0.00013159999999999997,
      "loss": 4.1761,
      "step": 4391
    },
    {
      "epoch": 7.0272,
      "grad_norm": 0.0,
      "learning_rate": 0.0001314,
      "loss": 5.7275,
      "step": 4392
    },
    {
      "epoch": 7.0288,
      "grad_norm": 0.0,
      "learning_rate": 0.0001312,
      "loss": 6.4893,
      "step": 4393
    },
    {
      "epoch": 7.0304,
      "grad_norm": 0.0,
      "learning_rate": 0.00013099999999999999,
      "loss": 6.1713,
      "step": 4394
    },
    {
      "epoch": 7.032,
      "grad_norm": 0.0,
      "learning_rate": 0.00013079999999999998,
      "loss": 7.6139,
      "step": 4395
    },
    {
      "epoch": 7.0336,
      "grad_norm": 0.0,
      "learning_rate": 0.0001306,
      "loss": 6.0886,
      "step": 4396
    },
    {
      "epoch": 7.0352,
      "grad_norm": 0.0,
      "learning_rate": 0.00013039999999999997,
      "loss": 6.8868,
      "step": 4397
    },
    {
      "epoch": 7.0368,
      "grad_norm": 0.0,
      "learning_rate": 0.0001302,
      "loss": 4.8965,
      "step": 4398
    },
    {
      "epoch": 7.0384,
      "grad_norm": 0.0,
      "learning_rate": 0.00013,
      "loss": 5.3175,
      "step": 4399
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.0,
      "learning_rate": 0.00012979999999999998,
      "loss": 5.4927,
      "step": 4400
    },
    {
      "epoch": 7.0416,
      "grad_norm": 0.0,
      "learning_rate": 0.00012959999999999998,
      "loss": 5.9534,
      "step": 4401
    },
    {
      "epoch": 7.0432,
      "grad_norm": 0.0,
      "learning_rate": 0.0001294,
      "loss": 5.1196,
      "step": 4402
    },
    {
      "epoch": 7.0448,
      "grad_norm": 0.0,
      "learning_rate": 0.00012919999999999997,
      "loss": 4.6083,
      "step": 4403
    },
    {
      "epoch": 7.0464,
      "grad_norm": 0.0,
      "learning_rate": 0.000129,
      "loss": 5.7149,
      "step": 4404
    },
    {
      "epoch": 7.048,
      "grad_norm": 0.0,
      "learning_rate": 0.0001288,
      "loss": 5.131,
      "step": 4405
    },
    {
      "epoch": 7.0496,
      "grad_norm": 0.0,
      "learning_rate": 0.00012859999999999998,
      "loss": 7.9605,
      "step": 4406
    },
    {
      "epoch": 7.0512,
      "grad_norm": 0.0,
      "learning_rate": 0.00012839999999999998,
      "loss": 6.0242,
      "step": 4407
    },
    {
      "epoch": 7.0528,
      "grad_norm": 0.0,
      "learning_rate": 0.0001282,
      "loss": 5.4065,
      "step": 4408
    },
    {
      "epoch": 7.0544,
      "grad_norm": 0.0,
      "learning_rate": 0.000128,
      "loss": 4.6464,
      "step": 4409
    },
    {
      "epoch": 7.056,
      "grad_norm": 0.0,
      "learning_rate": 0.0001278,
      "loss": 5.2592,
      "step": 4410
    },
    {
      "epoch": 7.0576,
      "grad_norm": 0.0,
      "learning_rate": 0.00012759999999999998,
      "loss": 4.1099,
      "step": 4411
    },
    {
      "epoch": 7.0592,
      "grad_norm": 0.0,
      "learning_rate": 0.0001274,
      "loss": 4.1237,
      "step": 4412
    },
    {
      "epoch": 7.0608,
      "grad_norm": 0.0,
      "learning_rate": 0.00012719999999999997,
      "loss": 5.7603,
      "step": 4413
    },
    {
      "epoch": 7.0624,
      "grad_norm": 0.0,
      "learning_rate": 0.000127,
      "loss": 5.6802,
      "step": 4414
    },
    {
      "epoch": 7.064,
      "grad_norm": 0.0,
      "learning_rate": 0.0001268,
      "loss": 5.062,
      "step": 4415
    },
    {
      "epoch": 7.0656,
      "grad_norm": 0.0,
      "learning_rate": 0.0001266,
      "loss": 5.1358,
      "step": 4416
    },
    {
      "epoch": 7.0672,
      "grad_norm": 0.0,
      "learning_rate": 0.00012639999999999998,
      "loss": 5.7706,
      "step": 4417
    },
    {
      "epoch": 7.0688,
      "grad_norm": 0.0,
      "learning_rate": 0.0001262,
      "loss": 4.1849,
      "step": 4418
    },
    {
      "epoch": 7.0704,
      "grad_norm": 0.0,
      "learning_rate": 0.00012599999999999997,
      "loss": 5.2318,
      "step": 4419
    },
    {
      "epoch": 7.072,
      "grad_norm": 0.0,
      "learning_rate": 0.0001258,
      "loss": 3.6845,
      "step": 4420
    },
    {
      "epoch": 7.0736,
      "grad_norm": 0.0,
      "learning_rate": 0.0001256,
      "loss": 6.4123,
      "step": 4421
    },
    {
      "epoch": 7.0752,
      "grad_norm": 0.0,
      "learning_rate": 0.00012539999999999999,
      "loss": 4.6083,
      "step": 4422
    },
    {
      "epoch": 7.0768,
      "grad_norm": 0.0,
      "learning_rate": 0.00012519999999999998,
      "loss": 5.0964,
      "step": 4423
    },
    {
      "epoch": 7.0784,
      "grad_norm": 0.0,
      "learning_rate": 0.000125,
      "loss": 4.5912,
      "step": 4424
    },
    {
      "epoch": 7.08,
      "grad_norm": 0.0,
      "learning_rate": 0.00012479999999999997,
      "loss": 8.8139,
      "step": 4425
    },
    {
      "epoch": 7.0816,
      "grad_norm": 0.0,
      "learning_rate": 0.0001246,
      "loss": 6.2302,
      "step": 4426
    },
    {
      "epoch": 7.0832,
      "grad_norm": 0.0,
      "learning_rate": 0.0001244,
      "loss": 8.877,
      "step": 4427
    },
    {
      "epoch": 7.0848,
      "grad_norm": 0.0,
      "learning_rate": 0.00012419999999999998,
      "loss": 8.6141,
      "step": 4428
    },
    {
      "epoch": 7.0864,
      "grad_norm": 0.0,
      "learning_rate": 0.00012399999999999998,
      "loss": 6.1153,
      "step": 4429
    },
    {
      "epoch": 7.088,
      "grad_norm": 0.0,
      "learning_rate": 0.0001238,
      "loss": 6.8582,
      "step": 4430
    },
    {
      "epoch": 7.0896,
      "grad_norm": 0.0,
      "learning_rate": 0.0001236,
      "loss": 6.4544,
      "step": 4431
    },
    {
      "epoch": 7.0912,
      "grad_norm": 0.0,
      "learning_rate": 0.0001234,
      "loss": 5.2604,
      "step": 4432
    },
    {
      "epoch": 7.0928,
      "grad_norm": 0.0,
      "learning_rate": 0.00012319999999999999,
      "loss": 6.136,
      "step": 4433
    },
    {
      "epoch": 7.0944,
      "grad_norm": 0.0,
      "learning_rate": 0.00012299999999999998,
      "loss": 5.2371,
      "step": 4434
    },
    {
      "epoch": 7.096,
      "grad_norm": 0.0,
      "learning_rate": 0.00012279999999999998,
      "loss": 6.3874,
      "step": 4435
    },
    {
      "epoch": 7.0976,
      "grad_norm": 0.0,
      "learning_rate": 0.0001226,
      "loss": 6.8492,
      "step": 4436
    },
    {
      "epoch": 7.0992,
      "grad_norm": 0.0,
      "learning_rate": 0.0001224,
      "loss": 6.9934,
      "step": 4437
    },
    {
      "epoch": 7.1008,
      "grad_norm": 0.0,
      "learning_rate": 0.0001222,
      "loss": 5.6651,
      "step": 4438
    },
    {
      "epoch": 7.1024,
      "grad_norm": 0.0,
      "learning_rate": 0.000122,
      "loss": 5.3206,
      "step": 4439
    },
    {
      "epoch": 7.104,
      "grad_norm": 0.0,
      "learning_rate": 0.00012179999999999999,
      "loss": 5.3081,
      "step": 4440
    },
    {
      "epoch": 7.1056,
      "grad_norm": 0.0,
      "learning_rate": 0.00012159999999999999,
      "loss": 6.3004,
      "step": 4441
    },
    {
      "epoch": 7.1072,
      "grad_norm": 0.0,
      "learning_rate": 0.0001214,
      "loss": 5.9301,
      "step": 4442
    },
    {
      "epoch": 7.1088,
      "grad_norm": 0.0,
      "learning_rate": 0.00012119999999999999,
      "loss": 5.9583,
      "step": 4443
    },
    {
      "epoch": 7.1104,
      "grad_norm": 0.0,
      "learning_rate": 0.00012099999999999999,
      "loss": 6.3635,
      "step": 4444
    },
    {
      "epoch": 7.112,
      "grad_norm": 0.0,
      "learning_rate": 0.0001208,
      "loss": 6.3125,
      "step": 4445
    },
    {
      "epoch": 7.1136,
      "grad_norm": 0.0,
      "learning_rate": 0.00012059999999999999,
      "loss": 6.3657,
      "step": 4446
    },
    {
      "epoch": 7.1152,
      "grad_norm": 0.0,
      "learning_rate": 0.00012039999999999999,
      "loss": 5.9963,
      "step": 4447
    },
    {
      "epoch": 7.1168,
      "grad_norm": 0.0,
      "learning_rate": 0.0001202,
      "loss": 6.6274,
      "step": 4448
    },
    {
      "epoch": 7.1184,
      "grad_norm": 0.0,
      "learning_rate": 0.00011999999999999999,
      "loss": 4.9015,
      "step": 4449
    },
    {
      "epoch": 7.12,
      "grad_norm": 0.0,
      "learning_rate": 0.00011979999999999998,
      "loss": 4.7555,
      "step": 4450
    },
    {
      "epoch": 7.1216,
      "grad_norm": 0.0,
      "learning_rate": 0.0001196,
      "loss": 5.3612,
      "step": 4451
    },
    {
      "epoch": 7.1232,
      "grad_norm": 0.0,
      "learning_rate": 0.0001194,
      "loss": 5.6789,
      "step": 4452
    },
    {
      "epoch": 7.1248,
      "grad_norm": 0.0,
      "learning_rate": 0.00011919999999999998,
      "loss": 5.6262,
      "step": 4453
    },
    {
      "epoch": 7.1264,
      "grad_norm": 0.0,
      "learning_rate": 0.00011899999999999999,
      "loss": 4.7289,
      "step": 4454
    },
    {
      "epoch": 7.128,
      "grad_norm": 0.0,
      "learning_rate": 0.0001188,
      "loss": 4.7936,
      "step": 4455
    },
    {
      "epoch": 7.1296,
      "grad_norm": 0.0,
      "learning_rate": 0.00011859999999999998,
      "loss": 4.2818,
      "step": 4456
    },
    {
      "epoch": 7.1312,
      "grad_norm": 0.0,
      "learning_rate": 0.00011839999999999999,
      "loss": 5.1505,
      "step": 4457
    },
    {
      "epoch": 7.1328,
      "grad_norm": 0.0,
      "learning_rate": 0.0001182,
      "loss": 5.4992,
      "step": 4458
    },
    {
      "epoch": 7.1344,
      "grad_norm": 0.0,
      "learning_rate": 0.00011799999999999998,
      "loss": 6.3987,
      "step": 4459
    },
    {
      "epoch": 7.136,
      "grad_norm": 0.0,
      "learning_rate": 0.00011779999999999999,
      "loss": 5.4565,
      "step": 4460
    },
    {
      "epoch": 7.1376,
      "grad_norm": 0.0,
      "learning_rate": 0.0001176,
      "loss": 5.7194,
      "step": 4461
    },
    {
      "epoch": 7.1392,
      "grad_norm": 0.0,
      "learning_rate": 0.00011739999999999998,
      "loss": 4.7668,
      "step": 4462
    },
    {
      "epoch": 7.1408,
      "grad_norm": 0.0,
      "learning_rate": 0.00011719999999999999,
      "loss": 4.9837,
      "step": 4463
    },
    {
      "epoch": 7.1424,
      "grad_norm": 0.0,
      "learning_rate": 0.000117,
      "loss": 5.1758,
      "step": 4464
    },
    {
      "epoch": 7.144,
      "grad_norm": 0.0,
      "learning_rate": 0.00011679999999999998,
      "loss": 4.7496,
      "step": 4465
    },
    {
      "epoch": 7.1456,
      "grad_norm": 0.0,
      "learning_rate": 0.00011659999999999999,
      "loss": 7.8581,
      "step": 4466
    },
    {
      "epoch": 7.1472,
      "grad_norm": 0.0,
      "learning_rate": 0.0001164,
      "loss": 5.145,
      "step": 4467
    },
    {
      "epoch": 7.1488,
      "grad_norm": 0.0,
      "learning_rate": 0.00011619999999999998,
      "loss": 4.6992,
      "step": 4468
    },
    {
      "epoch": 7.1504,
      "grad_norm": 0.0,
      "learning_rate": 0.00011599999999999999,
      "loss": 4.039,
      "step": 4469
    },
    {
      "epoch": 7.152,
      "grad_norm": 0.0,
      "learning_rate": 0.0001158,
      "loss": 7.8544,
      "step": 4470
    },
    {
      "epoch": 7.1536,
      "grad_norm": 0.0,
      "learning_rate": 0.0001156,
      "loss": 7.962,
      "step": 4471
    },
    {
      "epoch": 7.1552,
      "grad_norm": 0.0,
      "learning_rate": 0.00011539999999999999,
      "loss": 4.9886,
      "step": 4472
    },
    {
      "epoch": 7.1568,
      "grad_norm": 0.0,
      "learning_rate": 0.0001152,
      "loss": 5.7649,
      "step": 4473
    },
    {
      "epoch": 7.1584,
      "grad_norm": 0.0,
      "learning_rate": 0.000115,
      "loss": 5.0145,
      "step": 4474
    },
    {
      "epoch": 7.16,
      "grad_norm": 0.0,
      "learning_rate": 0.00011479999999999999,
      "loss": 6.2514,
      "step": 4475
    },
    {
      "epoch": 7.1616,
      "grad_norm": 0.0,
      "learning_rate": 0.0001146,
      "loss": 9.9221,
      "step": 4476
    },
    {
      "epoch": 7.1632,
      "grad_norm": 0.0,
      "learning_rate": 0.0001144,
      "loss": 7.1045,
      "step": 4477
    },
    {
      "epoch": 7.1648,
      "grad_norm": 0.0,
      "learning_rate": 0.00011419999999999998,
      "loss": 8.9454,
      "step": 4478
    },
    {
      "epoch": 7.1664,
      "grad_norm": 0.0,
      "learning_rate": 0.00011399999999999999,
      "loss": 6.1405,
      "step": 4479
    },
    {
      "epoch": 7.168,
      "grad_norm": 0.0,
      "learning_rate": 0.0001138,
      "loss": 5.8219,
      "step": 4480
    },
    {
      "epoch": 7.1696,
      "grad_norm": 0.0,
      "learning_rate": 0.00011359999999999998,
      "loss": 5.4465,
      "step": 4481
    },
    {
      "epoch": 7.1712,
      "grad_norm": 0.0,
      "learning_rate": 0.00011339999999999999,
      "loss": 4.6502,
      "step": 4482
    },
    {
      "epoch": 7.1728,
      "grad_norm": 0.0,
      "learning_rate": 0.0001132,
      "loss": 6.7632,
      "step": 4483
    },
    {
      "epoch": 7.1744,
      "grad_norm": 0.0,
      "learning_rate": 0.00011299999999999998,
      "loss": 6.6573,
      "step": 4484
    },
    {
      "epoch": 7.176,
      "grad_norm": 0.0,
      "learning_rate": 0.00011279999999999999,
      "loss": 6.581,
      "step": 4485
    },
    {
      "epoch": 7.1776,
      "grad_norm": 0.0,
      "learning_rate": 0.0001126,
      "loss": 5.9751,
      "step": 4486
    },
    {
      "epoch": 7.1792,
      "grad_norm": 0.0,
      "learning_rate": 0.00011239999999999998,
      "loss": 5.5023,
      "step": 4487
    },
    {
      "epoch": 7.1808,
      "grad_norm": 0.0,
      "learning_rate": 0.00011219999999999999,
      "loss": 5.6314,
      "step": 4488
    },
    {
      "epoch": 7.1824,
      "grad_norm": 0.0,
      "learning_rate": 0.000112,
      "loss": 5.947,
      "step": 4489
    },
    {
      "epoch": 7.184,
      "grad_norm": 0.0,
      "learning_rate": 0.00011179999999999998,
      "loss": 5.6288,
      "step": 4490
    },
    {
      "epoch": 7.1856,
      "grad_norm": 0.0,
      "learning_rate": 0.00011159999999999999,
      "loss": 8.1437,
      "step": 4491
    },
    {
      "epoch": 7.1872,
      "grad_norm": 0.0,
      "learning_rate": 0.0001114,
      "loss": 6.3234,
      "step": 4492
    },
    {
      "epoch": 7.1888,
      "grad_norm": 0.0,
      "learning_rate": 0.00011119999999999998,
      "loss": 5.0264,
      "step": 4493
    },
    {
      "epoch": 7.1904,
      "grad_norm": 0.0,
      "learning_rate": 0.00011099999999999999,
      "loss": 4.9791,
      "step": 4494
    },
    {
      "epoch": 7.192,
      "grad_norm": 0.0,
      "learning_rate": 0.0001108,
      "loss": 4.8003,
      "step": 4495
    },
    {
      "epoch": 7.1936,
      "grad_norm": 0.0,
      "learning_rate": 0.00011059999999999998,
      "loss": 5.6593,
      "step": 4496
    },
    {
      "epoch": 7.1952,
      "grad_norm": 0.0,
      "learning_rate": 0.00011039999999999999,
      "loss": 5.3067,
      "step": 4497
    },
    {
      "epoch": 7.1968,
      "grad_norm": 0.0,
      "learning_rate": 0.0001102,
      "loss": 5.948,
      "step": 4498
    },
    {
      "epoch": 7.1984,
      "grad_norm": 0.0,
      "learning_rate": 0.00010999999999999998,
      "loss": 5.1466,
      "step": 4499
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.0,
      "learning_rate": 0.00010979999999999999,
      "loss": 6.0155,
      "step": 4500
    },
    {
      "epoch": 7.2016,
      "grad_norm": 0.0,
      "learning_rate": 0.0001096,
      "loss": 6.0017,
      "step": 4501
    },
    {
      "epoch": 7.2032,
      "grad_norm": 0.0,
      "learning_rate": 0.00010939999999999998,
      "loss": 4.6621,
      "step": 4502
    },
    {
      "epoch": 7.2048,
      "grad_norm": 0.0,
      "learning_rate": 0.00010919999999999998,
      "loss": 4.1596,
      "step": 4503
    },
    {
      "epoch": 7.2064,
      "grad_norm": 0.0,
      "learning_rate": 0.00010899999999999999,
      "loss": 5.6321,
      "step": 4504
    },
    {
      "epoch": 7.208,
      "grad_norm": 0.0,
      "learning_rate": 0.0001088,
      "loss": 6.1822,
      "step": 4505
    },
    {
      "epoch": 7.2096,
      "grad_norm": 0.0,
      "learning_rate": 0.00010859999999999998,
      "loss": 5.5523,
      "step": 4506
    },
    {
      "epoch": 7.2112,
      "grad_norm": 0.0,
      "learning_rate": 0.00010839999999999999,
      "loss": 4.9534,
      "step": 4507
    },
    {
      "epoch": 7.2128,
      "grad_norm": 0.0,
      "learning_rate": 0.0001082,
      "loss": 7.3682,
      "step": 4508
    },
    {
      "epoch": 7.2144,
      "grad_norm": 0.0,
      "learning_rate": 0.00010799999999999998,
      "loss": 4.8959,
      "step": 4509
    },
    {
      "epoch": 7.216,
      "grad_norm": 0.0,
      "learning_rate": 0.00010779999999999999,
      "loss": 6.0667,
      "step": 4510
    },
    {
      "epoch": 7.2176,
      "grad_norm": 0.0,
      "learning_rate": 0.0001076,
      "loss": 5.9187,
      "step": 4511
    },
    {
      "epoch": 7.2192,
      "grad_norm": 0.0,
      "learning_rate": 0.00010739999999999998,
      "loss": 5.4073,
      "step": 4512
    },
    {
      "epoch": 7.2208,
      "grad_norm": 0.0,
      "learning_rate": 0.00010719999999999999,
      "loss": 5.6722,
      "step": 4513
    },
    {
      "epoch": 7.2224,
      "grad_norm": 0.0,
      "learning_rate": 0.000107,
      "loss": 5.9317,
      "step": 4514
    },
    {
      "epoch": 7.224,
      "grad_norm": 0.0,
      "learning_rate": 0.00010679999999999998,
      "loss": 4.132,
      "step": 4515
    },
    {
      "epoch": 7.2256,
      "grad_norm": 0.0,
      "learning_rate": 0.00010659999999999999,
      "loss": 5.6645,
      "step": 4516
    },
    {
      "epoch": 7.2272,
      "grad_norm": 0.0,
      "learning_rate": 0.0001064,
      "loss": 4.6923,
      "step": 4517
    },
    {
      "epoch": 7.2288,
      "grad_norm": 0.0,
      "learning_rate": 0.00010619999999999998,
      "loss": 4.8682,
      "step": 4518
    },
    {
      "epoch": 7.2304,
      "grad_norm": 0.0,
      "learning_rate": 0.00010599999999999999,
      "loss": 4.191,
      "step": 4519
    },
    {
      "epoch": 7.232,
      "grad_norm": 0.0,
      "learning_rate": 0.0001058,
      "loss": 5.2527,
      "step": 4520
    },
    {
      "epoch": 7.2336,
      "grad_norm": 0.0,
      "learning_rate": 0.00010559999999999998,
      "loss": 4.7526,
      "step": 4521
    },
    {
      "epoch": 7.2352,
      "grad_norm": 0.0,
      "learning_rate": 0.00010539999999999999,
      "loss": 5.121,
      "step": 4522
    },
    {
      "epoch": 7.2368,
      "grad_norm": 0.0,
      "learning_rate": 0.0001052,
      "loss": 4.6552,
      "step": 4523
    },
    {
      "epoch": 7.2384,
      "grad_norm": 0.0,
      "learning_rate": 0.00010499999999999999,
      "loss": 5.702,
      "step": 4524
    },
    {
      "epoch": 7.24,
      "grad_norm": 0.0,
      "learning_rate": 0.00010479999999999999,
      "loss": 5.4976,
      "step": 4525
    },
    {
      "epoch": 7.2416,
      "grad_norm": 0.0,
      "learning_rate": 0.0001046,
      "loss": 9.1778,
      "step": 4526
    },
    {
      "epoch": 7.2432,
      "grad_norm": 0.0,
      "learning_rate": 0.00010439999999999999,
      "loss": 6.0219,
      "step": 4527
    },
    {
      "epoch": 7.2448,
      "grad_norm": 0.0,
      "learning_rate": 0.00010419999999999998,
      "loss": 6.5505,
      "step": 4528
    },
    {
      "epoch": 7.2464,
      "grad_norm": 0.0,
      "learning_rate": 0.000104,
      "loss": 7.398,
      "step": 4529
    },
    {
      "epoch": 7.248,
      "grad_norm": 0.0,
      "learning_rate": 0.00010379999999999999,
      "loss": 5.4917,
      "step": 4530
    },
    {
      "epoch": 7.2496,
      "grad_norm": 0.0,
      "learning_rate": 0.00010359999999999998,
      "loss": 7.0849,
      "step": 4531
    },
    {
      "epoch": 7.2512,
      "grad_norm": 0.0,
      "learning_rate": 0.00010339999999999999,
      "loss": 7.2476,
      "step": 4532
    },
    {
      "epoch": 7.2528,
      "grad_norm": 0.0,
      "learning_rate": 0.00010319999999999999,
      "loss": 4.7146,
      "step": 4533
    },
    {
      "epoch": 7.2544,
      "grad_norm": 0.0,
      "learning_rate": 0.00010299999999999998,
      "loss": 4.9772,
      "step": 4534
    },
    {
      "epoch": 7.256,
      "grad_norm": 0.0,
      "learning_rate": 0.00010279999999999999,
      "loss": 7.015,
      "step": 4535
    },
    {
      "epoch": 7.2576,
      "grad_norm": 0.0,
      "learning_rate": 0.0001026,
      "loss": 5.3506,
      "step": 4536
    },
    {
      "epoch": 7.2592,
      "grad_norm": 0.0,
      "learning_rate": 0.00010239999999999998,
      "loss": 5.5831,
      "step": 4537
    },
    {
      "epoch": 7.2608,
      "grad_norm": 0.0,
      "learning_rate": 0.00010219999999999999,
      "loss": 6.6254,
      "step": 4538
    },
    {
      "epoch": 7.2624,
      "grad_norm": 0.0,
      "learning_rate": 0.000102,
      "loss": 4.9123,
      "step": 4539
    },
    {
      "epoch": 7.264,
      "grad_norm": 0.0,
      "learning_rate": 0.00010179999999999998,
      "loss": 6.0006,
      "step": 4540
    },
    {
      "epoch": 7.2656,
      "grad_norm": 0.0,
      "learning_rate": 0.00010159999999999999,
      "loss": 5.8829,
      "step": 4541
    },
    {
      "epoch": 7.2672,
      "grad_norm": 0.0,
      "learning_rate": 0.0001014,
      "loss": 5.986,
      "step": 4542
    },
    {
      "epoch": 7.2688,
      "grad_norm": 0.0,
      "learning_rate": 0.0001012,
      "loss": 5.4264,
      "step": 4543
    },
    {
      "epoch": 7.2704,
      "grad_norm": 0.0,
      "learning_rate": 0.00010099999999999999,
      "loss": 4.8874,
      "step": 4544
    },
    {
      "epoch": 7.272,
      "grad_norm": 0.0,
      "learning_rate": 0.0001008,
      "loss": 5.8265,
      "step": 4545
    },
    {
      "epoch": 7.2736,
      "grad_norm": 0.0,
      "learning_rate": 0.00010059999999999999,
      "loss": 4.9633,
      "step": 4546
    },
    {
      "epoch": 7.2752,
      "grad_norm": 0.0,
      "learning_rate": 0.00010039999999999999,
      "loss": 4.3749,
      "step": 4547
    },
    {
      "epoch": 7.2768,
      "grad_norm": 0.0,
      "learning_rate": 0.0001002,
      "loss": 5.671,
      "step": 4548
    },
    {
      "epoch": 7.2783999999999995,
      "grad_norm": 0.0,
      "learning_rate": 9.999999999999999e-05,
      "loss": 5.3198,
      "step": 4549
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.0,
      "learning_rate": 9.979999999999999e-05,
      "loss": 5.775,
      "step": 4550
    },
    {
      "epoch": 7.2816,
      "grad_norm": 0.0,
      "learning_rate": 9.96e-05,
      "loss": 4.7278,
      "step": 4551
    },
    {
      "epoch": 7.2832,
      "grad_norm": 0.0,
      "learning_rate": 9.939999999999999e-05,
      "loss": 4.5527,
      "step": 4552
    },
    {
      "epoch": 7.2848,
      "grad_norm": 0.0,
      "learning_rate": 9.919999999999999e-05,
      "loss": 4.5961,
      "step": 4553
    },
    {
      "epoch": 7.2864,
      "grad_norm": 0.0,
      "learning_rate": 9.9e-05,
      "loss": 5.379,
      "step": 4554
    },
    {
      "epoch": 7.288,
      "grad_norm": 0.0,
      "learning_rate": 9.879999999999999e-05,
      "loss": 5.084,
      "step": 4555
    },
    {
      "epoch": 7.2896,
      "grad_norm": 0.0,
      "learning_rate": 9.859999999999998e-05,
      "loss": 5.7861,
      "step": 4556
    },
    {
      "epoch": 7.2912,
      "grad_norm": 0.0,
      "learning_rate": 9.839999999999999e-05,
      "loss": 4.1631,
      "step": 4557
    },
    {
      "epoch": 7.2928,
      "grad_norm": 0.0,
      "learning_rate": 9.819999999999999e-05,
      "loss": 6.3292,
      "step": 4558
    },
    {
      "epoch": 7.2943999999999996,
      "grad_norm": 0.0,
      "learning_rate": 9.799999999999998e-05,
      "loss": 5.4362,
      "step": 4559
    },
    {
      "epoch": 7.296,
      "grad_norm": 0.0,
      "learning_rate": 9.779999999999999e-05,
      "loss": 4.5189,
      "step": 4560
    },
    {
      "epoch": 7.2976,
      "grad_norm": 0.0,
      "learning_rate": 9.759999999999999e-05,
      "loss": 5.9651,
      "step": 4561
    },
    {
      "epoch": 7.2992,
      "grad_norm": 0.0,
      "learning_rate": 9.74e-05,
      "loss": 4.46,
      "step": 4562
    },
    {
      "epoch": 7.3008,
      "grad_norm": 0.0,
      "learning_rate": 9.719999999999999e-05,
      "loss": 4.4986,
      "step": 4563
    },
    {
      "epoch": 7.3024000000000004,
      "grad_norm": 0.0,
      "learning_rate": 9.699999999999999e-05,
      "loss": 5.1565,
      "step": 4564
    },
    {
      "epoch": 7.304,
      "grad_norm": 0.0,
      "learning_rate": 9.68e-05,
      "loss": 5.3843,
      "step": 4565
    },
    {
      "epoch": 7.3056,
      "grad_norm": 0.0,
      "learning_rate": 9.659999999999999e-05,
      "loss": 5.6626,
      "step": 4566
    },
    {
      "epoch": 7.3072,
      "grad_norm": 0.0,
      "learning_rate": 9.64e-05,
      "loss": 5.7662,
      "step": 4567
    },
    {
      "epoch": 7.3088,
      "grad_norm": 0.0,
      "learning_rate": 9.62e-05,
      "loss": 5.5606,
      "step": 4568
    },
    {
      "epoch": 7.3104,
      "grad_norm": 0.0,
      "learning_rate": 9.599999999999999e-05,
      "loss": 4.2976,
      "step": 4569
    },
    {
      "epoch": 7.312,
      "grad_norm": 0.0,
      "learning_rate": 9.58e-05,
      "loss": 5.4516,
      "step": 4570
    },
    {
      "epoch": 7.3136,
      "grad_norm": 0.0,
      "learning_rate": 9.559999999999999e-05,
      "loss": 6.1555,
      "step": 4571
    },
    {
      "epoch": 7.3152,
      "grad_norm": 0.0,
      "learning_rate": 9.539999999999999e-05,
      "loss": 7.0566,
      "step": 4572
    },
    {
      "epoch": 7.3168,
      "grad_norm": 0.0,
      "learning_rate": 9.52e-05,
      "loss": 6.2485,
      "step": 4573
    },
    {
      "epoch": 7.3184000000000005,
      "grad_norm": 0.0,
      "learning_rate": 9.499999999999999e-05,
      "loss": 5.5418,
      "step": 4574
    },
    {
      "epoch": 7.32,
      "grad_norm": 0.0,
      "learning_rate": 9.479999999999999e-05,
      "loss": 6.8718,
      "step": 4575
    },
    {
      "epoch": 7.3216,
      "grad_norm": 0.0,
      "learning_rate": 9.46e-05,
      "loss": 7.5029,
      "step": 4576
    },
    {
      "epoch": 7.3232,
      "grad_norm": 0.0,
      "learning_rate": 9.439999999999999e-05,
      "loss": 10.0158,
      "step": 4577
    },
    {
      "epoch": 7.3248,
      "grad_norm": 0.0,
      "learning_rate": 9.419999999999999e-05,
      "loss": 7.9961,
      "step": 4578
    },
    {
      "epoch": 7.3264,
      "grad_norm": 0.0,
      "learning_rate": 9.4e-05,
      "loss": 5.9108,
      "step": 4579
    },
    {
      "epoch": 7.328,
      "grad_norm": 0.0,
      "learning_rate": 9.379999999999999e-05,
      "loss": 6.1267,
      "step": 4580
    },
    {
      "epoch": 7.3296,
      "grad_norm": 0.0,
      "learning_rate": 9.36e-05,
      "loss": 7.2778,
      "step": 4581
    },
    {
      "epoch": 7.3312,
      "grad_norm": 0.0,
      "learning_rate": 9.34e-05,
      "loss": 7.5165,
      "step": 4582
    },
    {
      "epoch": 7.3328,
      "grad_norm": 0.0,
      "learning_rate": 9.319999999999999e-05,
      "loss": 6.0881,
      "step": 4583
    },
    {
      "epoch": 7.3344,
      "grad_norm": 0.0,
      "learning_rate": 9.3e-05,
      "loss": 5.5847,
      "step": 4584
    },
    {
      "epoch": 7.336,
      "grad_norm": 0.0,
      "learning_rate": 9.279999999999999e-05,
      "loss": 6.7273,
      "step": 4585
    },
    {
      "epoch": 7.3376,
      "grad_norm": 0.0,
      "learning_rate": 9.259999999999999e-05,
      "loss": 7.1118,
      "step": 4586
    },
    {
      "epoch": 7.3392,
      "grad_norm": 0.0,
      "learning_rate": 9.24e-05,
      "loss": 5.3542,
      "step": 4587
    },
    {
      "epoch": 7.3408,
      "grad_norm": 0.0,
      "learning_rate": 9.219999999999999e-05,
      "loss": 5.7144,
      "step": 4588
    },
    {
      "epoch": 7.3424,
      "grad_norm": 0.0,
      "learning_rate": 9.199999999999999e-05,
      "loss": 5.6577,
      "step": 4589
    },
    {
      "epoch": 7.344,
      "grad_norm": 0.0,
      "learning_rate": 9.18e-05,
      "loss": 6.0528,
      "step": 4590
    },
    {
      "epoch": 7.3456,
      "grad_norm": 0.0,
      "learning_rate": 9.159999999999999e-05,
      "loss": 5.3154,
      "step": 4591
    },
    {
      "epoch": 7.3472,
      "grad_norm": 0.0,
      "learning_rate": 9.139999999999999e-05,
      "loss": 5.4556,
      "step": 4592
    },
    {
      "epoch": 7.3488,
      "grad_norm": 0.0,
      "learning_rate": 9.12e-05,
      "loss": 6.534,
      "step": 4593
    },
    {
      "epoch": 7.3504,
      "grad_norm": 0.0,
      "learning_rate": 9.099999999999999e-05,
      "loss": 4.7311,
      "step": 4594
    },
    {
      "epoch": 7.352,
      "grad_norm": 0.0,
      "learning_rate": 9.079999999999998e-05,
      "loss": 5.2122,
      "step": 4595
    },
    {
      "epoch": 7.3536,
      "grad_norm": 0.0,
      "learning_rate": 9.059999999999999e-05,
      "loss": 6.5695,
      "step": 4596
    },
    {
      "epoch": 7.3552,
      "grad_norm": 0.0,
      "learning_rate": 9.039999999999999e-05,
      "loss": 4.9663,
      "step": 4597
    },
    {
      "epoch": 7.3568,
      "grad_norm": 0.0,
      "learning_rate": 9.02e-05,
      "loss": 5.1939,
      "step": 4598
    },
    {
      "epoch": 7.3584,
      "grad_norm": 0.0,
      "learning_rate": 8.999999999999999e-05,
      "loss": 4.7028,
      "step": 4599
    },
    {
      "epoch": 7.36,
      "grad_norm": 0.0,
      "learning_rate": 8.98e-05,
      "loss": 5.3145,
      "step": 4600
    },
    {
      "epoch": 7.3616,
      "grad_norm": 0.0,
      "learning_rate": 8.96e-05,
      "loss": 5.1801,
      "step": 4601
    },
    {
      "epoch": 7.3632,
      "grad_norm": 0.0,
      "learning_rate": 8.939999999999999e-05,
      "loss": 4.6629,
      "step": 4602
    },
    {
      "epoch": 7.3648,
      "grad_norm": 0.0,
      "learning_rate": 8.92e-05,
      "loss": 4.8691,
      "step": 4603
    },
    {
      "epoch": 7.3664,
      "grad_norm": 0.0,
      "learning_rate": 8.9e-05,
      "loss": 5.7095,
      "step": 4604
    },
    {
      "epoch": 7.368,
      "grad_norm": 0.0,
      "learning_rate": 8.879999999999999e-05,
      "loss": 5.1561,
      "step": 4605
    },
    {
      "epoch": 7.3696,
      "grad_norm": 0.0,
      "learning_rate": 8.86e-05,
      "loss": 5.1505,
      "step": 4606
    },
    {
      "epoch": 7.3712,
      "grad_norm": 0.0,
      "learning_rate": 8.84e-05,
      "loss": 6.3596,
      "step": 4607
    },
    {
      "epoch": 7.3728,
      "grad_norm": 0.0,
      "learning_rate": 8.819999999999999e-05,
      "loss": 5.2175,
      "step": 4608
    },
    {
      "epoch": 7.3744,
      "grad_norm": 0.0,
      "learning_rate": 8.8e-05,
      "loss": 6.8514,
      "step": 4609
    },
    {
      "epoch": 7.376,
      "grad_norm": 0.0,
      "learning_rate": 8.779999999999999e-05,
      "loss": 5.192,
      "step": 4610
    },
    {
      "epoch": 7.3776,
      "grad_norm": 0.0,
      "learning_rate": 8.759999999999999e-05,
      "loss": 5.23,
      "step": 4611
    },
    {
      "epoch": 7.3792,
      "grad_norm": 0.0,
      "learning_rate": 8.74e-05,
      "loss": 4.7014,
      "step": 4612
    },
    {
      "epoch": 7.3808,
      "grad_norm": 0.0,
      "learning_rate": 8.719999999999999e-05,
      "loss": 6.5306,
      "step": 4613
    },
    {
      "epoch": 7.3824,
      "grad_norm": 0.0,
      "learning_rate": 8.699999999999999e-05,
      "loss": 7.1122,
      "step": 4614
    },
    {
      "epoch": 7.384,
      "grad_norm": 0.0,
      "learning_rate": 8.68e-05,
      "loss": 5.4285,
      "step": 4615
    },
    {
      "epoch": 7.3856,
      "grad_norm": 0.0,
      "learning_rate": 8.659999999999999e-05,
      "loss": 4.6387,
      "step": 4616
    },
    {
      "epoch": 7.3872,
      "grad_norm": 0.0,
      "learning_rate": 8.639999999999999e-05,
      "loss": 5.2592,
      "step": 4617
    },
    {
      "epoch": 7.3888,
      "grad_norm": 0.0,
      "learning_rate": 8.62e-05,
      "loss": 4.1712,
      "step": 4618
    },
    {
      "epoch": 7.3904,
      "grad_norm": 0.0,
      "learning_rate": 8.6e-05,
      "loss": 5.242,
      "step": 4619
    },
    {
      "epoch": 7.392,
      "grad_norm": 0.0,
      "learning_rate": 8.579999999999998e-05,
      "loss": 4.1312,
      "step": 4620
    },
    {
      "epoch": 7.3936,
      "grad_norm": 0.0,
      "learning_rate": 8.56e-05,
      "loss": 4.5079,
      "step": 4621
    },
    {
      "epoch": 7.3952,
      "grad_norm": 0.0,
      "learning_rate": 8.54e-05,
      "loss": 5.0698,
      "step": 4622
    },
    {
      "epoch": 7.3968,
      "grad_norm": 0.0,
      "learning_rate": 8.519999999999998e-05,
      "loss": 4.3451,
      "step": 4623
    },
    {
      "epoch": 7.3984,
      "grad_norm": 0.0,
      "learning_rate": 8.499999999999999e-05,
      "loss": 5.5572,
      "step": 4624
    },
    {
      "epoch": 7.4,
      "grad_norm": NaN,
      "learning_rate": 8.499999999999999e-05,
      "loss": 4.5706,
      "step": 4625
    },
    {
      "epoch": 7.4016,
      "grad_norm": 0.0,
      "learning_rate": 8.48e-05,
      "loss": 9.1471,
      "step": 4626
    },
    {
      "epoch": 7.4032,
      "grad_norm": 0.0,
      "learning_rate": 8.459999999999998e-05,
      "loss": 5.5431,
      "step": 4627
    },
    {
      "epoch": 7.4048,
      "grad_norm": 0.0,
      "learning_rate": 8.439999999999999e-05,
      "loss": 7.5224,
      "step": 4628
    },
    {
      "epoch": 7.4064,
      "grad_norm": 0.0,
      "learning_rate": 8.42e-05,
      "loss": 8.1098,
      "step": 4629
    },
    {
      "epoch": 7.408,
      "grad_norm": 0.0,
      "learning_rate": 8.4e-05,
      "loss": 6.6215,
      "step": 4630
    },
    {
      "epoch": 7.4096,
      "grad_norm": 0.0,
      "learning_rate": 8.379999999999999e-05,
      "loss": 6.1875,
      "step": 4631
    },
    {
      "epoch": 7.4112,
      "grad_norm": 0.0,
      "learning_rate": 8.36e-05,
      "loss": 6.8126,
      "step": 4632
    },
    {
      "epoch": 7.4128,
      "grad_norm": 0.0,
      "learning_rate": 8.34e-05,
      "loss": 6.6636,
      "step": 4633
    },
    {
      "epoch": 7.4144,
      "grad_norm": 0.0,
      "learning_rate": 8.319999999999999e-05,
      "loss": 6.3582,
      "step": 4634
    },
    {
      "epoch": 7.416,
      "grad_norm": 0.0,
      "learning_rate": 8.3e-05,
      "loss": 7.9899,
      "step": 4635
    },
    {
      "epoch": 7.4176,
      "grad_norm": 0.0,
      "learning_rate": 8.28e-05,
      "loss": 6.6879,
      "step": 4636
    },
    {
      "epoch": 7.4192,
      "grad_norm": 0.0,
      "learning_rate": 8.259999999999999e-05,
      "loss": 9.5544,
      "step": 4637
    },
    {
      "epoch": 7.4208,
      "grad_norm": 0.0,
      "learning_rate": 8.24e-05,
      "loss": 5.5785,
      "step": 4638
    },
    {
      "epoch": 7.4224,
      "grad_norm": 0.0,
      "learning_rate": 8.22e-05,
      "loss": 5.8104,
      "step": 4639
    },
    {
      "epoch": 7.424,
      "grad_norm": 0.0,
      "learning_rate": 8.199999999999999e-05,
      "loss": 7.2454,
      "step": 4640
    },
    {
      "epoch": 7.4256,
      "grad_norm": 0.0,
      "learning_rate": 8.18e-05,
      "loss": 5.7244,
      "step": 4641
    },
    {
      "epoch": 7.4272,
      "grad_norm": 0.0,
      "learning_rate": 8.16e-05,
      "loss": 5.099,
      "step": 4642
    },
    {
      "epoch": 7.4288,
      "grad_norm": 0.0,
      "learning_rate": 8.139999999999999e-05,
      "loss": 5.5758,
      "step": 4643
    },
    {
      "epoch": 7.4304,
      "grad_norm": 0.0,
      "learning_rate": 8.12e-05,
      "loss": 5.4576,
      "step": 4644
    },
    {
      "epoch": 7.432,
      "grad_norm": 0.0,
      "learning_rate": 8.1e-05,
      "loss": 5.7294,
      "step": 4645
    },
    {
      "epoch": 7.4336,
      "grad_norm": 0.0,
      "learning_rate": 8.079999999999999e-05,
      "loss": 5.7129,
      "step": 4646
    },
    {
      "epoch": 7.4352,
      "grad_norm": 0.0,
      "learning_rate": 8.06e-05,
      "loss": 6.6869,
      "step": 4647
    },
    {
      "epoch": 7.4368,
      "grad_norm": 0.0,
      "learning_rate": 8.04e-05,
      "loss": 4.8129,
      "step": 4648
    },
    {
      "epoch": 7.4384,
      "grad_norm": 0.0,
      "learning_rate": 8.019999999999998e-05,
      "loss": 5.9987,
      "step": 4649
    },
    {
      "epoch": 7.44,
      "grad_norm": 0.0,
      "learning_rate": 7.999999999999999e-05,
      "loss": 6.4853,
      "step": 4650
    },
    {
      "epoch": 7.4416,
      "grad_norm": 0.0,
      "learning_rate": 7.98e-05,
      "loss": 4.5373,
      "step": 4651
    },
    {
      "epoch": 7.4432,
      "grad_norm": 0.0,
      "learning_rate": 7.959999999999998e-05,
      "loss": 6.8861,
      "step": 4652
    },
    {
      "epoch": 7.4448,
      "grad_norm": 0.0,
      "learning_rate": 7.939999999999999e-05,
      "loss": 6.1501,
      "step": 4653
    },
    {
      "epoch": 7.4464,
      "grad_norm": 0.0,
      "learning_rate": 7.92e-05,
      "loss": 5.8647,
      "step": 4654
    },
    {
      "epoch": 7.448,
      "grad_norm": 0.0,
      "learning_rate": 7.899999999999998e-05,
      "loss": 4.9637,
      "step": 4655
    },
    {
      "epoch": 7.4496,
      "grad_norm": 0.0,
      "learning_rate": 7.879999999999999e-05,
      "loss": 5.0376,
      "step": 4656
    },
    {
      "epoch": 7.4512,
      "grad_norm": 0.0,
      "learning_rate": 7.86e-05,
      "loss": 6.151,
      "step": 4657
    },
    {
      "epoch": 7.4528,
      "grad_norm": 0.0,
      "learning_rate": 7.839999999999998e-05,
      "loss": 5.6569,
      "step": 4658
    },
    {
      "epoch": 7.4544,
      "grad_norm": 0.0,
      "learning_rate": 7.819999999999999e-05,
      "loss": 6.8896,
      "step": 4659
    },
    {
      "epoch": 7.456,
      "grad_norm": 0.0,
      "learning_rate": 7.8e-05,
      "loss": 8.7722,
      "step": 4660
    },
    {
      "epoch": 7.4576,
      "grad_norm": 0.0,
      "learning_rate": 7.780000000000001e-05,
      "loss": 5.0723,
      "step": 4661
    },
    {
      "epoch": 7.4592,
      "grad_norm": 0.0,
      "learning_rate": 7.759999999999999e-05,
      "loss": 6.1052,
      "step": 4662
    },
    {
      "epoch": 7.4608,
      "grad_norm": 0.0,
      "learning_rate": 7.74e-05,
      "loss": 7.5137,
      "step": 4663
    },
    {
      "epoch": 7.4624,
      "grad_norm": 0.0,
      "learning_rate": 7.72e-05,
      "loss": 6.1545,
      "step": 4664
    },
    {
      "epoch": 7.464,
      "grad_norm": 0.0,
      "learning_rate": 7.699999999999999e-05,
      "loss": 5.8375,
      "step": 4665
    },
    {
      "epoch": 7.4656,
      "grad_norm": 0.0,
      "learning_rate": 7.68e-05,
      "loss": 6.6794,
      "step": 4666
    },
    {
      "epoch": 7.4672,
      "grad_norm": 0.0,
      "learning_rate": 7.66e-05,
      "loss": 6.124,
      "step": 4667
    },
    {
      "epoch": 7.4688,
      "grad_norm": 0.0,
      "learning_rate": 7.639999999999999e-05,
      "loss": 5.5258,
      "step": 4668
    },
    {
      "epoch": 7.4704,
      "grad_norm": 0.0,
      "learning_rate": 7.62e-05,
      "loss": 7.1363,
      "step": 4669
    },
    {
      "epoch": 7.4719999999999995,
      "grad_norm": 0.0,
      "learning_rate": 7.6e-05,
      "loss": 5.5696,
      "step": 4670
    },
    {
      "epoch": 7.4736,
      "grad_norm": 0.0,
      "learning_rate": 7.579999999999999e-05,
      "loss": 6.3159,
      "step": 4671
    },
    {
      "epoch": 7.4752,
      "grad_norm": 0.0,
      "learning_rate": 7.56e-05,
      "loss": 4.9495,
      "step": 4672
    },
    {
      "epoch": 7.4768,
      "grad_norm": 0.0,
      "learning_rate": 7.54e-05,
      "loss": 8.4961,
      "step": 4673
    },
    {
      "epoch": 7.4784,
      "grad_norm": 0.0,
      "learning_rate": 7.519999999999998e-05,
      "loss": 5.5302,
      "step": 4674
    },
    {
      "epoch": 7.48,
      "grad_norm": NaN,
      "learning_rate": 7.519999999999998e-05,
      "loss": 5.4775,
      "step": 4675
    },
    {
      "epoch": 7.4816,
      "grad_norm": 0.0,
      "learning_rate": 7.5e-05,
      "loss": 8.5038,
      "step": 4676
    },
    {
      "epoch": 7.4832,
      "grad_norm": 0.0,
      "learning_rate": 7.479999999999999e-05,
      "loss": 9.0773,
      "step": 4677
    },
    {
      "epoch": 7.4848,
      "grad_norm": 0.0,
      "learning_rate": 7.46e-05,
      "loss": 5.5849,
      "step": 4678
    },
    {
      "epoch": 7.4864,
      "grad_norm": 0.0,
      "learning_rate": 7.439999999999999e-05,
      "loss": 6.4928,
      "step": 4679
    },
    {
      "epoch": 7.4879999999999995,
      "grad_norm": 0.0,
      "learning_rate": 7.419999999999999e-05,
      "loss": 6.92,
      "step": 4680
    },
    {
      "epoch": 7.4896,
      "grad_norm": 0.0,
      "learning_rate": 7.4e-05,
      "loss": 9.2248,
      "step": 4681
    },
    {
      "epoch": 7.4912,
      "grad_norm": 0.0,
      "learning_rate": 7.379999999999999e-05,
      "loss": 6.1579,
      "step": 4682
    },
    {
      "epoch": 7.4928,
      "grad_norm": 0.0,
      "learning_rate": 7.359999999999999e-05,
      "loss": 5.7149,
      "step": 4683
    },
    {
      "epoch": 7.4944,
      "grad_norm": 0.0,
      "learning_rate": 7.34e-05,
      "loss": 5.8885,
      "step": 4684
    },
    {
      "epoch": 7.496,
      "grad_norm": 0.0,
      "learning_rate": 7.319999999999999e-05,
      "loss": 6.8303,
      "step": 4685
    },
    {
      "epoch": 7.4976,
      "grad_norm": 0.0,
      "learning_rate": 7.3e-05,
      "loss": 5.4559,
      "step": 4686
    },
    {
      "epoch": 7.4992,
      "grad_norm": 0.0,
      "learning_rate": 7.28e-05,
      "loss": 5.6105,
      "step": 4687
    },
    {
      "epoch": 7.5008,
      "grad_norm": 0.0,
      "learning_rate": 7.259999999999999e-05,
      "loss": 6.1776,
      "step": 4688
    },
    {
      "epoch": 7.5024,
      "grad_norm": 0.0,
      "learning_rate": 7.24e-05,
      "loss": 5.752,
      "step": 4689
    },
    {
      "epoch": 7.504,
      "grad_norm": 0.0,
      "learning_rate": 7.219999999999999e-05,
      "loss": 4.8259,
      "step": 4690
    },
    {
      "epoch": 7.5056,
      "grad_norm": 0.0,
      "learning_rate": 7.199999999999999e-05,
      "loss": 6.6351,
      "step": 4691
    },
    {
      "epoch": 7.5072,
      "grad_norm": 0.0,
      "learning_rate": 7.18e-05,
      "loss": 4.9969,
      "step": 4692
    },
    {
      "epoch": 7.5088,
      "grad_norm": 0.0,
      "learning_rate": 7.159999999999999e-05,
      "loss": 6.3686,
      "step": 4693
    },
    {
      "epoch": 7.5104,
      "grad_norm": 0.0,
      "learning_rate": 7.139999999999999e-05,
      "loss": 5.6769,
      "step": 4694
    },
    {
      "epoch": 7.5120000000000005,
      "grad_norm": 0.0,
      "learning_rate": 7.12e-05,
      "loss": 4.8072,
      "step": 4695
    },
    {
      "epoch": 7.5136,
      "grad_norm": 0.0,
      "learning_rate": 7.099999999999999e-05,
      "loss": 4.6194,
      "step": 4696
    },
    {
      "epoch": 7.5152,
      "grad_norm": 0.0,
      "learning_rate": 7.079999999999999e-05,
      "loss": 6.4218,
      "step": 4697
    },
    {
      "epoch": 7.5168,
      "grad_norm": 0.0,
      "learning_rate": 7.06e-05,
      "loss": 6.6693,
      "step": 4698
    },
    {
      "epoch": 7.5184,
      "grad_norm": 0.0,
      "learning_rate": 7.039999999999999e-05,
      "loss": 5.2383,
      "step": 4699
    },
    {
      "epoch": 7.52,
      "grad_norm": 0.0,
      "learning_rate": 7.02e-05,
      "loss": 5.0857,
      "step": 4700
    },
    {
      "epoch": 7.5216,
      "grad_norm": 0.0,
      "learning_rate": 7e-05,
      "loss": 5.7426,
      "step": 4701
    },
    {
      "epoch": 7.5232,
      "grad_norm": 0.0,
      "learning_rate": 6.979999999999999e-05,
      "loss": 6.5368,
      "step": 4702
    },
    {
      "epoch": 7.5248,
      "grad_norm": 0.0,
      "learning_rate": 6.96e-05,
      "loss": 4.9804,
      "step": 4703
    },
    {
      "epoch": 7.5264,
      "grad_norm": 0.0,
      "learning_rate": 6.939999999999999e-05,
      "loss": 6.113,
      "step": 4704
    },
    {
      "epoch": 7.5280000000000005,
      "grad_norm": 0.0,
      "learning_rate": 6.919999999999999e-05,
      "loss": 5.4554,
      "step": 4705
    },
    {
      "epoch": 7.5296,
      "grad_norm": 0.0,
      "learning_rate": 6.9e-05,
      "loss": 5.2051,
      "step": 4706
    },
    {
      "epoch": 7.5312,
      "grad_norm": 0.0,
      "learning_rate": 6.879999999999999e-05,
      "loss": 3.9168,
      "step": 4707
    },
    {
      "epoch": 7.5328,
      "grad_norm": 0.0,
      "learning_rate": 6.859999999999999e-05,
      "loss": 5.3433,
      "step": 4708
    },
    {
      "epoch": 7.5344,
      "grad_norm": 0.0,
      "learning_rate": 6.84e-05,
      "loss": 5.7255,
      "step": 4709
    },
    {
      "epoch": 7.536,
      "grad_norm": 0.0,
      "learning_rate": 6.819999999999999e-05,
      "loss": 5.2953,
      "step": 4710
    },
    {
      "epoch": 7.5376,
      "grad_norm": 0.0,
      "learning_rate": 6.799999999999999e-05,
      "loss": 3.8887,
      "step": 4711
    },
    {
      "epoch": 7.5392,
      "grad_norm": 0.0,
      "learning_rate": 6.78e-05,
      "loss": 5.8622,
      "step": 4712
    },
    {
      "epoch": 7.5408,
      "grad_norm": 0.0,
      "learning_rate": 6.759999999999999e-05,
      "loss": 6.3661,
      "step": 4713
    },
    {
      "epoch": 7.5424,
      "grad_norm": 0.0,
      "learning_rate": 6.739999999999998e-05,
      "loss": 4.3511,
      "step": 4714
    },
    {
      "epoch": 7.5440000000000005,
      "grad_norm": 0.0,
      "learning_rate": 6.72e-05,
      "loss": 4.4677,
      "step": 4715
    },
    {
      "epoch": 7.5456,
      "grad_norm": 0.0,
      "learning_rate": 6.699999999999999e-05,
      "loss": 4.8682,
      "step": 4716
    },
    {
      "epoch": 7.5472,
      "grad_norm": 0.0,
      "learning_rate": 6.68e-05,
      "loss": 5.301,
      "step": 4717
    },
    {
      "epoch": 7.5488,
      "grad_norm": 0.0,
      "learning_rate": 6.659999999999999e-05,
      "loss": 5.2216,
      "step": 4718
    },
    {
      "epoch": 7.5504,
      "grad_norm": 0.0,
      "learning_rate": 6.639999999999999e-05,
      "loss": 6.1162,
      "step": 4719
    },
    {
      "epoch": 7.552,
      "grad_norm": 0.0,
      "learning_rate": 6.62e-05,
      "loss": 5.4302,
      "step": 4720
    },
    {
      "epoch": 7.5536,
      "grad_norm": 0.0,
      "learning_rate": 6.599999999999999e-05,
      "loss": 6.0123,
      "step": 4721
    },
    {
      "epoch": 7.5552,
      "grad_norm": 0.0,
      "learning_rate": 6.579999999999999e-05,
      "loss": 5.5139,
      "step": 4722
    },
    {
      "epoch": 7.5568,
      "grad_norm": 0.0,
      "learning_rate": 6.56e-05,
      "loss": 4.56,
      "step": 4723
    },
    {
      "epoch": 7.5584,
      "grad_norm": 0.0,
      "learning_rate": 6.539999999999999e-05,
      "loss": 5.2422,
      "step": 4724
    },
    {
      "epoch": 7.5600000000000005,
      "grad_norm": NaN,
      "learning_rate": 6.539999999999999e-05,
      "loss": 6.8643,
      "step": 4725
    },
    {
      "epoch": 7.5616,
      "grad_norm": 0.0,
      "learning_rate": 6.519999999999999e-05,
      "loss": 7.8714,
      "step": 4726
    },
    {
      "epoch": 7.5632,
      "grad_norm": 0.0,
      "learning_rate": 6.5e-05,
      "loss": 6.7089,
      "step": 4727
    },
    {
      "epoch": 7.5648,
      "grad_norm": 0.0,
      "learning_rate": 6.479999999999999e-05,
      "loss": 6.5865,
      "step": 4728
    },
    {
      "epoch": 7.5664,
      "grad_norm": 0.0,
      "learning_rate": 6.459999999999998e-05,
      "loss": 6.3169,
      "step": 4729
    },
    {
      "epoch": 7.568,
      "grad_norm": 0.0,
      "learning_rate": 6.44e-05,
      "loss": 7.2559,
      "step": 4730
    },
    {
      "epoch": 7.5696,
      "grad_norm": 0.0,
      "learning_rate": 6.419999999999999e-05,
      "loss": 5.5722,
      "step": 4731
    },
    {
      "epoch": 7.5712,
      "grad_norm": 0.0,
      "learning_rate": 6.4e-05,
      "loss": 6.0926,
      "step": 4732
    },
    {
      "epoch": 7.5728,
      "grad_norm": 0.0,
      "learning_rate": 6.379999999999999e-05,
      "loss": 7.0853,
      "step": 4733
    },
    {
      "epoch": 7.5744,
      "grad_norm": 0.0,
      "learning_rate": 6.359999999999999e-05,
      "loss": 7.875,
      "step": 4734
    },
    {
      "epoch": 7.576,
      "grad_norm": 0.0,
      "learning_rate": 6.34e-05,
      "loss": 5.6398,
      "step": 4735
    },
    {
      "epoch": 7.5776,
      "grad_norm": 0.0,
      "learning_rate": 6.319999999999999e-05,
      "loss": 5.8603,
      "step": 4736
    },
    {
      "epoch": 7.5792,
      "grad_norm": 0.0,
      "learning_rate": 6.299999999999999e-05,
      "loss": 6.0807,
      "step": 4737
    },
    {
      "epoch": 7.5808,
      "grad_norm": 0.0,
      "learning_rate": 6.28e-05,
      "loss": 6.1367,
      "step": 4738
    },
    {
      "epoch": 7.5824,
      "grad_norm": 0.0,
      "learning_rate": 6.259999999999999e-05,
      "loss": 6.0631,
      "step": 4739
    },
    {
      "epoch": 7.584,
      "grad_norm": 0.0,
      "learning_rate": 6.239999999999999e-05,
      "loss": 8.0581,
      "step": 4740
    },
    {
      "epoch": 7.5856,
      "grad_norm": 0.0,
      "learning_rate": 6.22e-05,
      "loss": 6.0168,
      "step": 4741
    },
    {
      "epoch": 7.5872,
      "grad_norm": 0.0,
      "learning_rate": 6.199999999999999e-05,
      "loss": 4.8141,
      "step": 4742
    },
    {
      "epoch": 7.5888,
      "grad_norm": 0.0,
      "learning_rate": 6.18e-05,
      "loss": 5.3598,
      "step": 4743
    },
    {
      "epoch": 7.5904,
      "grad_norm": 0.0,
      "learning_rate": 6.159999999999999e-05,
      "loss": 6.5929,
      "step": 4744
    },
    {
      "epoch": 7.592,
      "grad_norm": 0.0,
      "learning_rate": 6.139999999999999e-05,
      "loss": 6.7241,
      "step": 4745
    },
    {
      "epoch": 7.5936,
      "grad_norm": 0.0,
      "learning_rate": 6.12e-05,
      "loss": 5.0923,
      "step": 4746
    },
    {
      "epoch": 7.5952,
      "grad_norm": 0.0,
      "learning_rate": 6.1e-05,
      "loss": 5.385,
      "step": 4747
    },
    {
      "epoch": 7.5968,
      "grad_norm": 0.0,
      "learning_rate": 6.0799999999999994e-05,
      "loss": 6.4209,
      "step": 4748
    },
    {
      "epoch": 7.5984,
      "grad_norm": 0.0,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 5.168,
      "step": 4749
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.0,
      "learning_rate": 6.04e-05,
      "loss": 6.4378,
      "step": 4750
    },
    {
      "epoch": 7.6016,
      "grad_norm": 0.0,
      "learning_rate": 6.019999999999999e-05,
      "loss": 6.2172,
      "step": 4751
    },
    {
      "epoch": 7.6032,
      "grad_norm": 0.0,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 6.6248,
      "step": 4752
    },
    {
      "epoch": 7.6048,
      "grad_norm": 0.0,
      "learning_rate": 5.98e-05,
      "loss": 5.5064,
      "step": 4753
    },
    {
      "epoch": 7.6064,
      "grad_norm": 0.0,
      "learning_rate": 5.959999999999999e-05,
      "loss": 4.5904,
      "step": 4754
    },
    {
      "epoch": 7.608,
      "grad_norm": 0.0,
      "learning_rate": 5.94e-05,
      "loss": 5.6806,
      "step": 4755
    },
    {
      "epoch": 7.6096,
      "grad_norm": 0.0,
      "learning_rate": 5.9199999999999996e-05,
      "loss": 5.9776,
      "step": 4756
    },
    {
      "epoch": 7.6112,
      "grad_norm": 0.0,
      "learning_rate": 5.899999999999999e-05,
      "loss": 4.1508,
      "step": 4757
    },
    {
      "epoch": 7.6128,
      "grad_norm": 0.0,
      "learning_rate": 5.88e-05,
      "loss": 5.5701,
      "step": 4758
    },
    {
      "epoch": 7.6144,
      "grad_norm": 0.0,
      "learning_rate": 5.8599999999999995e-05,
      "loss": 4.0837,
      "step": 4759
    },
    {
      "epoch": 7.616,
      "grad_norm": 0.0,
      "learning_rate": 5.839999999999999e-05,
      "loss": 5.0102,
      "step": 4760
    },
    {
      "epoch": 7.6176,
      "grad_norm": 0.0,
      "learning_rate": 5.82e-05,
      "loss": 5.8299,
      "step": 4761
    },
    {
      "epoch": 7.6192,
      "grad_norm": 0.0,
      "learning_rate": 5.7999999999999994e-05,
      "loss": 5.4028,
      "step": 4762
    },
    {
      "epoch": 7.6208,
      "grad_norm": 0.0,
      "learning_rate": 5.78e-05,
      "loss": 6.6224,
      "step": 4763
    },
    {
      "epoch": 7.6224,
      "grad_norm": 0.0,
      "learning_rate": 5.76e-05,
      "loss": 8.957,
      "step": 4764
    },
    {
      "epoch": 7.624,
      "grad_norm": 0.0,
      "learning_rate": 5.739999999999999e-05,
      "loss": 5.6631,
      "step": 4765
    },
    {
      "epoch": 7.6256,
      "grad_norm": 0.0,
      "learning_rate": 5.72e-05,
      "loss": 4.9659,
      "step": 4766
    },
    {
      "epoch": 7.6272,
      "grad_norm": 0.0,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 4.7382,
      "step": 4767
    },
    {
      "epoch": 7.6288,
      "grad_norm": 0.0,
      "learning_rate": 5.679999999999999e-05,
      "loss": 5.591,
      "step": 4768
    },
    {
      "epoch": 7.6304,
      "grad_norm": 0.0,
      "learning_rate": 5.66e-05,
      "loss": 6.0642,
      "step": 4769
    },
    {
      "epoch": 7.632,
      "grad_norm": 0.0,
      "learning_rate": 5.6399999999999995e-05,
      "loss": 4.8258,
      "step": 4770
    },
    {
      "epoch": 7.6336,
      "grad_norm": 0.0,
      "learning_rate": 5.619999999999999e-05,
      "loss": 5.002,
      "step": 4771
    },
    {
      "epoch": 7.6352,
      "grad_norm": 0.0,
      "learning_rate": 5.6e-05,
      "loss": 5.5322,
      "step": 4772
    },
    {
      "epoch": 7.6368,
      "grad_norm": 0.0,
      "learning_rate": 5.5799999999999994e-05,
      "loss": 4.1246,
      "step": 4773
    },
    {
      "epoch": 7.6384,
      "grad_norm": 0.0,
      "learning_rate": 5.559999999999999e-05,
      "loss": 7.411,
      "step": 4774
    },
    {
      "epoch": 7.64,
      "grad_norm": NaN,
      "learning_rate": 5.559999999999999e-05,
      "loss": 6.6256,
      "step": 4775
    },
    {
      "epoch": 7.6416,
      "grad_norm": 0.0,
      "learning_rate": 5.54e-05,
      "loss": 7.4721,
      "step": 4776
    },
    {
      "epoch": 7.6432,
      "grad_norm": 0.0,
      "learning_rate": 5.519999999999999e-05,
      "loss": 8.1493,
      "step": 4777
    },
    {
      "epoch": 7.6448,
      "grad_norm": 0.0,
      "learning_rate": 5.499999999999999e-05,
      "loss": 6.7723,
      "step": 4778
    },
    {
      "epoch": 7.6464,
      "grad_norm": 0.0,
      "learning_rate": 5.48e-05,
      "loss": 5.6596,
      "step": 4779
    },
    {
      "epoch": 7.648,
      "grad_norm": 0.0,
      "learning_rate": 5.459999999999999e-05,
      "loss": 5.8716,
      "step": 4780
    },
    {
      "epoch": 7.6495999999999995,
      "grad_norm": 0.0,
      "learning_rate": 5.44e-05,
      "loss": 7.7081,
      "step": 4781
    },
    {
      "epoch": 7.6512,
      "grad_norm": 0.0,
      "learning_rate": 5.4199999999999996e-05,
      "loss": 5.1134,
      "step": 4782
    },
    {
      "epoch": 7.6528,
      "grad_norm": 0.0,
      "learning_rate": 5.399999999999999e-05,
      "loss": 5.7436,
      "step": 4783
    },
    {
      "epoch": 7.6544,
      "grad_norm": 0.0,
      "learning_rate": 5.38e-05,
      "loss": 5.7095,
      "step": 4784
    },
    {
      "epoch": 7.656,
      "grad_norm": 0.0,
      "learning_rate": 5.3599999999999995e-05,
      "loss": 6.8807,
      "step": 4785
    },
    {
      "epoch": 7.6576,
      "grad_norm": 0.0,
      "learning_rate": 5.339999999999999e-05,
      "loss": 4.901,
      "step": 4786
    },
    {
      "epoch": 7.6592,
      "grad_norm": 0.0,
      "learning_rate": 5.32e-05,
      "loss": 4.5638,
      "step": 4787
    },
    {
      "epoch": 7.6608,
      "grad_norm": 0.0,
      "learning_rate": 5.2999999999999994e-05,
      "loss": 6.5257,
      "step": 4788
    },
    {
      "epoch": 7.6624,
      "grad_norm": 0.0,
      "learning_rate": 5.279999999999999e-05,
      "loss": 6.265,
      "step": 4789
    },
    {
      "epoch": 7.664,
      "grad_norm": 0.0,
      "learning_rate": 5.26e-05,
      "loss": 4.5508,
      "step": 4790
    },
    {
      "epoch": 7.6655999999999995,
      "grad_norm": 0.0,
      "learning_rate": 5.239999999999999e-05,
      "loss": 5.7981,
      "step": 4791
    },
    {
      "epoch": 7.6672,
      "grad_norm": 0.0,
      "learning_rate": 5.2199999999999995e-05,
      "loss": 6.1889,
      "step": 4792
    },
    {
      "epoch": 7.6688,
      "grad_norm": 0.0,
      "learning_rate": 5.2e-05,
      "loss": 6.1205,
      "step": 4793
    },
    {
      "epoch": 7.6704,
      "grad_norm": 0.0,
      "learning_rate": 5.179999999999999e-05,
      "loss": 8.812,
      "step": 4794
    },
    {
      "epoch": 7.672,
      "grad_norm": 0.0,
      "learning_rate": 5.1599999999999994e-05,
      "loss": 5.5074,
      "step": 4795
    },
    {
      "epoch": 7.6736,
      "grad_norm": 0.0,
      "learning_rate": 5.1399999999999996e-05,
      "loss": 5.5454,
      "step": 4796
    },
    {
      "epoch": 7.6752,
      "grad_norm": 0.0,
      "learning_rate": 5.119999999999999e-05,
      "loss": 6.1127,
      "step": 4797
    },
    {
      "epoch": 7.6768,
      "grad_norm": 0.0,
      "learning_rate": 5.1e-05,
      "loss": 5.1458,
      "step": 4798
    },
    {
      "epoch": 7.6784,
      "grad_norm": 0.0,
      "learning_rate": 5.0799999999999995e-05,
      "loss": 5.9438,
      "step": 4799
    },
    {
      "epoch": 7.68,
      "grad_norm": 0.0,
      "learning_rate": 5.06e-05,
      "loss": 4.0715,
      "step": 4800
    },
    {
      "epoch": 7.6815999999999995,
      "grad_norm": 0.0,
      "learning_rate": 5.04e-05,
      "loss": 4.9464,
      "step": 4801
    },
    {
      "epoch": 7.6832,
      "grad_norm": 0.0,
      "learning_rate": 5.0199999999999994e-05,
      "loss": 4.4932,
      "step": 4802
    },
    {
      "epoch": 7.6848,
      "grad_norm": 0.0,
      "learning_rate": 4.9999999999999996e-05,
      "loss": 4.6418,
      "step": 4803
    },
    {
      "epoch": 7.6864,
      "grad_norm": 0.0,
      "learning_rate": 4.98e-05,
      "loss": 5.4522,
      "step": 4804
    },
    {
      "epoch": 7.688,
      "grad_norm": 0.0,
      "learning_rate": 4.959999999999999e-05,
      "loss": 6.5306,
      "step": 4805
    },
    {
      "epoch": 7.6896,
      "grad_norm": 0.0,
      "learning_rate": 4.9399999999999995e-05,
      "loss": 4.8029,
      "step": 4806
    },
    {
      "epoch": 7.6912,
      "grad_norm": 0.0,
      "learning_rate": 4.9199999999999997e-05,
      "loss": 5.2924,
      "step": 4807
    },
    {
      "epoch": 7.6928,
      "grad_norm": 0.0,
      "learning_rate": 4.899999999999999e-05,
      "loss": 9.3218,
      "step": 4808
    },
    {
      "epoch": 7.6944,
      "grad_norm": 0.0,
      "learning_rate": 4.8799999999999994e-05,
      "loss": 4.6029,
      "step": 4809
    },
    {
      "epoch": 7.696,
      "grad_norm": 0.0,
      "learning_rate": 4.8599999999999995e-05,
      "loss": 5.043,
      "step": 4810
    },
    {
      "epoch": 7.6975999999999996,
      "grad_norm": 0.0,
      "learning_rate": 4.84e-05,
      "loss": 5.9198,
      "step": 4811
    },
    {
      "epoch": 7.6992,
      "grad_norm": 0.0,
      "learning_rate": 4.82e-05,
      "loss": 5.3473,
      "step": 4812
    },
    {
      "epoch": 7.7008,
      "grad_norm": 0.0,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 5.6345,
      "step": 4813
    },
    {
      "epoch": 7.7024,
      "grad_norm": 0.0,
      "learning_rate": 4.7799999999999996e-05,
      "loss": 5.4249,
      "step": 4814
    },
    {
      "epoch": 7.704,
      "grad_norm": 0.0,
      "learning_rate": 4.76e-05,
      "loss": 5.0125,
      "step": 4815
    },
    {
      "epoch": 7.7056000000000004,
      "grad_norm": 0.0,
      "learning_rate": 4.7399999999999993e-05,
      "loss": 5.9589,
      "step": 4816
    },
    {
      "epoch": 7.7072,
      "grad_norm": 0.0,
      "learning_rate": 4.7199999999999995e-05,
      "loss": 4.4343,
      "step": 4817
    },
    {
      "epoch": 7.7088,
      "grad_norm": 0.0,
      "learning_rate": 4.7e-05,
      "loss": 4.4523,
      "step": 4818
    },
    {
      "epoch": 7.7104,
      "grad_norm": 0.0,
      "learning_rate": 4.68e-05,
      "loss": 4.799,
      "step": 4819
    },
    {
      "epoch": 7.712,
      "grad_norm": 0.0,
      "learning_rate": 4.6599999999999994e-05,
      "loss": 5.7031,
      "step": 4820
    },
    {
      "epoch": 7.7136,
      "grad_norm": 0.0,
      "learning_rate": 4.6399999999999996e-05,
      "loss": 4.2676,
      "step": 4821
    },
    {
      "epoch": 7.7152,
      "grad_norm": 0.0,
      "learning_rate": 4.62e-05,
      "loss": 5.4716,
      "step": 4822
    },
    {
      "epoch": 7.7168,
      "grad_norm": 0.0,
      "learning_rate": 4.599999999999999e-05,
      "loss": 5.9318,
      "step": 4823
    },
    {
      "epoch": 7.7184,
      "grad_norm": 0.0,
      "learning_rate": 4.5799999999999995e-05,
      "loss": 4.9803,
      "step": 4824
    },
    {
      "epoch": 7.72,
      "grad_norm": NaN,
      "learning_rate": 4.5799999999999995e-05,
      "loss": 4.7987,
      "step": 4825
    },
    {
      "epoch": 7.7216000000000005,
      "grad_norm": 0.0,
      "learning_rate": 4.56e-05,
      "loss": 8.6466,
      "step": 4826
    },
    {
      "epoch": 7.7232,
      "grad_norm": 0.0,
      "learning_rate": 4.539999999999999e-05,
      "loss": 7.1114,
      "step": 4827
    },
    {
      "epoch": 7.7248,
      "grad_norm": 0.0,
      "learning_rate": 4.5199999999999994e-05,
      "loss": 7.2577,
      "step": 4828
    },
    {
      "epoch": 7.7264,
      "grad_norm": 0.0,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 6.5141,
      "step": 4829
    },
    {
      "epoch": 7.728,
      "grad_norm": 0.0,
      "learning_rate": 4.48e-05,
      "loss": 6.3293,
      "step": 4830
    },
    {
      "epoch": 7.7296,
      "grad_norm": 0.0,
      "learning_rate": 4.46e-05,
      "loss": 7.6604,
      "step": 4831
    },
    {
      "epoch": 7.7312,
      "grad_norm": 0.0,
      "learning_rate": 4.4399999999999995e-05,
      "loss": 5.1769,
      "step": 4832
    },
    {
      "epoch": 7.7328,
      "grad_norm": 0.0,
      "learning_rate": 4.42e-05,
      "loss": 6.9124,
      "step": 4833
    },
    {
      "epoch": 7.7344,
      "grad_norm": 0.0,
      "learning_rate": 4.4e-05,
      "loss": 4.8715,
      "step": 4834
    },
    {
      "epoch": 7.736,
      "grad_norm": 0.0,
      "learning_rate": 4.3799999999999994e-05,
      "loss": 7.8529,
      "step": 4835
    },
    {
      "epoch": 7.7376000000000005,
      "grad_norm": 0.0,
      "learning_rate": 4.3599999999999996e-05,
      "loss": 6.493,
      "step": 4836
    },
    {
      "epoch": 7.7392,
      "grad_norm": 0.0,
      "learning_rate": 4.34e-05,
      "loss": 6.1691,
      "step": 4837
    },
    {
      "epoch": 7.7408,
      "grad_norm": 0.0,
      "learning_rate": 4.319999999999999e-05,
      "loss": 5.6671,
      "step": 4838
    },
    {
      "epoch": 7.7424,
      "grad_norm": 0.0,
      "learning_rate": 4.3e-05,
      "loss": 6.1603,
      "step": 4839
    },
    {
      "epoch": 7.744,
      "grad_norm": 0.0,
      "learning_rate": 4.28e-05,
      "loss": 6.2462,
      "step": 4840
    },
    {
      "epoch": 7.7456,
      "grad_norm": 0.0,
      "learning_rate": 4.259999999999999e-05,
      "loss": 4.9183,
      "step": 4841
    },
    {
      "epoch": 7.7472,
      "grad_norm": 0.0,
      "learning_rate": 4.24e-05,
      "loss": 8.3458,
      "step": 4842
    },
    {
      "epoch": 7.7488,
      "grad_norm": 0.0,
      "learning_rate": 4.2199999999999996e-05,
      "loss": 5.0508,
      "step": 4843
    },
    {
      "epoch": 7.7504,
      "grad_norm": 0.0,
      "learning_rate": 4.2e-05,
      "loss": 5.1722,
      "step": 4844
    },
    {
      "epoch": 7.752,
      "grad_norm": 0.0,
      "learning_rate": 4.18e-05,
      "loss": 5.6128,
      "step": 4845
    },
    {
      "epoch": 7.7536000000000005,
      "grad_norm": 0.0,
      "learning_rate": 4.1599999999999995e-05,
      "loss": 5.7953,
      "step": 4846
    },
    {
      "epoch": 7.7552,
      "grad_norm": 0.0,
      "learning_rate": 4.14e-05,
      "loss": 5.9053,
      "step": 4847
    },
    {
      "epoch": 7.7568,
      "grad_norm": 0.0,
      "learning_rate": 4.12e-05,
      "loss": 4.2809,
      "step": 4848
    },
    {
      "epoch": 7.7584,
      "grad_norm": 0.0,
      "learning_rate": 4.0999999999999994e-05,
      "loss": 6.285,
      "step": 4849
    },
    {
      "epoch": 7.76,
      "grad_norm": 0.0,
      "learning_rate": 4.08e-05,
      "loss": 6.2999,
      "step": 4850
    },
    {
      "epoch": 7.7616,
      "grad_norm": 0.0,
      "learning_rate": 4.06e-05,
      "loss": 5.6332,
      "step": 4851
    },
    {
      "epoch": 7.7632,
      "grad_norm": 0.0,
      "learning_rate": 4.039999999999999e-05,
      "loss": 5.5603,
      "step": 4852
    },
    {
      "epoch": 7.7648,
      "grad_norm": 0.0,
      "learning_rate": 4.02e-05,
      "loss": 6.1317,
      "step": 4853
    },
    {
      "epoch": 7.7664,
      "grad_norm": 0.0,
      "learning_rate": 3.9999999999999996e-05,
      "loss": 4.6544,
      "step": 4854
    },
    {
      "epoch": 7.768,
      "grad_norm": 0.0,
      "learning_rate": 3.979999999999999e-05,
      "loss": 5.0832,
      "step": 4855
    },
    {
      "epoch": 7.7696,
      "grad_norm": 0.0,
      "learning_rate": 3.96e-05,
      "loss": 6.3336,
      "step": 4856
    },
    {
      "epoch": 7.7712,
      "grad_norm": 0.0,
      "learning_rate": 3.9399999999999995e-05,
      "loss": 5.3673,
      "step": 4857
    },
    {
      "epoch": 7.7728,
      "grad_norm": 0.0,
      "learning_rate": 3.919999999999999e-05,
      "loss": 5.3218,
      "step": 4858
    },
    {
      "epoch": 7.7744,
      "grad_norm": 0.0,
      "learning_rate": 3.9e-05,
      "loss": 4.1707,
      "step": 4859
    },
    {
      "epoch": 7.776,
      "grad_norm": 0.0,
      "learning_rate": 3.8799999999999994e-05,
      "loss": 4.8736,
      "step": 4860
    },
    {
      "epoch": 7.7776,
      "grad_norm": 0.0,
      "learning_rate": 3.86e-05,
      "loss": 4.311,
      "step": 4861
    },
    {
      "epoch": 7.7792,
      "grad_norm": 0.0,
      "learning_rate": 3.84e-05,
      "loss": 6.2161,
      "step": 4862
    },
    {
      "epoch": 7.7808,
      "grad_norm": 0.0,
      "learning_rate": 3.8199999999999993e-05,
      "loss": 7.312,
      "step": 4863
    },
    {
      "epoch": 7.7824,
      "grad_norm": 0.0,
      "learning_rate": 3.8e-05,
      "loss": 5.7529,
      "step": 4864
    },
    {
      "epoch": 7.784,
      "grad_norm": 0.0,
      "learning_rate": 3.78e-05,
      "loss": 5.6757,
      "step": 4865
    },
    {
      "epoch": 7.7856,
      "grad_norm": 0.0,
      "learning_rate": 3.759999999999999e-05,
      "loss": 5.6621,
      "step": 4866
    },
    {
      "epoch": 7.7872,
      "grad_norm": 0.0,
      "learning_rate": 3.7399999999999994e-05,
      "loss": 8.4583,
      "step": 4867
    },
    {
      "epoch": 7.7888,
      "grad_norm": 0.0,
      "learning_rate": 3.7199999999999996e-05,
      "loss": 5.1848,
      "step": 4868
    },
    {
      "epoch": 7.7904,
      "grad_norm": 0.0,
      "learning_rate": 3.7e-05,
      "loss": 6.9994,
      "step": 4869
    },
    {
      "epoch": 7.792,
      "grad_norm": 0.0,
      "learning_rate": 3.679999999999999e-05,
      "loss": 5.8274,
      "step": 4870
    },
    {
      "epoch": 7.7936,
      "grad_norm": 0.0,
      "learning_rate": 3.6599999999999995e-05,
      "loss": 6.3826,
      "step": 4871
    },
    {
      "epoch": 7.7952,
      "grad_norm": 0.0,
      "learning_rate": 3.64e-05,
      "loss": 3.619,
      "step": 4872
    },
    {
      "epoch": 7.7968,
      "grad_norm": 0.0,
      "learning_rate": 3.62e-05,
      "loss": 5.4668,
      "step": 4873
    },
    {
      "epoch": 7.7984,
      "grad_norm": 0.0,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 5.2385,
      "step": 4874
    },
    {
      "epoch": 7.8,
      "grad_norm": NaN,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 5.6297,
      "step": 4875
    },
    {
      "epoch": 7.8016,
      "grad_norm": 0.0,
      "learning_rate": 3.5799999999999996e-05,
      "loss": 8.6246,
      "step": 4876
    },
    {
      "epoch": 7.8032,
      "grad_norm": 0.0,
      "learning_rate": 3.56e-05,
      "loss": 6.7583,
      "step": 4877
    },
    {
      "epoch": 7.8048,
      "grad_norm": 0.0,
      "learning_rate": 3.539999999999999e-05,
      "loss": 8.9947,
      "step": 4878
    },
    {
      "epoch": 7.8064,
      "grad_norm": 0.0,
      "learning_rate": 3.5199999999999995e-05,
      "loss": 7.3183,
      "step": 4879
    },
    {
      "epoch": 7.808,
      "grad_norm": 0.0,
      "learning_rate": 3.5e-05,
      "loss": 5.5067,
      "step": 4880
    },
    {
      "epoch": 7.8096,
      "grad_norm": 0.0,
      "learning_rate": 3.48e-05,
      "loss": 6.5109,
      "step": 4881
    },
    {
      "epoch": 7.8112,
      "grad_norm": 0.0,
      "learning_rate": 3.4599999999999994e-05,
      "loss": 6.328,
      "step": 4882
    },
    {
      "epoch": 7.8128,
      "grad_norm": 0.0,
      "learning_rate": 3.4399999999999996e-05,
      "loss": 6.1293,
      "step": 4883
    },
    {
      "epoch": 7.8144,
      "grad_norm": 0.0,
      "learning_rate": 3.42e-05,
      "loss": 5.8605,
      "step": 4884
    },
    {
      "epoch": 7.816,
      "grad_norm": 0.0,
      "learning_rate": 3.399999999999999e-05,
      "loss": 6.1975,
      "step": 4885
    },
    {
      "epoch": 7.8176,
      "grad_norm": 0.0,
      "learning_rate": 3.3799999999999995e-05,
      "loss": 5.0323,
      "step": 4886
    },
    {
      "epoch": 7.8192,
      "grad_norm": 0.0,
      "learning_rate": 3.36e-05,
      "loss": 6.6259,
      "step": 4887
    },
    {
      "epoch": 7.8208,
      "grad_norm": 0.0,
      "learning_rate": 3.34e-05,
      "loss": 4.7444,
      "step": 4888
    },
    {
      "epoch": 7.8224,
      "grad_norm": 0.0,
      "learning_rate": 3.3199999999999994e-05,
      "loss": 6.39,
      "step": 4889
    },
    {
      "epoch": 7.824,
      "grad_norm": 0.0,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 5.5457,
      "step": 4890
    },
    {
      "epoch": 7.8256,
      "grad_norm": 0.0,
      "learning_rate": 3.28e-05,
      "loss": 5.2619,
      "step": 4891
    },
    {
      "epoch": 7.8272,
      "grad_norm": 0.0,
      "learning_rate": 3.259999999999999e-05,
      "loss": 5.6246,
      "step": 4892
    },
    {
      "epoch": 7.8288,
      "grad_norm": 0.0,
      "learning_rate": 3.2399999999999995e-05,
      "loss": 5.2762,
      "step": 4893
    },
    {
      "epoch": 7.8304,
      "grad_norm": 0.0,
      "learning_rate": 3.22e-05,
      "loss": 4.8512,
      "step": 4894
    },
    {
      "epoch": 7.832,
      "grad_norm": 0.0,
      "learning_rate": 3.2e-05,
      "loss": 5.2384,
      "step": 4895
    },
    {
      "epoch": 7.8336,
      "grad_norm": 0.0,
      "learning_rate": 3.1799999999999994e-05,
      "loss": 5.2882,
      "step": 4896
    },
    {
      "epoch": 7.8352,
      "grad_norm": 0.0,
      "learning_rate": 3.1599999999999996e-05,
      "loss": 5.5722,
      "step": 4897
    },
    {
      "epoch": 7.8368,
      "grad_norm": 0.0,
      "learning_rate": 3.14e-05,
      "loss": 6.268,
      "step": 4898
    },
    {
      "epoch": 7.8384,
      "grad_norm": 0.0,
      "learning_rate": 3.119999999999999e-05,
      "loss": 5.8578,
      "step": 4899
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.0,
      "learning_rate": 3.0999999999999995e-05,
      "loss": 4.8375,
      "step": 4900
    },
    {
      "epoch": 7.8416,
      "grad_norm": 0.0,
      "learning_rate": 3.0799999999999996e-05,
      "loss": 6.0366,
      "step": 4901
    },
    {
      "epoch": 7.8431999999999995,
      "grad_norm": 0.0,
      "learning_rate": 3.06e-05,
      "loss": 6.4492,
      "step": 4902
    },
    {
      "epoch": 7.8448,
      "grad_norm": 0.0,
      "learning_rate": 3.0399999999999997e-05,
      "loss": 5.3843,
      "step": 4903
    },
    {
      "epoch": 7.8464,
      "grad_norm": 0.0,
      "learning_rate": 3.02e-05,
      "loss": 3.8829,
      "step": 4904
    },
    {
      "epoch": 7.848,
      "grad_norm": 0.0,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.7846,
      "step": 4905
    },
    {
      "epoch": 7.8496,
      "grad_norm": 0.0,
      "learning_rate": 2.9799999999999996e-05,
      "loss": 6.2207,
      "step": 4906
    },
    {
      "epoch": 7.8512,
      "grad_norm": 0.0,
      "learning_rate": 2.9599999999999998e-05,
      "loss": 4.7111,
      "step": 4907
    },
    {
      "epoch": 7.8528,
      "grad_norm": 0.0,
      "learning_rate": 2.94e-05,
      "loss": 5.3292,
      "step": 4908
    },
    {
      "epoch": 7.8544,
      "grad_norm": 0.0,
      "learning_rate": 2.9199999999999995e-05,
      "loss": 5.7591,
      "step": 4909
    },
    {
      "epoch": 7.856,
      "grad_norm": 0.0,
      "learning_rate": 2.8999999999999997e-05,
      "loss": 4.7005,
      "step": 4910
    },
    {
      "epoch": 7.8576,
      "grad_norm": 0.0,
      "learning_rate": 2.88e-05,
      "loss": 5.4882,
      "step": 4911
    },
    {
      "epoch": 7.8591999999999995,
      "grad_norm": 0.0,
      "learning_rate": 2.86e-05,
      "loss": 5.6661,
      "step": 4912
    },
    {
      "epoch": 7.8608,
      "grad_norm": 0.0,
      "learning_rate": 2.8399999999999996e-05,
      "loss": 5.7941,
      "step": 4913
    },
    {
      "epoch": 7.8624,
      "grad_norm": 0.0,
      "learning_rate": 2.8199999999999998e-05,
      "loss": 5.1456,
      "step": 4914
    },
    {
      "epoch": 7.864,
      "grad_norm": 0.0,
      "learning_rate": 2.8e-05,
      "loss": 4.8107,
      "step": 4915
    },
    {
      "epoch": 7.8656,
      "grad_norm": 0.0,
      "learning_rate": 2.7799999999999995e-05,
      "loss": 5.4458,
      "step": 4916
    },
    {
      "epoch": 7.8672,
      "grad_norm": 0.0,
      "learning_rate": 2.7599999999999997e-05,
      "loss": 5.2492,
      "step": 4917
    },
    {
      "epoch": 7.8688,
      "grad_norm": 0.0,
      "learning_rate": 2.74e-05,
      "loss": 5.1782,
      "step": 4918
    },
    {
      "epoch": 7.8704,
      "grad_norm": 0.0,
      "learning_rate": 2.72e-05,
      "loss": 4.3236,
      "step": 4919
    },
    {
      "epoch": 7.872,
      "grad_norm": 0.0,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 8.2734,
      "step": 4920
    },
    {
      "epoch": 7.8736,
      "grad_norm": 0.0,
      "learning_rate": 2.6799999999999998e-05,
      "loss": 5.6999,
      "step": 4921
    },
    {
      "epoch": 7.8751999999999995,
      "grad_norm": 0.0,
      "learning_rate": 2.66e-05,
      "loss": 4.5033,
      "step": 4922
    },
    {
      "epoch": 7.8768,
      "grad_norm": 0.0,
      "learning_rate": 2.6399999999999995e-05,
      "loss": 4.7946,
      "step": 4923
    },
    {
      "epoch": 7.8784,
      "grad_norm": 0.0,
      "learning_rate": 2.6199999999999996e-05,
      "loss": 6.4384,
      "step": 4924
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.0,
      "learning_rate": 2.6e-05,
      "loss": 8.1801,
      "step": 4925
    },
    {
      "epoch": 7.8816,
      "grad_norm": 0.0,
      "learning_rate": 2.5799999999999997e-05,
      "loss": 7.9482,
      "step": 4926
    },
    {
      "epoch": 7.8832,
      "grad_norm": 0.0,
      "learning_rate": 2.5599999999999995e-05,
      "loss": 6.7129,
      "step": 4927
    },
    {
      "epoch": 7.8848,
      "grad_norm": 0.0,
      "learning_rate": 2.5399999999999997e-05,
      "loss": 8.4176,
      "step": 4928
    },
    {
      "epoch": 7.8864,
      "grad_norm": 0.0,
      "learning_rate": 2.52e-05,
      "loss": 6.6931,
      "step": 4929
    },
    {
      "epoch": 7.888,
      "grad_norm": 0.0,
      "learning_rate": 2.4999999999999998e-05,
      "loss": 6.193,
      "step": 4930
    },
    {
      "epoch": 7.8896,
      "grad_norm": 0.0,
      "learning_rate": 2.4799999999999996e-05,
      "loss": 6.3482,
      "step": 4931
    },
    {
      "epoch": 7.8911999999999995,
      "grad_norm": 0.0,
      "learning_rate": 2.4599999999999998e-05,
      "loss": 6.2278,
      "step": 4932
    },
    {
      "epoch": 7.8928,
      "grad_norm": 0.0,
      "learning_rate": 2.4399999999999997e-05,
      "loss": 6.6975,
      "step": 4933
    },
    {
      "epoch": 7.8944,
      "grad_norm": 0.0,
      "learning_rate": 2.42e-05,
      "loss": 7.5855,
      "step": 4934
    },
    {
      "epoch": 7.896,
      "grad_norm": 0.0,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 5.9267,
      "step": 4935
    },
    {
      "epoch": 7.8976,
      "grad_norm": 0.0,
      "learning_rate": 2.38e-05,
      "loss": 6.6663,
      "step": 4936
    },
    {
      "epoch": 7.8992,
      "grad_norm": 0.0,
      "learning_rate": 2.3599999999999998e-05,
      "loss": 6.4916,
      "step": 4937
    },
    {
      "epoch": 7.9008,
      "grad_norm": 0.0,
      "learning_rate": 2.34e-05,
      "loss": 8.3419,
      "step": 4938
    },
    {
      "epoch": 7.9024,
      "grad_norm": 0.0,
      "learning_rate": 2.3199999999999998e-05,
      "loss": 6.3328,
      "step": 4939
    },
    {
      "epoch": 7.904,
      "grad_norm": 0.0,
      "learning_rate": 2.2999999999999997e-05,
      "loss": 5.4885,
      "step": 4940
    },
    {
      "epoch": 7.9056,
      "grad_norm": 0.0,
      "learning_rate": 2.28e-05,
      "loss": 5.7347,
      "step": 4941
    },
    {
      "epoch": 7.9072,
      "grad_norm": 0.0,
      "learning_rate": 2.2599999999999997e-05,
      "loss": 7.249,
      "step": 4942
    },
    {
      "epoch": 7.9088,
      "grad_norm": 0.0,
      "learning_rate": 2.24e-05,
      "loss": 6.6369,
      "step": 4943
    },
    {
      "epoch": 7.9104,
      "grad_norm": 0.0,
      "learning_rate": 2.2199999999999998e-05,
      "loss": 5.0906,
      "step": 4944
    },
    {
      "epoch": 7.912,
      "grad_norm": 0.0,
      "learning_rate": 2.2e-05,
      "loss": 5.8825,
      "step": 4945
    },
    {
      "epoch": 7.9136,
      "grad_norm": 0.0,
      "learning_rate": 2.1799999999999998e-05,
      "loss": 4.4625,
      "step": 4946
    },
    {
      "epoch": 7.9152000000000005,
      "grad_norm": 0.0,
      "learning_rate": 2.1599999999999996e-05,
      "loss": 5.3964,
      "step": 4947
    },
    {
      "epoch": 7.9168,
      "grad_norm": 0.0,
      "learning_rate": 2.14e-05,
      "loss": 7.4192,
      "step": 4948
    },
    {
      "epoch": 7.9184,
      "grad_norm": 0.0,
      "learning_rate": 2.12e-05,
      "loss": 5.0459,
      "step": 4949
    },
    {
      "epoch": 7.92,
      "grad_norm": 0.0,
      "learning_rate": 2.1e-05,
      "loss": 5.4631,
      "step": 4950
    },
    {
      "epoch": 7.9216,
      "grad_norm": 0.0,
      "learning_rate": 2.0799999999999997e-05,
      "loss": 6.0327,
      "step": 4951
    },
    {
      "epoch": 7.9232,
      "grad_norm": 0.0,
      "learning_rate": 2.06e-05,
      "loss": 4.5411,
      "step": 4952
    },
    {
      "epoch": 7.9248,
      "grad_norm": 0.0,
      "learning_rate": 2.04e-05,
      "loss": 5.5531,
      "step": 4953
    },
    {
      "epoch": 7.9264,
      "grad_norm": 0.0,
      "learning_rate": 2.0199999999999996e-05,
      "loss": 5.3817,
      "step": 4954
    },
    {
      "epoch": 7.928,
      "grad_norm": 0.0,
      "learning_rate": 1.9999999999999998e-05,
      "loss": 6.9888,
      "step": 4955
    },
    {
      "epoch": 7.9296,
      "grad_norm": 0.0,
      "learning_rate": 1.98e-05,
      "loss": 4.5361,
      "step": 4956
    },
    {
      "epoch": 7.9312000000000005,
      "grad_norm": 0.0,
      "learning_rate": 1.9599999999999995e-05,
      "loss": 5.4912,
      "step": 4957
    },
    {
      "epoch": 7.9328,
      "grad_norm": 0.0,
      "learning_rate": 1.9399999999999997e-05,
      "loss": 6.1554,
      "step": 4958
    },
    {
      "epoch": 7.9344,
      "grad_norm": 0.0,
      "learning_rate": 1.92e-05,
      "loss": 5.2586,
      "step": 4959
    },
    {
      "epoch": 7.936,
      "grad_norm": 0.0,
      "learning_rate": 1.9e-05,
      "loss": 4.7612,
      "step": 4960
    },
    {
      "epoch": 7.9376,
      "grad_norm": 0.0,
      "learning_rate": 1.8799999999999996e-05,
      "loss": 6.0536,
      "step": 4961
    },
    {
      "epoch": 7.9392,
      "grad_norm": 0.0,
      "learning_rate": 1.8599999999999998e-05,
      "loss": 5.4688,
      "step": 4962
    },
    {
      "epoch": 7.9408,
      "grad_norm": 0.0,
      "learning_rate": 1.8399999999999997e-05,
      "loss": 4.6197,
      "step": 4963
    },
    {
      "epoch": 7.9424,
      "grad_norm": 0.0,
      "learning_rate": 1.82e-05,
      "loss": 3.8822,
      "step": 4964
    },
    {
      "epoch": 7.944,
      "grad_norm": 0.0,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 5.0744,
      "step": 4965
    },
    {
      "epoch": 7.9456,
      "grad_norm": 0.0,
      "learning_rate": 1.78e-05,
      "loss": 5.1668,
      "step": 4966
    },
    {
      "epoch": 7.9472000000000005,
      "grad_norm": 0.0,
      "learning_rate": 1.7599999999999998e-05,
      "loss": 4.0673,
      "step": 4967
    },
    {
      "epoch": 7.9488,
      "grad_norm": 0.0,
      "learning_rate": 1.74e-05,
      "loss": 5.6994,
      "step": 4968
    },
    {
      "epoch": 7.9504,
      "grad_norm": 0.0,
      "learning_rate": 1.7199999999999998e-05,
      "loss": 5.9044,
      "step": 4969
    },
    {
      "epoch": 7.952,
      "grad_norm": 0.0,
      "learning_rate": 1.6999999999999996e-05,
      "loss": 4.5149,
      "step": 4970
    },
    {
      "epoch": 7.9536,
      "grad_norm": 0.0,
      "learning_rate": 1.68e-05,
      "loss": 3.7487,
      "step": 4971
    },
    {
      "epoch": 7.9552,
      "grad_norm": 0.0,
      "learning_rate": 1.6599999999999997e-05,
      "loss": 5.4141,
      "step": 4972
    },
    {
      "epoch": 7.9568,
      "grad_norm": 0.0,
      "learning_rate": 1.64e-05,
      "loss": 4.2148,
      "step": 4973
    },
    {
      "epoch": 7.9584,
      "grad_norm": 0.0,
      "learning_rate": 1.6199999999999997e-05,
      "loss": 6.6993,
      "step": 4974
    },
    {
      "epoch": 7.96,
      "grad_norm": 0.0,
      "learning_rate": 1.6e-05,
      "loss": 5.5462,
      "step": 4975
    },
    {
      "epoch": 7.9616,
      "grad_norm": 0.0,
      "learning_rate": 1.5799999999999998e-05,
      "loss": 8.3309,
      "step": 4976
    },
    {
      "epoch": 7.9632,
      "grad_norm": 0.0,
      "learning_rate": 1.5599999999999996e-05,
      "loss": 6.8767,
      "step": 4977
    },
    {
      "epoch": 7.9648,
      "grad_norm": 0.0,
      "learning_rate": 1.5399999999999998e-05,
      "loss": 7.5225,
      "step": 4978
    },
    {
      "epoch": 7.9664,
      "grad_norm": 0.0,
      "learning_rate": 1.5199999999999998e-05,
      "loss": 7.7427,
      "step": 4979
    },
    {
      "epoch": 7.968,
      "grad_norm": 0.0,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 5.3646,
      "step": 4980
    },
    {
      "epoch": 7.9696,
      "grad_norm": 0.0,
      "learning_rate": 1.4799999999999999e-05,
      "loss": 6.1092,
      "step": 4981
    },
    {
      "epoch": 7.9712,
      "grad_norm": 0.0,
      "learning_rate": 1.4599999999999997e-05,
      "loss": 5.952,
      "step": 4982
    },
    {
      "epoch": 7.9728,
      "grad_norm": 0.0,
      "learning_rate": 1.44e-05,
      "loss": 6.2539,
      "step": 4983
    },
    {
      "epoch": 7.9744,
      "grad_norm": 0.0,
      "learning_rate": 1.4199999999999998e-05,
      "loss": 5.018,
      "step": 4984
    },
    {
      "epoch": 7.976,
      "grad_norm": 0.0,
      "learning_rate": 1.4e-05,
      "loss": 6.8668,
      "step": 4985
    },
    {
      "epoch": 7.9776,
      "grad_norm": 0.0,
      "learning_rate": 1.3799999999999998e-05,
      "loss": 5.1818,
      "step": 4986
    },
    {
      "epoch": 7.9792,
      "grad_norm": 0.0,
      "learning_rate": 1.36e-05,
      "loss": 6.0284,
      "step": 4987
    },
    {
      "epoch": 7.9808,
      "grad_norm": 0.0,
      "learning_rate": 1.3399999999999999e-05,
      "loss": 4.4975,
      "step": 4988
    },
    {
      "epoch": 7.9824,
      "grad_norm": 0.0,
      "learning_rate": 1.3199999999999997e-05,
      "loss": 5.7793,
      "step": 4989
    },
    {
      "epoch": 7.984,
      "grad_norm": 0.0,
      "learning_rate": 1.3e-05,
      "loss": 4.3563,
      "step": 4990
    },
    {
      "epoch": 7.9856,
      "grad_norm": 0.0,
      "learning_rate": 1.2799999999999998e-05,
      "loss": 5.4588,
      "step": 4991
    },
    {
      "epoch": 7.9872,
      "grad_norm": 0.0,
      "learning_rate": 1.26e-05,
      "loss": 4.8431,
      "step": 4992
    },
    {
      "epoch": 7.9888,
      "grad_norm": 0.0,
      "learning_rate": 1.2399999999999998e-05,
      "loss": 6.4495,
      "step": 4993
    },
    {
      "epoch": 7.9904,
      "grad_norm": 0.0,
      "learning_rate": 1.2199999999999998e-05,
      "loss": 6.4643,
      "step": 4994
    },
    {
      "epoch": 7.992,
      "grad_norm": 0.0,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 4.6621,
      "step": 4995
    },
    {
      "epoch": 7.9936,
      "grad_norm": 0.0,
      "learning_rate": 1.1799999999999999e-05,
      "loss": 5.3752,
      "step": 4996
    },
    {
      "epoch": 7.9952,
      "grad_norm": 0.0,
      "learning_rate": 1.1599999999999999e-05,
      "loss": 6.2099,
      "step": 4997
    },
    {
      "epoch": 7.9968,
      "grad_norm": 0.0,
      "learning_rate": 1.14e-05,
      "loss": 4.377,
      "step": 4998
    },
    {
      "epoch": 7.9984,
      "grad_norm": 0.0,
      "learning_rate": 1.12e-05,
      "loss": 4.8807,
      "step": 4999
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.0,
      "learning_rate": 1.1e-05,
      "loss": 5.9653,
      "step": 5000
    },
    {
      "epoch": 8.0,
      "eval_cer": 0.7076378272128795,
      "eval_loss": 4.9668779373168945,
      "eval_runtime": 159.4135,
      "eval_samples_per_second": 19.672,
      "eval_steps_per_second": 1.23,
      "eval_wer": 0.9942297976440556,
      "step": 5000
    },
    {
      "epoch": 8.0,
      "step": 5000,
      "total_flos": 3.0616960056652042e+19,
      "train_loss": 4.665264035391807,
      "train_runtime": 10255.3805,
      "train_samples_per_second": 15.602,
      "train_steps_per_second": 0.488
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 5000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 2500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.0616960056652042e+19,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}