{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 747,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004016064257028112,
      "grad_norm": 6.783391952514648,
      "learning_rate": 0.0002,
      "loss": 17.0626,
      "step": 1
    },
    {
      "epoch": 0.008032128514056224,
      "grad_norm": 6.832010269165039,
      "learning_rate": 0.0001997322623828648,
      "loss": 16.3736,
      "step": 2
    },
    {
      "epoch": 0.012048192771084338,
      "grad_norm": 4.412657260894775,
      "learning_rate": 0.0001994645247657296,
      "loss": 13.7202,
      "step": 3
    },
    {
      "epoch": 0.01606425702811245,
      "grad_norm": 4.6994500160217285,
      "learning_rate": 0.0001991967871485944,
      "loss": 12.1103,
      "step": 4
    },
    {
      "epoch": 0.020080321285140562,
      "grad_norm": 5.078355312347412,
      "learning_rate": 0.00019892904953145918,
      "loss": 11.9491,
      "step": 5
    },
    {
      "epoch": 0.024096385542168676,
      "grad_norm": 5.82587194442749,
      "learning_rate": 0.00019866131191432397,
      "loss": 10.24,
      "step": 6
    },
    {
      "epoch": 0.028112449799196786,
      "grad_norm": 5.521396160125732,
      "learning_rate": 0.00019839357429718877,
      "loss": 9.7617,
      "step": 7
    },
    {
      "epoch": 0.0321285140562249,
      "grad_norm": 5.55628776550293,
      "learning_rate": 0.00019812583668005356,
      "loss": 8.9588,
      "step": 8
    },
    {
      "epoch": 0.03614457831325301,
      "grad_norm": 4.77673864364624,
      "learning_rate": 0.00019785809906291835,
      "loss": 7.413,
      "step": 9
    },
    {
      "epoch": 0.040160642570281124,
      "grad_norm": 3.045475482940674,
      "learning_rate": 0.00019759036144578314,
      "loss": 8.4555,
      "step": 10
    },
    {
      "epoch": 0.04417670682730924,
      "grad_norm": 2.4188013076782227,
      "learning_rate": 0.0001973226238286479,
      "loss": 6.3816,
      "step": 11
    },
    {
      "epoch": 0.04819277108433735,
      "grad_norm": 2.483142852783203,
      "learning_rate": 0.00019705488621151273,
      "loss": 6.0486,
      "step": 12
    },
    {
      "epoch": 0.05220883534136546,
      "grad_norm": 2.7488200664520264,
      "learning_rate": 0.00019678714859437752,
      "loss": 6.0559,
      "step": 13
    },
    {
      "epoch": 0.05622489959839357,
      "grad_norm": 3.509127140045166,
      "learning_rate": 0.00019651941097724232,
      "loss": 6.5013,
      "step": 14
    },
    {
      "epoch": 0.060240963855421686,
      "grad_norm": 4.097210884094238,
      "learning_rate": 0.0001962516733601071,
      "loss": 6.6959,
      "step": 15
    },
    {
      "epoch": 0.0642570281124498,
      "grad_norm": 5.211580753326416,
      "learning_rate": 0.0001959839357429719,
      "loss": 7.4451,
      "step": 16
    },
    {
      "epoch": 0.06827309236947791,
      "grad_norm": 4.360202312469482,
      "learning_rate": 0.00019571619812583667,
      "loss": 7.5475,
      "step": 17
    },
    {
      "epoch": 0.07228915662650602,
      "grad_norm": 4.646812915802002,
      "learning_rate": 0.0001954484605087015,
      "loss": 5.9117,
      "step": 18
    },
    {
      "epoch": 0.07630522088353414,
      "grad_norm": 4.076641082763672,
      "learning_rate": 0.00019518072289156628,
      "loss": 6.5152,
      "step": 19
    },
    {
      "epoch": 0.08032128514056225,
      "grad_norm": 4.571013450622559,
      "learning_rate": 0.00019491298527443107,
      "loss": 7.7192,
      "step": 20
    },
    {
      "epoch": 0.08433734939759036,
      "grad_norm": 3.786604881286621,
      "learning_rate": 0.00019464524765729587,
      "loss": 6.0262,
      "step": 21
    },
    {
      "epoch": 0.08835341365461848,
      "grad_norm": 3.7632923126220703,
      "learning_rate": 0.00019437751004016066,
      "loss": 5.515,
      "step": 22
    },
    {
      "epoch": 0.09236947791164658,
      "grad_norm": 3.142625093460083,
      "learning_rate": 0.00019410977242302542,
      "loss": 5.5428,
      "step": 23
    },
    {
      "epoch": 0.0963855421686747,
      "grad_norm": 4.195131778717041,
      "learning_rate": 0.00019384203480589022,
      "loss": 5.0073,
      "step": 24
    },
    {
      "epoch": 0.10040160642570281,
      "grad_norm": 7.452038764953613,
      "learning_rate": 0.00019357429718875504,
      "loss": 5.6765,
      "step": 25
    },
    {
      "epoch": 0.10441767068273092,
      "grad_norm": 9.708063125610352,
      "learning_rate": 0.00019330655957161983,
      "loss": 5.6149,
      "step": 26
    },
    {
      "epoch": 0.10843373493975904,
      "grad_norm": 19.072011947631836,
      "learning_rate": 0.00019303882195448462,
      "loss": 5.4365,
      "step": 27
    },
    {
      "epoch": 0.11244979919678715,
      "grad_norm": 6.726373195648193,
      "learning_rate": 0.00019277108433734942,
      "loss": 4.858,
      "step": 28
    },
    {
      "epoch": 0.11646586345381527,
      "grad_norm": 3.187056064605713,
      "learning_rate": 0.0001925033467202142,
      "loss": 5.3406,
      "step": 29
    },
    {
      "epoch": 0.12048192771084337,
      "grad_norm": 3.364069700241089,
      "learning_rate": 0.00019223560910307897,
      "loss": 5.5143,
      "step": 30
    },
    {
      "epoch": 0.12449799196787148,
      "grad_norm": 2.4620518684387207,
      "learning_rate": 0.00019196787148594377,
      "loss": 4.638,
      "step": 31
    },
    {
      "epoch": 0.1285140562248996,
      "grad_norm": 3.9363696575164795,
      "learning_rate": 0.0001917001338688086,
      "loss": 4.6009,
      "step": 32
    },
    {
      "epoch": 0.13253012048192772,
      "grad_norm": 3.230189561843872,
      "learning_rate": 0.00019143239625167338,
      "loss": 4.7928,
      "step": 33
    },
    {
      "epoch": 0.13654618473895583,
      "grad_norm": 2.873898983001709,
      "learning_rate": 0.00019116465863453817,
      "loss": 3.7444,
      "step": 34
    },
    {
      "epoch": 0.14056224899598393,
      "grad_norm": 3.2136387825012207,
      "learning_rate": 0.00019089692101740297,
      "loss": 4.452,
      "step": 35
    },
    {
      "epoch": 0.14457831325301204,
      "grad_norm": 2.8411664962768555,
      "learning_rate": 0.00019062918340026773,
      "loss": 4.483,
      "step": 36
    },
    {
      "epoch": 0.14859437751004015,
      "grad_norm": 2.68854022026062,
      "learning_rate": 0.00019036144578313252,
      "loss": 3.92,
      "step": 37
    },
    {
      "epoch": 0.15261044176706828,
      "grad_norm": 3.324504852294922,
      "learning_rate": 0.00019009370816599734,
      "loss": 4.4238,
      "step": 38
    },
    {
      "epoch": 0.1566265060240964,
      "grad_norm": 3.0757510662078857,
      "learning_rate": 0.00018982597054886214,
      "loss": 4.0354,
      "step": 39
    },
    {
      "epoch": 0.1606425702811245,
      "grad_norm": 3.1478559970855713,
      "learning_rate": 0.00018955823293172693,
      "loss": 4.7587,
      "step": 40
    },
    {
      "epoch": 0.1646586345381526,
      "grad_norm": 2.923387050628662,
      "learning_rate": 0.00018929049531459172,
      "loss": 4.1713,
      "step": 41
    },
    {
      "epoch": 0.1686746987951807,
      "grad_norm": 3.3262710571289062,
      "learning_rate": 0.0001890227576974565,
      "loss": 5.7246,
      "step": 42
    },
    {
      "epoch": 0.17269076305220885,
      "grad_norm": 2.9940414428710938,
      "learning_rate": 0.00018875502008032128,
      "loss": 3.9502,
      "step": 43
    },
    {
      "epoch": 0.17670682730923695,
      "grad_norm": 2.4215221405029297,
      "learning_rate": 0.00018848728246318607,
      "loss": 3.3469,
      "step": 44
    },
    {
      "epoch": 0.18072289156626506,
      "grad_norm": 4.08881139755249,
      "learning_rate": 0.0001882195448460509,
      "loss": 3.6203,
      "step": 45
    },
    {
      "epoch": 0.18473895582329317,
      "grad_norm": 2.550448417663574,
      "learning_rate": 0.00018795180722891569,
      "loss": 3.9986,
      "step": 46
    },
    {
      "epoch": 0.18875502008032127,
      "grad_norm": 2.3286774158477783,
      "learning_rate": 0.00018768406961178048,
      "loss": 3.3749,
      "step": 47
    },
    {
      "epoch": 0.1927710843373494,
      "grad_norm": 2.724431276321411,
      "learning_rate": 0.00018741633199464524,
      "loss": 3.4734,
      "step": 48
    },
    {
      "epoch": 0.19678714859437751,
      "grad_norm": 2.961087226867676,
      "learning_rate": 0.00018714859437751004,
      "loss": 4.242,
      "step": 49
    },
    {
      "epoch": 0.20080321285140562,
      "grad_norm": 2.4245645999908447,
      "learning_rate": 0.00018688085676037483,
      "loss": 3.7956,
      "step": 50
    },
    {
      "epoch": 0.20481927710843373,
      "grad_norm": 2.141226053237915,
      "learning_rate": 0.00018661311914323962,
      "loss": 3.0041,
      "step": 51
    },
    {
      "epoch": 0.20883534136546184,
      "grad_norm": 2.7774155139923096,
      "learning_rate": 0.00018634538152610444,
      "loss": 3.5062,
      "step": 52
    },
    {
      "epoch": 0.21285140562248997,
      "grad_norm": 2.6332597732543945,
      "learning_rate": 0.00018607764390896924,
      "loss": 3.9305,
      "step": 53
    },
    {
      "epoch": 0.21686746987951808,
      "grad_norm": 3.4417197704315186,
      "learning_rate": 0.000185809906291834,
      "loss": 5.1481,
      "step": 54
    },
    {
      "epoch": 0.22088353413654618,
      "grad_norm": 2.576704978942871,
      "learning_rate": 0.0001855421686746988,
      "loss": 3.6137,
      "step": 55
    },
    {
      "epoch": 0.2248995983935743,
      "grad_norm": 2.816452980041504,
      "learning_rate": 0.0001852744310575636,
      "loss": 3.5015,
      "step": 56
    },
    {
      "epoch": 0.2289156626506024,
      "grad_norm": 3.5300023555755615,
      "learning_rate": 0.00018500669344042838,
      "loss": 4.7758,
      "step": 57
    },
    {
      "epoch": 0.23293172690763053,
      "grad_norm": 2.594787120819092,
      "learning_rate": 0.0001847389558232932,
      "loss": 4.0104,
      "step": 58
    },
    {
      "epoch": 0.23694779116465864,
      "grad_norm": 3.472842216491699,
      "learning_rate": 0.000184471218206158,
      "loss": 4.2051,
      "step": 59
    },
    {
      "epoch": 0.24096385542168675,
      "grad_norm": 2.195838212966919,
      "learning_rate": 0.00018420348058902276,
      "loss": 3.4561,
      "step": 60
    },
    {
      "epoch": 0.24497991967871485,
      "grad_norm": 2.6737020015716553,
      "learning_rate": 0.00018393574297188755,
      "loss": 5.4281,
      "step": 61
    },
    {
      "epoch": 0.24899598393574296,
      "grad_norm": 3.128307342529297,
      "learning_rate": 0.00018366800535475234,
      "loss": 4.835,
      "step": 62
    },
    {
      "epoch": 0.25301204819277107,
      "grad_norm": 2.8915627002716064,
      "learning_rate": 0.00018340026773761714,
      "loss": 5.6513,
      "step": 63
    },
    {
      "epoch": 0.2570281124497992,
      "grad_norm": 2.4325616359710693,
      "learning_rate": 0.00018313253012048193,
      "loss": 3.8769,
      "step": 64
    },
    {
      "epoch": 0.26104417670682734,
      "grad_norm": 2.717306613922119,
      "learning_rate": 0.00018286479250334675,
      "loss": 4.7258,
      "step": 65
    },
    {
      "epoch": 0.26506024096385544,
      "grad_norm": 2.6178746223449707,
      "learning_rate": 0.00018259705488621152,
      "loss": 4.0424,
      "step": 66
    },
    {
      "epoch": 0.26907630522088355,
      "grad_norm": 2.382551431655884,
      "learning_rate": 0.0001823293172690763,
      "loss": 3.547,
      "step": 67
    },
    {
      "epoch": 0.27309236947791166,
      "grad_norm": 2.546783685684204,
      "learning_rate": 0.0001820615796519411,
      "loss": 4.2495,
      "step": 68
    },
    {
      "epoch": 0.27710843373493976,
      "grad_norm": 2.4738221168518066,
      "learning_rate": 0.0001817938420348059,
      "loss": 3.69,
      "step": 69
    },
    {
      "epoch": 0.28112449799196787,
      "grad_norm": 2.2191786766052246,
      "learning_rate": 0.0001815261044176707,
      "loss": 3.1576,
      "step": 70
    },
    {
      "epoch": 0.285140562248996,
      "grad_norm": 2.4891932010650635,
      "learning_rate": 0.00018125836680053548,
      "loss": 3.7767,
      "step": 71
    },
    {
      "epoch": 0.2891566265060241,
      "grad_norm": 2.0602684020996094,
      "learning_rate": 0.00018099062918340027,
      "loss": 3.1497,
      "step": 72
    },
    {
      "epoch": 0.2931726907630522,
      "grad_norm": 2.435455560684204,
      "learning_rate": 0.00018072289156626507,
      "loss": 4.3061,
      "step": 73
    },
    {
      "epoch": 0.2971887550200803,
      "grad_norm": 2.7304036617279053,
      "learning_rate": 0.00018045515394912986,
      "loss": 3.6995,
      "step": 74
    },
    {
      "epoch": 0.30120481927710846,
      "grad_norm": 2.6375226974487305,
      "learning_rate": 0.00018018741633199465,
      "loss": 3.3922,
      "step": 75
    },
    {
      "epoch": 0.30522088353413657,
      "grad_norm": 2.097759246826172,
      "learning_rate": 0.00017991967871485944,
      "loss": 3.1887,
      "step": 76
    },
    {
      "epoch": 0.3092369477911647,
      "grad_norm": 2.600724458694458,
      "learning_rate": 0.00017965194109772424,
      "loss": 3.8532,
      "step": 77
    },
    {
      "epoch": 0.3132530120481928,
      "grad_norm": 3.0356369018554688,
      "learning_rate": 0.00017938420348058903,
      "loss": 4.6221,
      "step": 78
    },
    {
      "epoch": 0.3172690763052209,
      "grad_norm": 2.1509416103363037,
      "learning_rate": 0.00017911646586345382,
      "loss": 3.5473,
      "step": 79
    },
    {
      "epoch": 0.321285140562249,
      "grad_norm": 2.7542128562927246,
      "learning_rate": 0.00017884872824631862,
      "loss": 4.3206,
      "step": 80
    },
    {
      "epoch": 0.3253012048192771,
      "grad_norm": 2.7480881214141846,
      "learning_rate": 0.0001785809906291834,
      "loss": 3.4596,
      "step": 81
    },
    {
      "epoch": 0.3293172690763052,
      "grad_norm": 2.8787624835968018,
      "learning_rate": 0.0001783132530120482,
      "loss": 4.0409,
      "step": 82
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 2.234320878982544,
      "learning_rate": 0.000178045515394913,
      "loss": 3.6684,
      "step": 83
    },
    {
      "epoch": 0.3373493975903614,
      "grad_norm": 2.174452781677246,
      "learning_rate": 0.00017777777777777779,
      "loss": 3.8964,
      "step": 84
    },
    {
      "epoch": 0.3413654618473896,
      "grad_norm": 2.25730299949646,
      "learning_rate": 0.00017751004016064258,
      "loss": 3.3793,
      "step": 85
    },
    {
      "epoch": 0.3453815261044177,
      "grad_norm": 2.3120176792144775,
      "learning_rate": 0.00017724230254350737,
      "loss": 3.9183,
      "step": 86
    },
    {
      "epoch": 0.3493975903614458,
      "grad_norm": 2.696288824081421,
      "learning_rate": 0.00017697456492637216,
      "loss": 4.1063,
      "step": 87
    },
    {
      "epoch": 0.3534136546184739,
      "grad_norm": 3.9386634826660156,
      "learning_rate": 0.00017670682730923696,
      "loss": 4.599,
      "step": 88
    },
    {
      "epoch": 0.357429718875502,
      "grad_norm": 2.7136473655700684,
      "learning_rate": 0.00017643908969210175,
      "loss": 4.1535,
      "step": 89
    },
    {
      "epoch": 0.3614457831325301,
      "grad_norm": 2.4276645183563232,
      "learning_rate": 0.00017617135207496654,
      "loss": 4.4834,
      "step": 90
    },
    {
      "epoch": 0.3654618473895582,
      "grad_norm": 2.6002511978149414,
      "learning_rate": 0.00017590361445783134,
      "loss": 4.0748,
      "step": 91
    },
    {
      "epoch": 0.36947791164658633,
      "grad_norm": 2.682366132736206,
      "learning_rate": 0.00017563587684069613,
      "loss": 4.4142,
      "step": 92
    },
    {
      "epoch": 0.37349397590361444,
      "grad_norm": 2.108722686767578,
      "learning_rate": 0.00017536813922356092,
      "loss": 4.4304,
      "step": 93
    },
    {
      "epoch": 0.37751004016064255,
      "grad_norm": 2.0732803344726562,
      "learning_rate": 0.00017510040160642571,
      "loss": 3.2521,
      "step": 94
    },
    {
      "epoch": 0.3815261044176707,
      "grad_norm": 2.3038790225982666,
      "learning_rate": 0.0001748326639892905,
      "loss": 4.3167,
      "step": 95
    },
    {
      "epoch": 0.3855421686746988,
      "grad_norm": 2.623572587966919,
      "learning_rate": 0.0001745649263721553,
      "loss": 5.3465,
      "step": 96
    },
    {
      "epoch": 0.3895582329317269,
      "grad_norm": 2.4543046951293945,
      "learning_rate": 0.0001742971887550201,
      "loss": 3.4479,
      "step": 97
    },
    {
      "epoch": 0.39357429718875503,
      "grad_norm": 2.291369915008545,
      "learning_rate": 0.00017402945113788489,
      "loss": 4.0893,
      "step": 98
    },
    {
      "epoch": 0.39759036144578314,
      "grad_norm": 2.4371914863586426,
      "learning_rate": 0.00017376171352074968,
      "loss": 3.7132,
      "step": 99
    },
    {
      "epoch": 0.40160642570281124,
      "grad_norm": 2.1401989459991455,
      "learning_rate": 0.00017349397590361447,
      "loss": 2.9892,
      "step": 100
    },
    {
      "epoch": 0.40562248995983935,
      "grad_norm": 2.1574857234954834,
      "learning_rate": 0.00017322623828647926,
      "loss": 3.3145,
      "step": 101
    },
    {
      "epoch": 0.40963855421686746,
      "grad_norm": 2.7298076152801514,
      "learning_rate": 0.00017295850066934406,
      "loss": 4.2365,
      "step": 102
    },
    {
      "epoch": 0.41365461847389556,
      "grad_norm": 2.5634846687316895,
      "learning_rate": 0.00017269076305220885,
      "loss": 3.4466,
      "step": 103
    },
    {
      "epoch": 0.41767068273092367,
      "grad_norm": 2.573195695877075,
      "learning_rate": 0.00017242302543507362,
      "loss": 3.3283,
      "step": 104
    },
    {
      "epoch": 0.42168674698795183,
      "grad_norm": 2.205293655395508,
      "learning_rate": 0.00017215528781793844,
      "loss": 3.7288,
      "step": 105
    },
    {
      "epoch": 0.42570281124497994,
      "grad_norm": 3.3177073001861572,
      "learning_rate": 0.00017188755020080323,
      "loss": 3.9341,
      "step": 106
    },
    {
      "epoch": 0.42971887550200805,
      "grad_norm": 2.601710557937622,
      "learning_rate": 0.00017161981258366802,
      "loss": 4.3724,
      "step": 107
    },
    {
      "epoch": 0.43373493975903615,
      "grad_norm": 2.490556478500366,
      "learning_rate": 0.00017135207496653281,
      "loss": 3.0784,
      "step": 108
    },
    {
      "epoch": 0.43775100401606426,
      "grad_norm": 2.7771122455596924,
      "learning_rate": 0.0001710843373493976,
      "loss": 3.7125,
      "step": 109
    },
    {
      "epoch": 0.44176706827309237,
      "grad_norm": 2.9865031242370605,
      "learning_rate": 0.00017081659973226237,
      "loss": 4.9747,
      "step": 110
    },
    {
      "epoch": 0.4457831325301205,
      "grad_norm": 3.2922353744506836,
      "learning_rate": 0.00017054886211512717,
      "loss": 4.229,
      "step": 111
    },
    {
      "epoch": 0.4497991967871486,
      "grad_norm": 2.2360899448394775,
      "learning_rate": 0.00017028112449799199,
      "loss": 3.1859,
      "step": 112
    },
    {
      "epoch": 0.4538152610441767,
      "grad_norm": 2.4282941818237305,
      "learning_rate": 0.00017001338688085678,
      "loss": 4.4577,
      "step": 113
    },
    {
      "epoch": 0.4578313253012048,
      "grad_norm": 2.2384181022644043,
      "learning_rate": 0.00016974564926372157,
      "loss": 3.435,
      "step": 114
    },
    {
      "epoch": 0.46184738955823296,
      "grad_norm": 2.586678981781006,
      "learning_rate": 0.00016947791164658636,
      "loss": 3.7974,
      "step": 115
    },
    {
      "epoch": 0.46586345381526106,
      "grad_norm": 2.2473366260528564,
      "learning_rate": 0.00016921017402945113,
      "loss": 3.2193,
      "step": 116
    },
    {
      "epoch": 0.46987951807228917,
      "grad_norm": 2.2137515544891357,
      "learning_rate": 0.00016894243641231592,
      "loss": 3.2774,
      "step": 117
    },
    {
      "epoch": 0.4738955823293173,
      "grad_norm": 2.6827173233032227,
      "learning_rate": 0.00016867469879518074,
      "loss": 3.843,
      "step": 118
    },
    {
      "epoch": 0.4779116465863454,
      "grad_norm": 2.499166250228882,
      "learning_rate": 0.00016840696117804553,
      "loss": 3.1818,
      "step": 119
    },
    {
      "epoch": 0.4819277108433735,
      "grad_norm": 2.609964609146118,
      "learning_rate": 0.00016813922356091033,
      "loss": 3.6292,
      "step": 120
    },
    {
      "epoch": 0.4859437751004016,
      "grad_norm": 2.697786808013916,
      "learning_rate": 0.00016787148594377512,
      "loss": 3.7501,
      "step": 121
    },
    {
      "epoch": 0.4899598393574297,
      "grad_norm": 2.834494113922119,
      "learning_rate": 0.00016760374832663989,
      "loss": 3.9265,
      "step": 122
    },
    {
      "epoch": 0.4939759036144578,
      "grad_norm": 2.3431777954101562,
      "learning_rate": 0.00016733601070950468,
      "loss": 3.7916,
      "step": 123
    },
    {
      "epoch": 0.4979919678714859,
      "grad_norm": 2.434953212738037,
      "learning_rate": 0.00016706827309236947,
      "loss": 3.4279,
      "step": 124
    },
    {
      "epoch": 0.5020080321285141,
      "grad_norm": 2.3629250526428223,
      "learning_rate": 0.0001668005354752343,
      "loss": 3.4382,
      "step": 125
    },
    {
      "epoch": 0.5060240963855421,
      "grad_norm": 2.7543423175811768,
      "learning_rate": 0.00016653279785809908,
      "loss": 4.8146,
      "step": 126
    },
    {
      "epoch": 0.5100401606425703,
      "grad_norm": 3.149775981903076,
      "learning_rate": 0.00016626506024096388,
      "loss": 5.365,
      "step": 127
    },
    {
      "epoch": 0.5140562248995983,
      "grad_norm": 2.640326499938965,
      "learning_rate": 0.00016599732262382864,
      "loss": 4.2036,
      "step": 128
    },
    {
      "epoch": 0.5180722891566265,
      "grad_norm": 2.6297357082366943,
      "learning_rate": 0.00016572958500669344,
      "loss": 3.7331,
      "step": 129
    },
    {
      "epoch": 0.5220883534136547,
      "grad_norm": 2.9165263175964355,
      "learning_rate": 0.00016546184738955823,
      "loss": 4.2224,
      "step": 130
    },
    {
      "epoch": 0.5261044176706827,
      "grad_norm": 2.003908634185791,
      "learning_rate": 0.00016519410977242302,
      "loss": 3.5818,
      "step": 131
    },
    {
      "epoch": 0.5301204819277109,
      "grad_norm": 2.3137078285217285,
      "learning_rate": 0.00016492637215528784,
      "loss": 3.4726,
      "step": 132
    },
    {
      "epoch": 0.5341365461847389,
      "grad_norm": 2.69950795173645,
      "learning_rate": 0.00016465863453815263,
      "loss": 4.0059,
      "step": 133
    },
    {
      "epoch": 0.5381526104417671,
      "grad_norm": 2.1858394145965576,
      "learning_rate": 0.0001643908969210174,
      "loss": 3.6957,
      "step": 134
    },
    {
      "epoch": 0.5421686746987951,
      "grad_norm": 2.423802137374878,
      "learning_rate": 0.0001641231593038822,
      "loss": 4.1535,
      "step": 135
    },
    {
      "epoch": 0.5461847389558233,
      "grad_norm": 2.244253158569336,
      "learning_rate": 0.00016385542168674699,
      "loss": 3.3276,
      "step": 136
    },
    {
      "epoch": 0.5502008032128514,
      "grad_norm": 2.2932465076446533,
      "learning_rate": 0.00016358768406961178,
      "loss": 3.6498,
      "step": 137
    },
    {
      "epoch": 0.5542168674698795,
      "grad_norm": 2.0782933235168457,
      "learning_rate": 0.0001633199464524766,
      "loss": 4.007,
      "step": 138
    },
    {
      "epoch": 0.5582329317269076,
      "grad_norm": 2.778797149658203,
      "learning_rate": 0.0001630522088353414,
      "loss": 3.8436,
      "step": 139
    },
    {
      "epoch": 0.5622489959839357,
      "grad_norm": 2.7823002338409424,
      "learning_rate": 0.00016278447121820616,
      "loss": 5.5985,
      "step": 140
    },
    {
      "epoch": 0.5662650602409639,
      "grad_norm": 3.124753475189209,
      "learning_rate": 0.00016251673360107095,
      "loss": 3.8402,
      "step": 141
    },
    {
      "epoch": 0.570281124497992,
      "grad_norm": 2.999889612197876,
      "learning_rate": 0.00016224899598393574,
      "loss": 4.8463,
      "step": 142
    },
    {
      "epoch": 0.5742971887550201,
      "grad_norm": 2.2176406383514404,
      "learning_rate": 0.00016198125836680054,
      "loss": 3.6488,
      "step": 143
    },
    {
      "epoch": 0.5783132530120482,
      "grad_norm": 2.334336757659912,
      "learning_rate": 0.00016171352074966533,
      "loss": 3.4351,
      "step": 144
    },
    {
      "epoch": 0.5823293172690763,
      "grad_norm": 2.1625120639801025,
      "learning_rate": 0.00016144578313253015,
      "loss": 3.4423,
      "step": 145
    },
    {
      "epoch": 0.5863453815261044,
      "grad_norm": 2.3950042724609375,
      "learning_rate": 0.00016117804551539491,
      "loss": 3.4302,
      "step": 146
    },
    {
      "epoch": 0.5903614457831325,
      "grad_norm": 1.968996524810791,
      "learning_rate": 0.0001609103078982597,
      "loss": 3.3924,
      "step": 147
    },
    {
      "epoch": 0.5943775100401606,
      "grad_norm": 2.259298801422119,
      "learning_rate": 0.0001606425702811245,
      "loss": 3.4544,
      "step": 148
    },
    {
      "epoch": 0.5983935742971888,
      "grad_norm": 2.5227410793304443,
      "learning_rate": 0.0001603748326639893,
      "loss": 3.6276,
      "step": 149
    },
    {
      "epoch": 0.6024096385542169,
      "grad_norm": 2.4112424850463867,
      "learning_rate": 0.00016010709504685409,
      "loss": 3.8806,
      "step": 150
    },
    {
      "epoch": 0.606425702811245,
      "grad_norm": 2.5478017330169678,
      "learning_rate": 0.00015983935742971888,
      "loss": 4.1461,
      "step": 151
    },
    {
      "epoch": 0.6104417670682731,
      "grad_norm": 2.832744836807251,
      "learning_rate": 0.00015957161981258367,
      "loss": 5.0162,
      "step": 152
    },
    {
      "epoch": 0.6144578313253012,
      "grad_norm": 2.7249608039855957,
      "learning_rate": 0.00015930388219544846,
      "loss": 3.2521,
      "step": 153
    },
    {
      "epoch": 0.6184738955823293,
      "grad_norm": 2.579235315322876,
      "learning_rate": 0.00015903614457831326,
      "loss": 4.0444,
      "step": 154
    },
    {
      "epoch": 0.6224899598393574,
      "grad_norm": 2.719031572341919,
      "learning_rate": 0.00015876840696117805,
      "loss": 3.8091,
      "step": 155
    },
    {
      "epoch": 0.6265060240963856,
      "grad_norm": 2.9060187339782715,
      "learning_rate": 0.00015850066934404284,
      "loss": 3.574,
      "step": 156
    },
    {
      "epoch": 0.6305220883534136,
      "grad_norm": 2.3890836238861084,
      "learning_rate": 0.00015823293172690763,
      "loss": 3.0126,
      "step": 157
    },
    {
      "epoch": 0.6345381526104418,
      "grad_norm": 2.4875965118408203,
      "learning_rate": 0.00015796519410977243,
      "loss": 3.8722,
      "step": 158
    },
    {
      "epoch": 0.6385542168674698,
      "grad_norm": 2.452133893966675,
      "learning_rate": 0.00015769745649263722,
      "loss": 3.1996,
      "step": 159
    },
    {
      "epoch": 0.642570281124498,
      "grad_norm": 2.644927740097046,
      "learning_rate": 0.000157429718875502,
      "loss": 4.5955,
      "step": 160
    },
    {
      "epoch": 0.6465863453815262,
      "grad_norm": 2.4523508548736572,
      "learning_rate": 0.0001571619812583668,
      "loss": 3.3654,
      "step": 161
    },
    {
      "epoch": 0.6506024096385542,
      "grad_norm": 2.5598349571228027,
      "learning_rate": 0.0001568942436412316,
      "loss": 3.0078,
      "step": 162
    },
    {
      "epoch": 0.6546184738955824,
      "grad_norm": 3.0518641471862793,
      "learning_rate": 0.0001566265060240964,
      "loss": 4.5464,
      "step": 163
    },
    {
      "epoch": 0.6586345381526104,
      "grad_norm": 2.8101203441619873,
      "learning_rate": 0.00015635876840696118,
      "loss": 3.4404,
      "step": 164
    },
    {
      "epoch": 0.6626506024096386,
      "grad_norm": 2.7174525260925293,
      "learning_rate": 0.00015609103078982598,
      "loss": 3.6615,
      "step": 165
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.620638608932495,
      "learning_rate": 0.00015582329317269077,
      "loss": 3.448,
      "step": 166
    },
    {
      "epoch": 0.6706827309236948,
      "grad_norm": 2.9395246505737305,
      "learning_rate": 0.00015555555555555556,
      "loss": 3.6454,
      "step": 167
    },
    {
      "epoch": 0.6746987951807228,
      "grad_norm": 3.050710916519165,
      "learning_rate": 0.00015528781793842036,
      "loss": 4.0765,
      "step": 168
    },
    {
      "epoch": 0.678714859437751,
      "grad_norm": 2.2552433013916016,
      "learning_rate": 0.00015502008032128515,
      "loss": 3.1558,
      "step": 169
    },
    {
      "epoch": 0.6827309236947792,
      "grad_norm": 2.1489574909210205,
      "learning_rate": 0.00015475234270414994,
      "loss": 4.2047,
      "step": 170
    },
    {
      "epoch": 0.6867469879518072,
      "grad_norm": 2.172776937484741,
      "learning_rate": 0.00015448460508701473,
      "loss": 3.4285,
      "step": 171
    },
    {
      "epoch": 0.6907630522088354,
      "grad_norm": 2.1401731967926025,
      "learning_rate": 0.00015421686746987953,
      "loss": 3.2497,
      "step": 172
    },
    {
      "epoch": 0.6947791164658634,
      "grad_norm": 2.7701947689056396,
      "learning_rate": 0.00015394912985274432,
      "loss": 3.9331,
      "step": 173
    },
    {
      "epoch": 0.6987951807228916,
      "grad_norm": 2.319415330886841,
      "learning_rate": 0.0001536813922356091,
      "loss": 3.176,
      "step": 174
    },
    {
      "epoch": 0.7028112449799196,
      "grad_norm": 2.428131341934204,
      "learning_rate": 0.0001534136546184739,
      "loss": 3.1192,
      "step": 175
    },
    {
      "epoch": 0.7068273092369478,
      "grad_norm": 2.135892868041992,
      "learning_rate": 0.0001531459170013387,
      "loss": 3.0222,
      "step": 176
    },
    {
      "epoch": 0.7108433734939759,
      "grad_norm": 2.7550647258758545,
      "learning_rate": 0.0001528781793842035,
      "loss": 4.6775,
      "step": 177
    },
    {
      "epoch": 0.714859437751004,
      "grad_norm": 2.2021191120147705,
      "learning_rate": 0.00015261044176706828,
      "loss": 2.7476,
      "step": 178
    },
    {
      "epoch": 0.7188755020080321,
      "grad_norm": 2.686431407928467,
      "learning_rate": 0.00015234270414993308,
      "loss": 4.1621,
      "step": 179
    },
    {
      "epoch": 0.7228915662650602,
      "grad_norm": 2.827143669128418,
      "learning_rate": 0.00015207496653279787,
      "loss": 4.4613,
      "step": 180
    },
    {
      "epoch": 0.7269076305220884,
      "grad_norm": 3.090308904647827,
      "learning_rate": 0.00015180722891566266,
      "loss": 4.6863,
      "step": 181
    },
    {
      "epoch": 0.7309236947791165,
      "grad_norm": 2.492013454437256,
      "learning_rate": 0.00015153949129852746,
      "loss": 3.2319,
      "step": 182
    },
    {
      "epoch": 0.7349397590361446,
      "grad_norm": 2.6304264068603516,
      "learning_rate": 0.00015127175368139225,
      "loss": 3.3099,
      "step": 183
    },
    {
      "epoch": 0.7389558232931727,
      "grad_norm": 2.270024299621582,
      "learning_rate": 0.00015100401606425701,
      "loss": 3.8332,
      "step": 184
    },
    {
      "epoch": 0.7429718875502008,
      "grad_norm": 2.2107675075531006,
      "learning_rate": 0.00015073627844712183,
      "loss": 3.4966,
      "step": 185
    },
    {
      "epoch": 0.7469879518072289,
      "grad_norm": 1.804654598236084,
      "learning_rate": 0.00015046854082998663,
      "loss": 2.7441,
      "step": 186
    },
    {
      "epoch": 0.751004016064257,
      "grad_norm": 2.8919899463653564,
      "learning_rate": 0.00015020080321285142,
      "loss": 3.7274,
      "step": 187
    },
    {
      "epoch": 0.7550200803212851,
      "grad_norm": 2.4757237434387207,
      "learning_rate": 0.0001499330655957162,
      "loss": 3.6959,
      "step": 188
    },
    {
      "epoch": 0.7590361445783133,
      "grad_norm": 2.037745952606201,
      "learning_rate": 0.000149665327978581,
      "loss": 3.0673,
      "step": 189
    },
    {
      "epoch": 0.7630522088353414,
      "grad_norm": 2.479806423187256,
      "learning_rate": 0.00014939759036144577,
      "loss": 3.5497,
      "step": 190
    },
    {
      "epoch": 0.7670682730923695,
      "grad_norm": 2.532616138458252,
      "learning_rate": 0.00014912985274431056,
      "loss": 4.4538,
      "step": 191
    },
    {
      "epoch": 0.7710843373493976,
      "grad_norm": 2.2965128421783447,
      "learning_rate": 0.00014886211512717538,
      "loss": 3.8924,
      "step": 192
    },
    {
      "epoch": 0.7751004016064257,
      "grad_norm": 2.569096088409424,
      "learning_rate": 0.00014859437751004018,
      "loss": 4.3112,
      "step": 193
    },
    {
      "epoch": 0.7791164658634538,
      "grad_norm": 2.3299782276153564,
      "learning_rate": 0.00014832663989290497,
      "loss": 3.4171,
      "step": 194
    },
    {
      "epoch": 0.7831325301204819,
      "grad_norm": 2.4750306606292725,
      "learning_rate": 0.00014805890227576976,
      "loss": 4.2418,
      "step": 195
    },
    {
      "epoch": 0.7871485943775101,
      "grad_norm": 2.34830904006958,
      "learning_rate": 0.00014779116465863453,
      "loss": 4.7654,
      "step": 196
    },
    {
      "epoch": 0.7911646586345381,
      "grad_norm": 2.3084421157836914,
      "learning_rate": 0.00014752342704149932,
      "loss": 3.5955,
      "step": 197
    },
    {
      "epoch": 0.7951807228915663,
      "grad_norm": 2.088836431503296,
      "learning_rate": 0.00014725568942436414,
      "loss": 3.4426,
      "step": 198
    },
    {
      "epoch": 0.7991967871485943,
      "grad_norm": 2.387511968612671,
      "learning_rate": 0.00014698795180722893,
      "loss": 3.4799,
      "step": 199
    },
    {
      "epoch": 0.8032128514056225,
      "grad_norm": 2.173638343811035,
      "learning_rate": 0.00014672021419009373,
      "loss": 3.1073,
      "step": 200
    },
    {
      "epoch": 0.8072289156626506,
      "grad_norm": 2.4268410205841064,
      "learning_rate": 0.00014645247657295852,
      "loss": 3.895,
      "step": 201
    },
    {
      "epoch": 0.8112449799196787,
      "grad_norm": 2.298238515853882,
      "learning_rate": 0.00014618473895582328,
      "loss": 3.1374,
      "step": 202
    },
    {
      "epoch": 0.8152610441767069,
      "grad_norm": 2.5447280406951904,
      "learning_rate": 0.00014591700133868808,
      "loss": 4.201,
      "step": 203
    },
    {
      "epoch": 0.8192771084337349,
      "grad_norm": 2.2700531482696533,
      "learning_rate": 0.00014564926372155287,
      "loss": 3.3756,
      "step": 204
    },
    {
      "epoch": 0.8232931726907631,
      "grad_norm": 2.2147793769836426,
      "learning_rate": 0.0001453815261044177,
      "loss": 2.8677,
      "step": 205
    },
    {
      "epoch": 0.8273092369477911,
      "grad_norm": 2.820615768432617,
      "learning_rate": 0.00014511378848728248,
      "loss": 3.8278,
      "step": 206
    },
    {
      "epoch": 0.8313253012048193,
      "grad_norm": 2.214066743850708,
      "learning_rate": 0.00014484605087014728,
      "loss": 2.8015,
      "step": 207
    },
    {
      "epoch": 0.8353413654618473,
      "grad_norm": 2.7223362922668457,
      "learning_rate": 0.00014457831325301204,
      "loss": 4.5482,
      "step": 208
    },
    {
      "epoch": 0.8393574297188755,
      "grad_norm": 2.6131458282470703,
      "learning_rate": 0.00014431057563587683,
      "loss": 3.258,
      "step": 209
    },
    {
      "epoch": 0.8433734939759037,
      "grad_norm": 2.378821611404419,
      "learning_rate": 0.00014404283801874163,
      "loss": 3.4395,
      "step": 210
    },
    {
      "epoch": 0.8473895582329317,
      "grad_norm": 2.5394039154052734,
      "learning_rate": 0.00014377510040160642,
      "loss": 3.5583,
      "step": 211
    },
    {
      "epoch": 0.8514056224899599,
      "grad_norm": 2.8768603801727295,
      "learning_rate": 0.00014350736278447124,
      "loss": 4.1826,
      "step": 212
    },
    {
      "epoch": 0.8554216867469879,
      "grad_norm": 2.325242757797241,
      "learning_rate": 0.00014323962516733603,
      "loss": 3.2996,
      "step": 213
    },
    {
      "epoch": 0.8594377510040161,
      "grad_norm": 2.847722053527832,
      "learning_rate": 0.0001429718875502008,
      "loss": 3.7535,
      "step": 214
    },
    {
      "epoch": 0.8634538152610441,
      "grad_norm": 2.3787224292755127,
      "learning_rate": 0.0001427041499330656,
      "loss": 2.989,
      "step": 215
    },
    {
      "epoch": 0.8674698795180723,
      "grad_norm": 2.3759453296661377,
      "learning_rate": 0.00014243641231593038,
      "loss": 3.2181,
      "step": 216
    },
    {
      "epoch": 0.8714859437751004,
      "grad_norm": 2.48319411277771,
      "learning_rate": 0.00014216867469879518,
      "loss": 4.0624,
      "step": 217
    },
    {
      "epoch": 0.8755020080321285,
      "grad_norm": 2.75231671333313,
      "learning_rate": 0.00014190093708166,
      "loss": 4.2616,
      "step": 218
    },
    {
      "epoch": 0.8795180722891566,
      "grad_norm": 2.165195941925049,
      "learning_rate": 0.0001416331994645248,
      "loss": 2.773,
      "step": 219
    },
    {
      "epoch": 0.8835341365461847,
      "grad_norm": 2.9390523433685303,
      "learning_rate": 0.00014136546184738956,
      "loss": 5.3133,
      "step": 220
    },
    {
      "epoch": 0.8875502008032129,
      "grad_norm": 2.4109458923339844,
      "learning_rate": 0.00014109772423025435,
      "loss": 3.8292,
      "step": 221
    },
    {
      "epoch": 0.891566265060241,
      "grad_norm": 2.5037901401519775,
      "learning_rate": 0.00014082998661311914,
      "loss": 4.0122,
      "step": 222
    },
    {
      "epoch": 0.8955823293172691,
      "grad_norm": 2.985944986343384,
      "learning_rate": 0.00014056224899598393,
      "loss": 3.7539,
      "step": 223
    },
    {
      "epoch": 0.8995983935742972,
      "grad_norm": 2.2456915378570557,
      "learning_rate": 0.00014029451137884873,
      "loss": 3.4707,
      "step": 224
    },
    {
      "epoch": 0.9036144578313253,
      "grad_norm": 2.0935449600219727,
      "learning_rate": 0.00014002677376171355,
      "loss": 2.7515,
      "step": 225
    },
    {
      "epoch": 0.9076305220883534,
      "grad_norm": 2.4609766006469727,
      "learning_rate": 0.00013975903614457834,
      "loss": 3.8227,
      "step": 226
    },
    {
      "epoch": 0.9116465863453815,
      "grad_norm": 2.2097980976104736,
      "learning_rate": 0.0001394912985274431,
      "loss": 3.2733,
      "step": 227
    },
    {
      "epoch": 0.9156626506024096,
      "grad_norm": 2.0642688274383545,
      "learning_rate": 0.0001392235609103079,
      "loss": 3.0938,
      "step": 228
    },
    {
      "epoch": 0.9196787148594378,
      "grad_norm": 2.3710100650787354,
      "learning_rate": 0.0001389558232931727,
      "loss": 4.2002,
      "step": 229
    },
    {
      "epoch": 0.9236947791164659,
      "grad_norm": 2.6360647678375244,
      "learning_rate": 0.00013868808567603748,
      "loss": 3.8326,
      "step": 230
    },
    {
      "epoch": 0.927710843373494,
      "grad_norm": 2.2522687911987305,
      "learning_rate": 0.00013842034805890228,
      "loss": 4.0576,
      "step": 231
    },
    {
      "epoch": 0.9317269076305221,
      "grad_norm": 2.3965373039245605,
      "learning_rate": 0.0001381526104417671,
      "loss": 2.551,
      "step": 232
    },
    {
      "epoch": 0.9357429718875502,
      "grad_norm": 2.160850763320923,
      "learning_rate": 0.00013788487282463186,
      "loss": 3.0346,
      "step": 233
    },
    {
      "epoch": 0.9397590361445783,
      "grad_norm": 2.7340362071990967,
      "learning_rate": 0.00013761713520749665,
      "loss": 3.8792,
      "step": 234
    },
    {
      "epoch": 0.9437751004016064,
      "grad_norm": 2.373431921005249,
      "learning_rate": 0.00013734939759036145,
      "loss": 3.4563,
      "step": 235
    },
    {
      "epoch": 0.9477911646586346,
      "grad_norm": 2.887669801712036,
      "learning_rate": 0.00013708165997322624,
      "loss": 3.4205,
      "step": 236
    },
    {
      "epoch": 0.9518072289156626,
      "grad_norm": 2.47088360786438,
      "learning_rate": 0.00013681392235609103,
      "loss": 3.7738,
      "step": 237
    },
    {
      "epoch": 0.9558232931726908,
      "grad_norm": 2.7040438652038574,
      "learning_rate": 0.00013654618473895585,
      "loss": 3.5389,
      "step": 238
    },
    {
      "epoch": 0.9598393574297188,
      "grad_norm": 2.2656071186065674,
      "learning_rate": 0.00013627844712182062,
      "loss": 2.5192,
      "step": 239
    },
    {
      "epoch": 0.963855421686747,
      "grad_norm": 2.0689640045166016,
      "learning_rate": 0.0001360107095046854,
      "loss": 3.2038,
      "step": 240
    },
    {
      "epoch": 0.9678714859437751,
      "grad_norm": 2.456049680709839,
      "learning_rate": 0.0001357429718875502,
      "loss": 3.3779,
      "step": 241
    },
    {
      "epoch": 0.9718875502008032,
      "grad_norm": 3.6520512104034424,
      "learning_rate": 0.000135475234270415,
      "loss": 6.3828,
      "step": 242
    },
    {
      "epoch": 0.9759036144578314,
      "grad_norm": 2.9019930362701416,
      "learning_rate": 0.0001352074966532798,
      "loss": 4.4033,
      "step": 243
    },
    {
      "epoch": 0.9799196787148594,
      "grad_norm": 2.688805103302002,
      "learning_rate": 0.00013493975903614458,
      "loss": 3.7718,
      "step": 244
    },
    {
      "epoch": 0.9839357429718876,
      "grad_norm": 2.3583173751831055,
      "learning_rate": 0.00013467202141900938,
      "loss": 2.8558,
      "step": 245
    },
    {
      "epoch": 0.9879518072289156,
      "grad_norm": 2.2991857528686523,
      "learning_rate": 0.00013440428380187417,
      "loss": 3.3544,
      "step": 246
    },
    {
      "epoch": 0.9919678714859438,
      "grad_norm": 2.3462352752685547,
      "learning_rate": 0.00013413654618473896,
      "loss": 3.4804,
      "step": 247
    },
    {
      "epoch": 0.9959839357429718,
      "grad_norm": 2.375304698944092,
      "learning_rate": 0.00013386880856760375,
      "loss": 3.9284,
      "step": 248
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.3574721813201904,
      "learning_rate": 0.00013360107095046855,
      "loss": 3.5948,
      "step": 249
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.906198263168335,
      "eval_runtime": 202.0311,
      "eval_samples_per_second": 2.47,
      "eval_steps_per_second": 1.237,
      "step": 249
    },
    {
      "epoch": 1.0040160642570282,
      "grad_norm": 2.329230546951294,
      "learning_rate": 0.00013333333333333334,
      "loss": 3.8794,
      "step": 250
    },
    {
      "epoch": 1.0080321285140563,
      "grad_norm": 2.304131507873535,
      "learning_rate": 0.00013306559571619813,
      "loss": 2.618,
      "step": 251
    },
    {
      "epoch": 1.0120481927710843,
      "grad_norm": 2.258854389190674,
      "learning_rate": 0.00013279785809906293,
      "loss": 4.5112,
      "step": 252
    },
    {
      "epoch": 1.0160642570281124,
      "grad_norm": 1.9307198524475098,
      "learning_rate": 0.00013253012048192772,
      "loss": 2.8023,
      "step": 253
    },
    {
      "epoch": 1.0200803212851406,
      "grad_norm": 2.070939540863037,
      "learning_rate": 0.0001322623828647925,
      "loss": 2.9067,
      "step": 254
    },
    {
      "epoch": 1.0240963855421688,
      "grad_norm": 2.1403632164001465,
      "learning_rate": 0.0001319946452476573,
      "loss": 3.0498,
      "step": 255
    },
    {
      "epoch": 1.0281124497991967,
      "grad_norm": 1.9982527494430542,
      "learning_rate": 0.0001317269076305221,
      "loss": 2.7652,
      "step": 256
    },
    {
      "epoch": 1.0321285140562249,
      "grad_norm": 2.3440232276916504,
      "learning_rate": 0.0001314591700133869,
      "loss": 3.8854,
      "step": 257
    },
    {
      "epoch": 1.036144578313253,
      "grad_norm": 2.3406286239624023,
      "learning_rate": 0.00013119143239625168,
      "loss": 2.9114,
      "step": 258
    },
    {
      "epoch": 1.0401606425702812,
      "grad_norm": 2.673793077468872,
      "learning_rate": 0.00013092369477911648,
      "loss": 3.0531,
      "step": 259
    },
    {
      "epoch": 1.0441767068273093,
      "grad_norm": 2.2808480262756348,
      "learning_rate": 0.00013065595716198127,
      "loss": 2.9484,
      "step": 260
    },
    {
      "epoch": 1.0481927710843373,
      "grad_norm": 2.513705253601074,
      "learning_rate": 0.00013038821954484606,
      "loss": 2.6625,
      "step": 261
    },
    {
      "epoch": 1.0522088353413654,
      "grad_norm": 2.7780377864837646,
      "learning_rate": 0.00013012048192771085,
      "loss": 3.1793,
      "step": 262
    },
    {
      "epoch": 1.0562248995983936,
      "grad_norm": 2.522724151611328,
      "learning_rate": 0.00012985274431057565,
      "loss": 3.1926,
      "step": 263
    },
    {
      "epoch": 1.0602409638554218,
      "grad_norm": 3.2487499713897705,
      "learning_rate": 0.0001295850066934404,
      "loss": 3.9779,
      "step": 264
    },
    {
      "epoch": 1.0642570281124497,
      "grad_norm": 2.4341378211975098,
      "learning_rate": 0.00012931726907630523,
      "loss": 2.9064,
      "step": 265
    },
    {
      "epoch": 1.0682730923694779,
      "grad_norm": 2.5539276599884033,
      "learning_rate": 0.00012904953145917002,
      "loss": 3.4219,
      "step": 266
    },
    {
      "epoch": 1.072289156626506,
      "grad_norm": 2.0425596237182617,
      "learning_rate": 0.00012878179384203482,
      "loss": 2.5395,
      "step": 267
    },
    {
      "epoch": 1.0763052208835342,
      "grad_norm": 2.3625378608703613,
      "learning_rate": 0.0001285140562248996,
      "loss": 2.757,
      "step": 268
    },
    {
      "epoch": 1.0803212851405624,
      "grad_norm": 2.0414483547210693,
      "learning_rate": 0.0001282463186077644,
      "loss": 2.7764,
      "step": 269
    },
    {
      "epoch": 1.0843373493975903,
      "grad_norm": 3.544743061065674,
      "learning_rate": 0.00012797858099062917,
      "loss": 3.6176,
      "step": 270
    },
    {
      "epoch": 1.0883534136546185,
      "grad_norm": 2.4814655780792236,
      "learning_rate": 0.00012771084337349396,
      "loss": 3.2284,
      "step": 271
    },
    {
      "epoch": 1.0923694779116466,
      "grad_norm": 2.364025592803955,
      "learning_rate": 0.00012744310575635878,
      "loss": 3.6178,
      "step": 272
    },
    {
      "epoch": 1.0963855421686748,
      "grad_norm": 1.989912748336792,
      "learning_rate": 0.00012717536813922357,
      "loss": 2.5839,
      "step": 273
    },
    {
      "epoch": 1.1004016064257027,
      "grad_norm": 2.413421154022217,
      "learning_rate": 0.00012690763052208837,
      "loss": 3.5416,
      "step": 274
    },
    {
      "epoch": 1.104417670682731,
      "grad_norm": 2.679314613342285,
      "learning_rate": 0.00012663989290495316,
      "loss": 3.0015,
      "step": 275
    },
    {
      "epoch": 1.108433734939759,
      "grad_norm": 2.2354209423065186,
      "learning_rate": 0.00012637215528781793,
      "loss": 3.3867,
      "step": 276
    },
    {
      "epoch": 1.1124497991967872,
      "grad_norm": 2.4003982543945312,
      "learning_rate": 0.00012610441767068272,
      "loss": 3.0927,
      "step": 277
    },
    {
      "epoch": 1.1164658634538154,
      "grad_norm": 2.2922661304473877,
      "learning_rate": 0.00012583668005354754,
      "loss": 2.835,
      "step": 278
    },
    {
      "epoch": 1.1204819277108433,
      "grad_norm": 2.1880528926849365,
      "learning_rate": 0.00012556894243641233,
      "loss": 2.9581,
      "step": 279
    },
    {
      "epoch": 1.1244979919678715,
      "grad_norm": 2.5255534648895264,
      "learning_rate": 0.00012530120481927712,
      "loss": 2.7931,
      "step": 280
    },
    {
      "epoch": 1.1285140562248996,
      "grad_norm": 2.2529118061065674,
      "learning_rate": 0.00012503346720214192,
      "loss": 2.6831,
      "step": 281
    },
    {
      "epoch": 1.1325301204819278,
      "grad_norm": 2.2123444080352783,
      "learning_rate": 0.0001247657295850067,
      "loss": 2.8091,
      "step": 282
    },
    {
      "epoch": 1.1365461847389557,
      "grad_norm": 2.538160800933838,
      "learning_rate": 0.00012449799196787148,
      "loss": 3.0089,
      "step": 283
    },
    {
      "epoch": 1.140562248995984,
      "grad_norm": 3.0052592754364014,
      "learning_rate": 0.00012423025435073627,
      "loss": 3.9042,
      "step": 284
    },
    {
      "epoch": 1.144578313253012,
      "grad_norm": 2.691096067428589,
      "learning_rate": 0.0001239625167336011,
      "loss": 3.9491,
      "step": 285
    },
    {
      "epoch": 1.1485943775100402,
      "grad_norm": 2.6101088523864746,
      "learning_rate": 0.00012369477911646588,
      "loss": 2.9432,
      "step": 286
    },
    {
      "epoch": 1.1526104417670684,
      "grad_norm": 2.368319511413574,
      "learning_rate": 0.00012342704149933067,
      "loss": 2.966,
      "step": 287
    },
    {
      "epoch": 1.1566265060240963,
      "grad_norm": 2.4615232944488525,
      "learning_rate": 0.00012315930388219547,
      "loss": 3.4359,
      "step": 288
    },
    {
      "epoch": 1.1606425702811245,
      "grad_norm": 2.3296902179718018,
      "learning_rate": 0.00012289156626506023,
      "loss": 3.0168,
      "step": 289
    },
    {
      "epoch": 1.1646586345381527,
      "grad_norm": 2.7844183444976807,
      "learning_rate": 0.00012262382864792503,
      "loss": 3.1574,
      "step": 290
    },
    {
      "epoch": 1.1686746987951806,
      "grad_norm": 2.486553430557251,
      "learning_rate": 0.00012235609103078982,
      "loss": 3.1044,
      "step": 291
    },
    {
      "epoch": 1.1726907630522088,
      "grad_norm": 2.4482836723327637,
      "learning_rate": 0.00012208835341365464,
      "loss": 3.2606,
      "step": 292
    },
    {
      "epoch": 1.176706827309237,
      "grad_norm": 2.393049955368042,
      "learning_rate": 0.00012182061579651942,
      "loss": 2.9026,
      "step": 293
    },
    {
      "epoch": 1.180722891566265,
      "grad_norm": 2.8396050930023193,
      "learning_rate": 0.00012155287817938421,
      "loss": 2.9787,
      "step": 294
    },
    {
      "epoch": 1.1847389558232932,
      "grad_norm": 2.447458028793335,
      "learning_rate": 0.000121285140562249,
      "loss": 2.6885,
      "step": 295
    },
    {
      "epoch": 1.1887550200803212,
      "grad_norm": 2.3094258308410645,
      "learning_rate": 0.0001210174029451138,
      "loss": 2.9401,
      "step": 296
    },
    {
      "epoch": 1.1927710843373494,
      "grad_norm": 2.5315654277801514,
      "learning_rate": 0.00012074966532797858,
      "loss": 3.2829,
      "step": 297
    },
    {
      "epoch": 1.1967871485943775,
      "grad_norm": 2.4781811237335205,
      "learning_rate": 0.0001204819277108434,
      "loss": 2.9542,
      "step": 298
    },
    {
      "epoch": 1.2008032128514057,
      "grad_norm": 2.759524345397949,
      "learning_rate": 0.00012021419009370817,
      "loss": 3.5029,
      "step": 299
    },
    {
      "epoch": 1.2048192771084336,
      "grad_norm": 2.388485908508301,
      "learning_rate": 0.00011994645247657297,
      "loss": 2.6706,
      "step": 300
    },
    {
      "epoch": 1.2088353413654618,
      "grad_norm": 2.5414671897888184,
      "learning_rate": 0.00011967871485943776,
      "loss": 2.7898,
      "step": 301
    },
    {
      "epoch": 1.21285140562249,
      "grad_norm": 3.36741042137146,
      "learning_rate": 0.00011941097724230255,
      "loss": 2.7475,
      "step": 302
    },
    {
      "epoch": 1.216867469879518,
      "grad_norm": 2.7749950885772705,
      "learning_rate": 0.00011914323962516733,
      "loss": 2.9617,
      "step": 303
    },
    {
      "epoch": 1.2208835341365463,
      "grad_norm": 2.685976505279541,
      "learning_rate": 0.00011887550200803212,
      "loss": 3.2493,
      "step": 304
    },
    {
      "epoch": 1.2248995983935742,
      "grad_norm": 2.7357215881347656,
      "learning_rate": 0.00011860776439089693,
      "loss": 2.7249,
      "step": 305
    },
    {
      "epoch": 1.2289156626506024,
      "grad_norm": 2.962019443511963,
      "learning_rate": 0.00011834002677376172,
      "loss": 3.4647,
      "step": 306
    },
    {
      "epoch": 1.2329317269076305,
      "grad_norm": 2.891343832015991,
      "learning_rate": 0.00011807228915662652,
      "loss": 3.5527,
      "step": 307
    },
    {
      "epoch": 1.2369477911646587,
      "grad_norm": 2.7382125854492188,
      "learning_rate": 0.00011780455153949131,
      "loss": 3.1955,
      "step": 308
    },
    {
      "epoch": 1.2409638554216866,
      "grad_norm": 2.385486602783203,
      "learning_rate": 0.00011753681392235609,
      "loss": 3.022,
      "step": 309
    },
    {
      "epoch": 1.2449799196787148,
      "grad_norm": 2.553295612335205,
      "learning_rate": 0.00011726907630522088,
      "loss": 2.801,
      "step": 310
    },
    {
      "epoch": 1.248995983935743,
      "grad_norm": 2.9965014457702637,
      "learning_rate": 0.00011700133868808567,
      "loss": 2.4453,
      "step": 311
    },
    {
      "epoch": 1.2530120481927711,
      "grad_norm": 2.327629566192627,
      "learning_rate": 0.00011673360107095048,
      "loss": 2.2897,
      "step": 312
    },
    {
      "epoch": 1.2570281124497993,
      "grad_norm": 2.7544825077056885,
      "learning_rate": 0.00011646586345381527,
      "loss": 3.2796,
      "step": 313
    },
    {
      "epoch": 1.2610441767068274,
      "grad_norm": 2.590733051300049,
      "learning_rate": 0.00011619812583668007,
      "loss": 2.9126,
      "step": 314
    },
    {
      "epoch": 1.2650602409638554,
      "grad_norm": 3.3064663410186768,
      "learning_rate": 0.00011593038821954485,
      "loss": 3.6784,
      "step": 315
    },
    {
      "epoch": 1.2690763052208835,
      "grad_norm": 3.3928616046905518,
      "learning_rate": 0.00011566265060240964,
      "loss": 3.3292,
      "step": 316
    },
    {
      "epoch": 1.2730923694779117,
      "grad_norm": 2.6576473712921143,
      "learning_rate": 0.00011539491298527443,
      "loss": 3.0617,
      "step": 317
    },
    {
      "epoch": 1.2771084337349397,
      "grad_norm": 2.5956337451934814,
      "learning_rate": 0.00011512717536813924,
      "loss": 2.9754,
      "step": 318
    },
    {
      "epoch": 1.2811244979919678,
      "grad_norm": 2.8080995082855225,
      "learning_rate": 0.00011485943775100403,
      "loss": 3.1712,
      "step": 319
    },
    {
      "epoch": 1.285140562248996,
      "grad_norm": 2.4304864406585693,
      "learning_rate": 0.00011459170013386882,
      "loss": 3.0387,
      "step": 320
    },
    {
      "epoch": 1.2891566265060241,
      "grad_norm": 2.2777411937713623,
      "learning_rate": 0.0001143239625167336,
      "loss": 2.8357,
      "step": 321
    },
    {
      "epoch": 1.2931726907630523,
      "grad_norm": 2.370192289352417,
      "learning_rate": 0.0001140562248995984,
      "loss": 2.5937,
      "step": 322
    },
    {
      "epoch": 1.2971887550200802,
      "grad_norm": 3.0521585941314697,
      "learning_rate": 0.00011378848728246319,
      "loss": 4.4271,
      "step": 323
    },
    {
      "epoch": 1.3012048192771084,
      "grad_norm": 2.4153242111206055,
      "learning_rate": 0.00011352074966532798,
      "loss": 2.7952,
      "step": 324
    },
    {
      "epoch": 1.3052208835341366,
      "grad_norm": 2.629312038421631,
      "learning_rate": 0.00011325301204819279,
      "loss": 3.6324,
      "step": 325
    },
    {
      "epoch": 1.3092369477911647,
      "grad_norm": 2.0146517753601074,
      "learning_rate": 0.00011298527443105758,
      "loss": 2.3154,
      "step": 326
    },
    {
      "epoch": 1.3132530120481927,
      "grad_norm": 2.3414394855499268,
      "learning_rate": 0.00011271753681392236,
      "loss": 2.809,
      "step": 327
    },
    {
      "epoch": 1.3172690763052208,
      "grad_norm": 2.366577386856079,
      "learning_rate": 0.00011244979919678715,
      "loss": 3.7852,
      "step": 328
    },
    {
      "epoch": 1.321285140562249,
      "grad_norm": 2.661543130874634,
      "learning_rate": 0.00011218206157965195,
      "loss": 2.818,
      "step": 329
    },
    {
      "epoch": 1.3253012048192772,
      "grad_norm": 2.51835036277771,
      "learning_rate": 0.00011191432396251674,
      "loss": 2.8359,
      "step": 330
    },
    {
      "epoch": 1.3293172690763053,
      "grad_norm": 2.473179817199707,
      "learning_rate": 0.00011164658634538152,
      "loss": 2.8498,
      "step": 331
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 2.9637928009033203,
      "learning_rate": 0.00011137884872824634,
      "loss": 4.164,
      "step": 332
    },
    {
      "epoch": 1.3373493975903614,
      "grad_norm": 2.5028486251831055,
      "learning_rate": 0.00011111111111111112,
      "loss": 3.6701,
      "step": 333
    },
    {
      "epoch": 1.3413654618473896,
      "grad_norm": 3.149928092956543,
      "learning_rate": 0.00011084337349397591,
      "loss": 3.7949,
      "step": 334
    },
    {
      "epoch": 1.3453815261044177,
      "grad_norm": 2.7405877113342285,
      "learning_rate": 0.0001105756358768407,
      "loss": 3.2064,
      "step": 335
    },
    {
      "epoch": 1.3493975903614457,
      "grad_norm": 2.830744743347168,
      "learning_rate": 0.0001103078982597055,
      "loss": 2.8919,
      "step": 336
    },
    {
      "epoch": 1.3534136546184738,
      "grad_norm": 2.9335427284240723,
      "learning_rate": 0.00011004016064257027,
      "loss": 3.1013,
      "step": 337
    },
    {
      "epoch": 1.357429718875502,
      "grad_norm": 2.505171537399292,
      "learning_rate": 0.0001097724230254351,
      "loss": 3.206,
      "step": 338
    },
    {
      "epoch": 1.3614457831325302,
      "grad_norm": 3.127634286880493,
      "learning_rate": 0.00010950468540829987,
      "loss": 3.2454,
      "step": 339
    },
    {
      "epoch": 1.3654618473895583,
      "grad_norm": 2.7009451389312744,
      "learning_rate": 0.00010923694779116467,
      "loss": 3.0679,
      "step": 340
    },
    {
      "epoch": 1.3694779116465863,
      "grad_norm": 2.3906707763671875,
      "learning_rate": 0.00010896921017402946,
      "loss": 3.7267,
      "step": 341
    },
    {
      "epoch": 1.3734939759036144,
      "grad_norm": 2.4884233474731445,
      "learning_rate": 0.00010870147255689425,
      "loss": 3.2707,
      "step": 342
    },
    {
      "epoch": 1.3775100401606426,
      "grad_norm": 2.514148712158203,
      "learning_rate": 0.00010843373493975903,
      "loss": 3.0734,
      "step": 343
    },
    {
      "epoch": 1.3815261044176708,
      "grad_norm": 2.450438976287842,
      "learning_rate": 0.00010816599732262382,
      "loss": 2.7529,
      "step": 344
    },
    {
      "epoch": 1.3855421686746987,
      "grad_norm": 2.5931103229522705,
      "learning_rate": 0.00010789825970548863,
      "loss": 3.8578,
      "step": 345
    },
    {
      "epoch": 1.3895582329317269,
      "grad_norm": 2.386543035507202,
      "learning_rate": 0.00010763052208835342,
      "loss": 3.2145,
      "step": 346
    },
    {
      "epoch": 1.393574297188755,
      "grad_norm": 2.643378973007202,
      "learning_rate": 0.00010736278447121822,
      "loss": 2.7853,
      "step": 347
    },
    {
      "epoch": 1.3975903614457832,
      "grad_norm": 1.9885903596878052,
      "learning_rate": 0.00010709504685408301,
      "loss": 2.2022,
      "step": 348
    },
    {
      "epoch": 1.4016064257028114,
      "grad_norm": 2.6465091705322266,
      "learning_rate": 0.00010682730923694779,
      "loss": 3.5565,
      "step": 349
    },
    {
      "epoch": 1.4056224899598393,
      "grad_norm": 2.6052937507629395,
      "learning_rate": 0.00010655957161981258,
      "loss": 2.9741,
      "step": 350
    },
    {
      "epoch": 1.4096385542168675,
      "grad_norm": 2.7112314701080322,
      "learning_rate": 0.00010629183400267737,
      "loss": 4.0259,
      "step": 351
    },
    {
      "epoch": 1.4136546184738956,
      "grad_norm": 2.5356833934783936,
      "learning_rate": 0.00010602409638554218,
      "loss": 2.6879,
      "step": 352
    },
    {
      "epoch": 1.4176706827309236,
      "grad_norm": 2.745176315307617,
      "learning_rate": 0.00010575635876840697,
      "loss": 4.0105,
      "step": 353
    },
    {
      "epoch": 1.4216867469879517,
      "grad_norm": 2.5344765186309814,
      "learning_rate": 0.00010548862115127177,
      "loss": 2.9797,
      "step": 354
    },
    {
      "epoch": 1.4257028112449799,
      "grad_norm": 2.680912733078003,
      "learning_rate": 0.00010522088353413654,
      "loss": 3.3971,
      "step": 355
    },
    {
      "epoch": 1.429718875502008,
      "grad_norm": 3.498023271560669,
      "learning_rate": 0.00010495314591700134,
      "loss": 3.6706,
      "step": 356
    },
    {
      "epoch": 1.4337349397590362,
      "grad_norm": 2.4419398307800293,
      "learning_rate": 0.00010468540829986613,
      "loss": 2.6477,
      "step": 357
    },
    {
      "epoch": 1.4377510040160644,
      "grad_norm": 3.2264997959136963,
      "learning_rate": 0.00010441767068273094,
      "loss": 4.5181,
      "step": 358
    },
    {
      "epoch": 1.4417670682730923,
      "grad_norm": 2.5578315258026123,
      "learning_rate": 0.00010414993306559573,
      "loss": 2.6282,
      "step": 359
    },
    {
      "epoch": 1.4457831325301205,
      "grad_norm": 2.539045572280884,
      "learning_rate": 0.00010388219544846052,
      "loss": 2.6435,
      "step": 360
    },
    {
      "epoch": 1.4497991967871486,
      "grad_norm": 2.9697344303131104,
      "learning_rate": 0.0001036144578313253,
      "loss": 2.6676,
      "step": 361
    },
    {
      "epoch": 1.4538152610441766,
      "grad_norm": 2.606131076812744,
      "learning_rate": 0.0001033467202141901,
      "loss": 2.9316,
      "step": 362
    },
    {
      "epoch": 1.4578313253012047,
      "grad_norm": 3.290837049484253,
      "learning_rate": 0.00010307898259705489,
      "loss": 3.0869,
      "step": 363
    },
    {
      "epoch": 1.461847389558233,
      "grad_norm": 2.331320285797119,
      "learning_rate": 0.00010281124497991968,
      "loss": 2.555,
      "step": 364
    },
    {
      "epoch": 1.465863453815261,
      "grad_norm": 2.8447391986846924,
      "learning_rate": 0.00010254350736278449,
      "loss": 2.6998,
      "step": 365
    },
    {
      "epoch": 1.4698795180722892,
      "grad_norm": 2.6170618534088135,
      "learning_rate": 0.00010227576974564928,
      "loss": 2.7688,
      "step": 366
    },
    {
      "epoch": 1.4738955823293174,
      "grad_norm": 2.933560609817505,
      "learning_rate": 0.00010200803212851406,
      "loss": 3.0291,
      "step": 367
    },
    {
      "epoch": 1.4779116465863453,
      "grad_norm": 2.6285972595214844,
      "learning_rate": 0.00010174029451137885,
      "loss": 2.8629,
      "step": 368
    },
    {
      "epoch": 1.4819277108433735,
      "grad_norm": 3.2716546058654785,
      "learning_rate": 0.00010147255689424364,
      "loss": 3.1994,
      "step": 369
    },
    {
      "epoch": 1.4859437751004017,
      "grad_norm": 2.758296489715576,
      "learning_rate": 0.00010120481927710844,
      "loss": 2.6734,
      "step": 370
    },
    {
      "epoch": 1.4899598393574296,
      "grad_norm": 2.3439807891845703,
      "learning_rate": 0.00010093708165997322,
      "loss": 2.8747,
      "step": 371
    },
    {
      "epoch": 1.4939759036144578,
      "grad_norm": 2.4199349880218506,
      "learning_rate": 0.00010066934404283804,
      "loss": 2.7135,
      "step": 372
    },
    {
      "epoch": 1.497991967871486,
      "grad_norm": 2.8863987922668457,
      "learning_rate": 0.00010040160642570282,
      "loss": 3.3239,
      "step": 373
    },
    {
      "epoch": 1.502008032128514,
      "grad_norm": 2.5620765686035156,
      "learning_rate": 0.00010013386880856761,
      "loss": 2.5748,
      "step": 374
    },
    {
      "epoch": 1.5060240963855422,
      "grad_norm": 2.5705456733703613,
      "learning_rate": 9.98661311914324e-05,
      "loss": 3.4645,
      "step": 375
    },
    {
      "epoch": 1.5100401606425704,
      "grad_norm": 2.75276780128479,
      "learning_rate": 9.95983935742972e-05,
      "loss": 2.7345,
      "step": 376
    },
    {
      "epoch": 1.5140562248995983,
      "grad_norm": 2.5206143856048584,
      "learning_rate": 9.933065595716199e-05,
      "loss": 2.8325,
      "step": 377
    },
    {
      "epoch": 1.5180722891566265,
      "grad_norm": 2.3054890632629395,
      "learning_rate": 9.906291834002678e-05,
      "loss": 2.884,
      "step": 378
    },
    {
      "epoch": 1.5220883534136547,
      "grad_norm": 2.563084125518799,
      "learning_rate": 9.879518072289157e-05,
      "loss": 3.0262,
      "step": 379
    },
    {
      "epoch": 1.5261044176706826,
      "grad_norm": 2.575040817260742,
      "learning_rate": 9.852744310575637e-05,
      "loss": 3.096,
      "step": 380
    },
    {
      "epoch": 1.5301204819277108,
      "grad_norm": 2.3715319633483887,
      "learning_rate": 9.825970548862116e-05,
      "loss": 2.7163,
      "step": 381
    },
    {
      "epoch": 1.534136546184739,
      "grad_norm": 2.7323389053344727,
      "learning_rate": 9.799196787148595e-05,
      "loss": 2.792,
      "step": 382
    },
    {
      "epoch": 1.538152610441767,
      "grad_norm": 2.523524522781372,
      "learning_rate": 9.772423025435074e-05,
      "loss": 3.2821,
      "step": 383
    },
    {
      "epoch": 1.5421686746987953,
      "grad_norm": 2.533090114593506,
      "learning_rate": 9.745649263721554e-05,
      "loss": 2.7672,
      "step": 384
    },
    {
      "epoch": 1.5461847389558234,
      "grad_norm": 2.644031286239624,
      "learning_rate": 9.718875502008033e-05,
      "loss": 3.0318,
      "step": 385
    },
    {
      "epoch": 1.5502008032128514,
      "grad_norm": 3.1442739963531494,
      "learning_rate": 9.692101740294511e-05,
      "loss": 3.6628,
      "step": 386
    },
    {
      "epoch": 1.5542168674698795,
      "grad_norm": 2.403552532196045,
      "learning_rate": 9.665327978580992e-05,
      "loss": 2.4332,
      "step": 387
    },
    {
      "epoch": 1.5582329317269075,
      "grad_norm": 2.478534698486328,
      "learning_rate": 9.638554216867471e-05,
      "loss": 2.4746,
      "step": 388
    },
    {
      "epoch": 1.5622489959839356,
      "grad_norm": 2.7873339653015137,
      "learning_rate": 9.611780455153949e-05,
      "loss": 2.8514,
      "step": 389
    },
    {
      "epoch": 1.5662650602409638,
      "grad_norm": 2.751532793045044,
      "learning_rate": 9.58500669344043e-05,
      "loss": 2.9365,
      "step": 390
    },
    {
      "epoch": 1.570281124497992,
      "grad_norm": 2.8862998485565186,
      "learning_rate": 9.558232931726909e-05,
      "loss": 3.2632,
      "step": 391
    },
    {
      "epoch": 1.5742971887550201,
      "grad_norm": 2.5372817516326904,
      "learning_rate": 9.531459170013387e-05,
      "loss": 2.8649,
      "step": 392
    },
    {
      "epoch": 1.5783132530120483,
      "grad_norm": 2.428025007247925,
      "learning_rate": 9.504685408299867e-05,
      "loss": 2.6417,
      "step": 393
    },
    {
      "epoch": 1.5823293172690764,
      "grad_norm": 3.284771680831909,
      "learning_rate": 9.477911646586346e-05,
      "loss": 3.4804,
      "step": 394
    },
    {
      "epoch": 1.5863453815261044,
      "grad_norm": 2.8651950359344482,
      "learning_rate": 9.451137884872824e-05,
      "loss": 3.1454,
      "step": 395
    },
    {
      "epoch": 1.5903614457831325,
      "grad_norm": 3.078660011291504,
      "learning_rate": 9.424364123159304e-05,
      "loss": 3.5961,
      "step": 396
    },
    {
      "epoch": 1.5943775100401605,
      "grad_norm": 2.2207376956939697,
      "learning_rate": 9.397590361445784e-05,
      "loss": 2.3121,
      "step": 397
    },
    {
      "epoch": 1.5983935742971886,
      "grad_norm": 2.4094178676605225,
      "learning_rate": 9.370816599732262e-05,
      "loss": 2.7138,
      "step": 398
    },
    {
      "epoch": 1.6024096385542168,
      "grad_norm": 2.759876251220703,
      "learning_rate": 9.344042838018742e-05,
      "loss": 3.5605,
      "step": 399
    },
    {
      "epoch": 1.606425702811245,
      "grad_norm": 2.189237117767334,
      "learning_rate": 9.317269076305222e-05,
      "loss": 2.6023,
      "step": 400
    },
    {
      "epoch": 1.6104417670682731,
      "grad_norm": 2.585479736328125,
      "learning_rate": 9.2904953145917e-05,
      "loss": 3.2234,
      "step": 401
    },
    {
      "epoch": 1.6144578313253013,
      "grad_norm": 2.565342664718628,
      "learning_rate": 9.26372155287818e-05,
      "loss": 3.0341,
      "step": 402
    },
    {
      "epoch": 1.6184738955823295,
      "grad_norm": 2.4045302867889404,
      "learning_rate": 9.23694779116466e-05,
      "loss": 2.7032,
      "step": 403
    },
    {
      "epoch": 1.6224899598393574,
      "grad_norm": 3.0136139392852783,
      "learning_rate": 9.210174029451138e-05,
      "loss": 3.1651,
      "step": 404
    },
    {
      "epoch": 1.6265060240963856,
      "grad_norm": 2.253669261932373,
      "learning_rate": 9.183400267737617e-05,
      "loss": 2.2507,
      "step": 405
    },
    {
      "epoch": 1.6305220883534135,
      "grad_norm": 2.734966993331909,
      "learning_rate": 9.156626506024096e-05,
      "loss": 3.0798,
      "step": 406
    },
    {
      "epoch": 1.6345381526104417,
      "grad_norm": 2.955502986907959,
      "learning_rate": 9.129852744310576e-05,
      "loss": 3.086,
      "step": 407
    },
    {
      "epoch": 1.6385542168674698,
      "grad_norm": 3.2345542907714844,
      "learning_rate": 9.103078982597055e-05,
      "loss": 3.3553,
      "step": 408
    },
    {
      "epoch": 1.642570281124498,
      "grad_norm": 2.7762720584869385,
      "learning_rate": 9.076305220883534e-05,
      "loss": 3.4238,
      "step": 409
    },
    {
      "epoch": 1.6465863453815262,
      "grad_norm": 2.824641466140747,
      "learning_rate": 9.049531459170014e-05,
      "loss": 2.8925,
      "step": 410
    },
    {
      "epoch": 1.6506024096385543,
      "grad_norm": 2.754810094833374,
      "learning_rate": 9.022757697456493e-05,
      "loss": 2.9022,
      "step": 411
    },
    {
      "epoch": 1.6546184738955825,
      "grad_norm": 2.5305283069610596,
      "learning_rate": 8.995983935742972e-05,
      "loss": 2.927,
      "step": 412
    },
    {
      "epoch": 1.6586345381526104,
      "grad_norm": 2.796165943145752,
      "learning_rate": 8.969210174029451e-05,
      "loss": 2.9185,
      "step": 413
    },
    {
      "epoch": 1.6626506024096386,
      "grad_norm": 2.9504239559173584,
      "learning_rate": 8.942436412315931e-05,
      "loss": 3.3915,
      "step": 414
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 2.8904786109924316,
      "learning_rate": 8.91566265060241e-05,
      "loss": 2.8841,
      "step": 415
    },
    {
      "epoch": 1.6706827309236947,
      "grad_norm": 2.184354305267334,
      "learning_rate": 8.888888888888889e-05,
      "loss": 2.3859,
      "step": 416
    },
    {
      "epoch": 1.6746987951807228,
      "grad_norm": 3.1552340984344482,
      "learning_rate": 8.862115127175369e-05,
      "loss": 3.22,
      "step": 417
    },
    {
      "epoch": 1.678714859437751,
      "grad_norm": 3.2323250770568848,
      "learning_rate": 8.835341365461848e-05,
      "loss": 2.8859,
      "step": 418
    },
    {
      "epoch": 1.6827309236947792,
      "grad_norm": 2.726513147354126,
      "learning_rate": 8.808567603748327e-05,
      "loss": 3.0969,
      "step": 419
    },
    {
      "epoch": 1.6867469879518073,
      "grad_norm": 2.7404675483703613,
      "learning_rate": 8.781793842034806e-05,
      "loss": 2.76,
      "step": 420
    },
    {
      "epoch": 1.6907630522088355,
      "grad_norm": 3.433872699737549,
      "learning_rate": 8.755020080321286e-05,
      "loss": 3.1852,
      "step": 421
    },
    {
      "epoch": 1.6947791164658634,
      "grad_norm": 3.4727306365966797,
      "learning_rate": 8.728246318607765e-05,
      "loss": 3.6413,
      "step": 422
    },
    {
      "epoch": 1.6987951807228916,
      "grad_norm": 2.968161106109619,
      "learning_rate": 8.701472556894244e-05,
      "loss": 3.15,
      "step": 423
    },
    {
      "epoch": 1.7028112449799195,
      "grad_norm": 2.8164682388305664,
      "learning_rate": 8.674698795180724e-05,
      "loss": 3.0286,
      "step": 424
    },
    {
      "epoch": 1.7068273092369477,
      "grad_norm": 2.7942745685577393,
      "learning_rate": 8.647925033467203e-05,
      "loss": 3.2501,
      "step": 425
    },
    {
      "epoch": 1.7108433734939759,
      "grad_norm": 3.2419016361236572,
      "learning_rate": 8.621151271753681e-05,
      "loss": 4.3181,
      "step": 426
    },
    {
      "epoch": 1.714859437751004,
      "grad_norm": 3.3823928833007812,
      "learning_rate": 8.594377510040161e-05,
      "loss": 3.2917,
      "step": 427
    },
    {
      "epoch": 1.7188755020080322,
      "grad_norm": 2.8482446670532227,
      "learning_rate": 8.567603748326641e-05,
      "loss": 3.0338,
      "step": 428
    },
    {
      "epoch": 1.7228915662650603,
      "grad_norm": 2.435845375061035,
      "learning_rate": 8.540829986613119e-05,
      "loss": 2.5519,
      "step": 429
    },
    {
      "epoch": 1.7269076305220885,
      "grad_norm": 2.9163546562194824,
      "learning_rate": 8.514056224899599e-05,
      "loss": 3.72,
      "step": 430
    },
    {
      "epoch": 1.7309236947791165,
      "grad_norm": 2.3660037517547607,
      "learning_rate": 8.487282463186079e-05,
      "loss": 2.3941,
      "step": 431
    },
    {
      "epoch": 1.7349397590361446,
      "grad_norm": 2.527449131011963,
      "learning_rate": 8.460508701472556e-05,
      "loss": 2.9851,
      "step": 432
    },
    {
      "epoch": 1.7389558232931726,
      "grad_norm": 2.2324576377868652,
      "learning_rate": 8.433734939759037e-05,
      "loss": 2.6241,
      "step": 433
    },
    {
      "epoch": 1.7429718875502007,
      "grad_norm": 2.7165253162384033,
      "learning_rate": 8.406961178045516e-05,
      "loss": 2.7749,
      "step": 434
    },
    {
      "epoch": 1.7469879518072289,
      "grad_norm": 2.7401411533355713,
      "learning_rate": 8.380187416331994e-05,
      "loss": 2.9022,
      "step": 435
    },
    {
      "epoch": 1.751004016064257,
      "grad_norm": 2.518826961517334,
      "learning_rate": 8.353413654618474e-05,
      "loss": 2.7587,
      "step": 436
    },
    {
      "epoch": 1.7550200803212852,
      "grad_norm": 2.493936061859131,
      "learning_rate": 8.326639892904954e-05,
      "loss": 3.1417,
      "step": 437
    },
    {
      "epoch": 1.7590361445783134,
      "grad_norm": 2.747951030731201,
      "learning_rate": 8.299866131191432e-05,
      "loss": 2.6913,
      "step": 438
    },
    {
      "epoch": 1.7630522088353415,
      "grad_norm": 2.8907039165496826,
      "learning_rate": 8.273092369477911e-05,
      "loss": 2.4416,
      "step": 439
    },
    {
      "epoch": 1.7670682730923695,
      "grad_norm": 3.6564669609069824,
      "learning_rate": 8.246318607764392e-05,
      "loss": 3.9361,
      "step": 440
    },
    {
      "epoch": 1.7710843373493976,
      "grad_norm": 2.4362285137176514,
      "learning_rate": 8.21954484605087e-05,
      "loss": 2.461,
      "step": 441
    },
    {
      "epoch": 1.7751004016064256,
      "grad_norm": 3.2182202339172363,
      "learning_rate": 8.192771084337349e-05,
      "loss": 3.2511,
      "step": 442
    },
    {
      "epoch": 1.7791164658634537,
      "grad_norm": 3.2106211185455322,
      "learning_rate": 8.16599732262383e-05,
      "loss": 4.4307,
      "step": 443
    },
    {
      "epoch": 1.783132530120482,
      "grad_norm": 3.4369003772735596,
      "learning_rate": 8.139223560910308e-05,
      "loss": 4.08,
      "step": 444
    },
    {
      "epoch": 1.78714859437751,
      "grad_norm": 2.2681970596313477,
      "learning_rate": 8.112449799196787e-05,
      "loss": 2.3631,
      "step": 445
    },
    {
      "epoch": 1.7911646586345382,
      "grad_norm": 2.691133975982666,
      "learning_rate": 8.085676037483266e-05,
      "loss": 2.6157,
      "step": 446
    },
    {
      "epoch": 1.7951807228915664,
      "grad_norm": 2.9200479984283447,
      "learning_rate": 8.058902275769746e-05,
      "loss": 2.6649,
      "step": 447
    },
    {
      "epoch": 1.7991967871485943,
      "grad_norm": 2.787264108657837,
      "learning_rate": 8.032128514056225e-05,
      "loss": 2.763,
      "step": 448
    },
    {
      "epoch": 1.8032128514056225,
      "grad_norm": 2.940075635910034,
      "learning_rate": 8.005354752342704e-05,
      "loss": 2.9436,
      "step": 449
    },
    {
      "epoch": 1.8072289156626506,
      "grad_norm": 3.1111507415771484,
      "learning_rate": 7.978580990629184e-05,
      "loss": 3.1194,
      "step": 450
    },
    {
      "epoch": 1.8112449799196786,
      "grad_norm": 2.695709228515625,
      "learning_rate": 7.951807228915663e-05,
      "loss": 2.7517,
      "step": 451
    },
    {
      "epoch": 1.8152610441767068,
      "grad_norm": 2.939112663269043,
      "learning_rate": 7.925033467202142e-05,
      "loss": 3.7794,
      "step": 452
    },
    {
      "epoch": 1.819277108433735,
      "grad_norm": 2.583163022994995,
      "learning_rate": 7.898259705488621e-05,
      "loss": 3.0265,
      "step": 453
    },
    {
      "epoch": 1.823293172690763,
      "grad_norm": 2.496131181716919,
      "learning_rate": 7.8714859437751e-05,
      "loss": 2.5762,
      "step": 454
    },
    {
      "epoch": 1.8273092369477912,
      "grad_norm": 2.4272570610046387,
      "learning_rate": 7.84471218206158e-05,
      "loss": 2.758,
      "step": 455
    },
    {
      "epoch": 1.8313253012048194,
      "grad_norm": 2.4154021739959717,
      "learning_rate": 7.817938420348059e-05,
      "loss": 2.7325,
      "step": 456
    },
    {
      "epoch": 1.8353413654618473,
      "grad_norm": 2.5219106674194336,
      "learning_rate": 7.791164658634539e-05,
      "loss": 2.779,
      "step": 457
    },
    {
      "epoch": 1.8393574297188755,
      "grad_norm": 2.3390161991119385,
      "learning_rate": 7.764390896921018e-05,
      "loss": 2.2922,
      "step": 458
    },
    {
      "epoch": 1.8433734939759037,
      "grad_norm": 2.7101354598999023,
      "learning_rate": 7.737617135207497e-05,
      "loss": 2.9825,
      "step": 459
    },
    {
      "epoch": 1.8473895582329316,
      "grad_norm": 2.8510243892669678,
      "learning_rate": 7.710843373493976e-05,
      "loss": 2.8628,
      "step": 460
    },
    {
      "epoch": 1.8514056224899598,
      "grad_norm": 2.6924989223480225,
      "learning_rate": 7.684069611780456e-05,
      "loss": 2.6543,
      "step": 461
    },
    {
      "epoch": 1.855421686746988,
      "grad_norm": 2.6552584171295166,
      "learning_rate": 7.657295850066935e-05,
      "loss": 3.0625,
      "step": 462
    },
    {
      "epoch": 1.859437751004016,
      "grad_norm": 3.2962827682495117,
      "learning_rate": 7.630522088353414e-05,
      "loss": 3.308,
      "step": 463
    },
    {
      "epoch": 1.8634538152610443,
      "grad_norm": 3.0845699310302734,
      "learning_rate": 7.603748326639893e-05,
      "loss": 3.5178,
      "step": 464
    },
    {
      "epoch": 1.8674698795180724,
      "grad_norm": 2.768254518508911,
      "learning_rate": 7.576974564926373e-05,
      "loss": 3.6667,
      "step": 465
    },
    {
      "epoch": 1.8714859437751004,
      "grad_norm": 2.5801167488098145,
      "learning_rate": 7.550200803212851e-05,
      "loss": 2.7686,
      "step": 466
    },
    {
      "epoch": 1.8755020080321285,
      "grad_norm": 2.2853081226348877,
      "learning_rate": 7.523427041499331e-05,
      "loss": 2.2115,
      "step": 467
    },
    {
      "epoch": 1.8795180722891565,
      "grad_norm": 2.9309747219085693,
      "learning_rate": 7.49665327978581e-05,
      "loss": 2.9426,
      "step": 468
    },
    {
      "epoch": 1.8835341365461846,
      "grad_norm": 3.146700143814087,
      "learning_rate": 7.469879518072289e-05,
      "loss": 3.3903,
      "step": 469
    },
    {
      "epoch": 1.8875502008032128,
      "grad_norm": 3.3652424812316895,
      "learning_rate": 7.443105756358769e-05,
      "loss": 3.0085,
      "step": 470
    },
    {
      "epoch": 1.891566265060241,
      "grad_norm": 2.424377918243408,
      "learning_rate": 7.416331994645248e-05,
      "loss": 2.5145,
      "step": 471
    },
    {
      "epoch": 1.895582329317269,
      "grad_norm": 2.5642752647399902,
      "learning_rate": 7.389558232931726e-05,
      "loss": 3.1927,
      "step": 472
    },
    {
      "epoch": 1.8995983935742973,
      "grad_norm": 2.7574706077575684,
      "learning_rate": 7.362784471218207e-05,
      "loss": 2.6753,
      "step": 473
    },
    {
      "epoch": 1.9036144578313254,
      "grad_norm": 2.6844048500061035,
      "learning_rate": 7.336010709504686e-05,
      "loss": 2.7126,
      "step": 474
    },
    {
      "epoch": 1.9076305220883534,
      "grad_norm": 2.3251895904541016,
      "learning_rate": 7.309236947791164e-05,
      "loss": 2.5947,
      "step": 475
    },
    {
      "epoch": 1.9116465863453815,
      "grad_norm": 2.1562206745147705,
      "learning_rate": 7.282463186077644e-05,
      "loss": 2.2137,
      "step": 476
    },
    {
      "epoch": 1.9156626506024095,
      "grad_norm": 2.400747776031494,
      "learning_rate": 7.255689424364124e-05,
      "loss": 2.8869,
      "step": 477
    },
    {
      "epoch": 1.9196787148594376,
      "grad_norm": 3.1380369663238525,
      "learning_rate": 7.228915662650602e-05,
      "loss": 3.4202,
      "step": 478
    },
    {
      "epoch": 1.9236947791164658,
      "grad_norm": 2.9858291149139404,
      "learning_rate": 7.202141900937081e-05,
      "loss": 3.1519,
      "step": 479
    },
    {
      "epoch": 1.927710843373494,
      "grad_norm": 2.6354973316192627,
      "learning_rate": 7.175368139223562e-05,
      "loss": 2.8662,
      "step": 480
    },
    {
      "epoch": 1.9317269076305221,
      "grad_norm": 2.7349445819854736,
      "learning_rate": 7.14859437751004e-05,
      "loss": 4.2679,
      "step": 481
    },
    {
      "epoch": 1.9357429718875503,
      "grad_norm": 3.0139505863189697,
      "learning_rate": 7.121820615796519e-05,
      "loss": 2.9382,
      "step": 482
    },
    {
      "epoch": 1.9397590361445785,
      "grad_norm": 3.1879093647003174,
      "learning_rate": 7.095046854083e-05,
      "loss": 3.168,
      "step": 483
    },
    {
      "epoch": 1.9437751004016064,
      "grad_norm": 3.2778398990631104,
      "learning_rate": 7.068273092369478e-05,
      "loss": 3.4373,
      "step": 484
    },
    {
      "epoch": 1.9477911646586346,
      "grad_norm": 3.024111747741699,
      "learning_rate": 7.041499330655957e-05,
      "loss": 3.7807,
      "step": 485
    },
    {
      "epoch": 1.9518072289156625,
      "grad_norm": 2.750593423843384,
      "learning_rate": 7.014725568942436e-05,
      "loss": 3.4546,
      "step": 486
    },
    {
      "epoch": 1.9558232931726907,
      "grad_norm": 2.9757187366485596,
      "learning_rate": 6.987951807228917e-05,
      "loss": 3.0145,
      "step": 487
    },
    {
      "epoch": 1.9598393574297188,
      "grad_norm": 2.867292881011963,
      "learning_rate": 6.961178045515395e-05,
      "loss": 2.5524,
      "step": 488
    },
    {
      "epoch": 1.963855421686747,
      "grad_norm": 2.563595771789551,
      "learning_rate": 6.934404283801874e-05,
      "loss": 2.7503,
      "step": 489
    },
    {
      "epoch": 1.9678714859437751,
      "grad_norm": 2.52006459236145,
      "learning_rate": 6.907630522088355e-05,
      "loss": 3.0431,
      "step": 490
    },
    {
      "epoch": 1.9718875502008033,
      "grad_norm": 3.0700199604034424,
      "learning_rate": 6.880856760374833e-05,
      "loss": 3.7242,
      "step": 491
    },
    {
      "epoch": 1.9759036144578315,
      "grad_norm": 2.7504234313964844,
      "learning_rate": 6.854082998661312e-05,
      "loss": 2.6293,
      "step": 492
    },
    {
      "epoch": 1.9799196787148594,
      "grad_norm": 2.919828414916992,
      "learning_rate": 6.827309236947793e-05,
      "loss": 2.6278,
      "step": 493
    },
    {
      "epoch": 1.9839357429718876,
      "grad_norm": 2.453157663345337,
      "learning_rate": 6.80053547523427e-05,
      "loss": 2.2764,
      "step": 494
    },
    {
      "epoch": 1.9879518072289155,
      "grad_norm": 2.635430335998535,
      "learning_rate": 6.77376171352075e-05,
      "loss": 2.9467,
      "step": 495
    },
    {
      "epoch": 1.9919678714859437,
      "grad_norm": 2.7158102989196777,
      "learning_rate": 6.746987951807229e-05,
      "loss": 2.7886,
      "step": 496
    },
    {
      "epoch": 1.9959839357429718,
      "grad_norm": 2.3272292613983154,
      "learning_rate": 6.720214190093708e-05,
      "loss": 2.6445,
      "step": 497
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.2954020500183105,
      "learning_rate": 6.693440428380188e-05,
      "loss": 2.5719,
      "step": 498
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.8565791249275208,
      "eval_runtime": 200.8505,
      "eval_samples_per_second": 2.484,
      "eval_steps_per_second": 1.245,
      "step": 498
    },
    {
      "epoch": 2.004016064257028,
      "grad_norm": 2.3647961616516113,
      "learning_rate": 6.666666666666667e-05,
      "loss": 2.5357,
      "step": 499
    },
    {
      "epoch": 2.0080321285140563,
      "grad_norm": 2.052393674850464,
      "learning_rate": 6.639892904953146e-05,
      "loss": 2.1653,
      "step": 500
    },
    {
      "epoch": 2.0120481927710845,
      "grad_norm": 2.6393344402313232,
      "learning_rate": 6.613119143239626e-05,
      "loss": 2.2634,
      "step": 501
    },
    {
      "epoch": 2.0160642570281126,
      "grad_norm": 2.4461183547973633,
      "learning_rate": 6.586345381526105e-05,
      "loss": 2.7017,
      "step": 502
    },
    {
      "epoch": 2.0200803212851404,
      "grad_norm": 3.1604115962982178,
      "learning_rate": 6.559571619812584e-05,
      "loss": 3.6735,
      "step": 503
    },
    {
      "epoch": 2.0240963855421685,
      "grad_norm": 3.0627472400665283,
      "learning_rate": 6.532797858099063e-05,
      "loss": 2.9889,
      "step": 504
    },
    {
      "epoch": 2.0281124497991967,
      "grad_norm": 2.568150520324707,
      "learning_rate": 6.506024096385543e-05,
      "loss": 2.492,
      "step": 505
    },
    {
      "epoch": 2.032128514056225,
      "grad_norm": 2.2594618797302246,
      "learning_rate": 6.47925033467202e-05,
      "loss": 1.8152,
      "step": 506
    },
    {
      "epoch": 2.036144578313253,
      "grad_norm": 2.544188976287842,
      "learning_rate": 6.452476572958501e-05,
      "loss": 3.7016,
      "step": 507
    },
    {
      "epoch": 2.040160642570281,
      "grad_norm": 2.418565511703491,
      "learning_rate": 6.42570281124498e-05,
      "loss": 2.3062,
      "step": 508
    },
    {
      "epoch": 2.0441767068273093,
      "grad_norm": 2.3617923259735107,
      "learning_rate": 6.398929049531458e-05,
      "loss": 2.2887,
      "step": 509
    },
    {
      "epoch": 2.0481927710843375,
      "grad_norm": 2.4115524291992188,
      "learning_rate": 6.372155287817939e-05,
      "loss": 2.4596,
      "step": 510
    },
    {
      "epoch": 2.0522088353413657,
      "grad_norm": 2.763218402862549,
      "learning_rate": 6.345381526104418e-05,
      "loss": 2.7423,
      "step": 511
    },
    {
      "epoch": 2.0562248995983934,
      "grad_norm": 2.515378713607788,
      "learning_rate": 6.318607764390896e-05,
      "loss": 2.4356,
      "step": 512
    },
    {
      "epoch": 2.0602409638554215,
      "grad_norm": 2.809786796569824,
      "learning_rate": 6.291834002677377e-05,
      "loss": 3.3361,
      "step": 513
    },
    {
      "epoch": 2.0642570281124497,
      "grad_norm": 2.3717005252838135,
      "learning_rate": 6.265060240963856e-05,
      "loss": 3.0205,
      "step": 514
    },
    {
      "epoch": 2.068273092369478,
      "grad_norm": 2.7689290046691895,
      "learning_rate": 6.238286479250335e-05,
      "loss": 2.9104,
      "step": 515
    },
    {
      "epoch": 2.072289156626506,
      "grad_norm": 2.573058843612671,
      "learning_rate": 6.211512717536813e-05,
      "loss": 2.2966,
      "step": 516
    },
    {
      "epoch": 2.076305220883534,
      "grad_norm": 2.5662682056427,
      "learning_rate": 6.184738955823294e-05,
      "loss": 2.4407,
      "step": 517
    },
    {
      "epoch": 2.0803212851405624,
      "grad_norm": 2.475853681564331,
      "learning_rate": 6.157965194109773e-05,
      "loss": 2.2512,
      "step": 518
    },
    {
      "epoch": 2.0843373493975905,
      "grad_norm": 2.426939010620117,
      "learning_rate": 6.131191432396251e-05,
      "loss": 2.2575,
      "step": 519
    },
    {
      "epoch": 2.0883534136546187,
      "grad_norm": 2.709951877593994,
      "learning_rate": 6.104417670682732e-05,
      "loss": 2.2289,
      "step": 520
    },
    {
      "epoch": 2.0923694779116464,
      "grad_norm": 2.620199680328369,
      "learning_rate": 6.0776439089692105e-05,
      "loss": 2.6856,
      "step": 521
    },
    {
      "epoch": 2.0963855421686746,
      "grad_norm": 2.236469030380249,
      "learning_rate": 6.05087014725569e-05,
      "loss": 2.1652,
      "step": 522
    },
    {
      "epoch": 2.1004016064257027,
      "grad_norm": 2.4781830310821533,
      "learning_rate": 6.02409638554217e-05,
      "loss": 2.0519,
      "step": 523
    },
    {
      "epoch": 2.104417670682731,
      "grad_norm": 2.9179675579071045,
      "learning_rate": 5.9973226238286484e-05,
      "loss": 2.3534,
      "step": 524
    },
    {
      "epoch": 2.108433734939759,
      "grad_norm": 2.7088980674743652,
      "learning_rate": 5.9705488621151276e-05,
      "loss": 2.3717,
      "step": 525
    },
    {
      "epoch": 2.112449799196787,
      "grad_norm": 2.784228801727295,
      "learning_rate": 5.943775100401606e-05,
      "loss": 2.7936,
      "step": 526
    },
    {
      "epoch": 2.1164658634538154,
      "grad_norm": 3.1045587062835693,
      "learning_rate": 5.917001338688086e-05,
      "loss": 2.1785,
      "step": 527
    },
    {
      "epoch": 2.1204819277108435,
      "grad_norm": 2.7609670162200928,
      "learning_rate": 5.8902275769745655e-05,
      "loss": 2.4232,
      "step": 528
    },
    {
      "epoch": 2.1244979919678713,
      "grad_norm": 2.9791460037231445,
      "learning_rate": 5.863453815261044e-05,
      "loss": 2.6127,
      "step": 529
    },
    {
      "epoch": 2.1285140562248994,
      "grad_norm": 2.917396306991577,
      "learning_rate": 5.836680053547524e-05,
      "loss": 2.5008,
      "step": 530
    },
    {
      "epoch": 2.1325301204819276,
      "grad_norm": 3.066033124923706,
      "learning_rate": 5.809906291834003e-05,
      "loss": 2.8997,
      "step": 531
    },
    {
      "epoch": 2.1365461847389557,
      "grad_norm": 2.570894241333008,
      "learning_rate": 5.783132530120482e-05,
      "loss": 2.2987,
      "step": 532
    },
    {
      "epoch": 2.140562248995984,
      "grad_norm": 2.4431967735290527,
      "learning_rate": 5.756358768406962e-05,
      "loss": 2.1485,
      "step": 533
    },
    {
      "epoch": 2.144578313253012,
      "grad_norm": 2.789560079574585,
      "learning_rate": 5.729585006693441e-05,
      "loss": 2.3678,
      "step": 534
    },
    {
      "epoch": 2.1485943775100402,
      "grad_norm": 2.691913366317749,
      "learning_rate": 5.70281124497992e-05,
      "loss": 2.3469,
      "step": 535
    },
    {
      "epoch": 2.1526104417670684,
      "grad_norm": 2.472721815109253,
      "learning_rate": 5.676037483266399e-05,
      "loss": 2.0741,
      "step": 536
    },
    {
      "epoch": 2.1566265060240966,
      "grad_norm": 2.705008029937744,
      "learning_rate": 5.649263721552879e-05,
      "loss": 2.3399,
      "step": 537
    },
    {
      "epoch": 2.1606425702811247,
      "grad_norm": 2.8036177158355713,
      "learning_rate": 5.6224899598393576e-05,
      "loss": 2.4336,
      "step": 538
    },
    {
      "epoch": 2.1646586345381524,
      "grad_norm": 2.8112568855285645,
      "learning_rate": 5.595716198125837e-05,
      "loss": 2.4039,
      "step": 539
    },
    {
      "epoch": 2.1686746987951806,
      "grad_norm": 2.932802438735962,
      "learning_rate": 5.568942436412317e-05,
      "loss": 2.4175,
      "step": 540
    },
    {
      "epoch": 2.1726907630522088,
      "grad_norm": 3.0952837467193604,
      "learning_rate": 5.5421686746987955e-05,
      "loss": 2.4552,
      "step": 541
    },
    {
      "epoch": 2.176706827309237,
      "grad_norm": 2.6719419956207275,
      "learning_rate": 5.515394912985275e-05,
      "loss": 2.0765,
      "step": 542
    },
    {
      "epoch": 2.180722891566265,
      "grad_norm": 3.0576534271240234,
      "learning_rate": 5.488621151271755e-05,
      "loss": 2.417,
      "step": 543
    },
    {
      "epoch": 2.1847389558232932,
      "grad_norm": 3.0612807273864746,
      "learning_rate": 5.461847389558233e-05,
      "loss": 2.9868,
      "step": 544
    },
    {
      "epoch": 2.1887550200803214,
      "grad_norm": 3.5036559104919434,
      "learning_rate": 5.4350736278447126e-05,
      "loss": 2.7975,
      "step": 545
    },
    {
      "epoch": 2.1927710843373496,
      "grad_norm": 3.5645198822021484,
      "learning_rate": 5.408299866131191e-05,
      "loss": 2.8446,
      "step": 546
    },
    {
      "epoch": 2.1967871485943773,
      "grad_norm": 2.72088360786438,
      "learning_rate": 5.381526104417671e-05,
      "loss": 2.3907,
      "step": 547
    },
    {
      "epoch": 2.2008032128514055,
      "grad_norm": 3.901146411895752,
      "learning_rate": 5.3547523427041504e-05,
      "loss": 3.4091,
      "step": 548
    },
    {
      "epoch": 2.2048192771084336,
      "grad_norm": 2.9762930870056152,
      "learning_rate": 5.327978580990629e-05,
      "loss": 2.2808,
      "step": 549
    },
    {
      "epoch": 2.208835341365462,
      "grad_norm": 3.1252336502075195,
      "learning_rate": 5.301204819277109e-05,
      "loss": 2.3206,
      "step": 550
    },
    {
      "epoch": 2.21285140562249,
      "grad_norm": 3.61395525932312,
      "learning_rate": 5.274431057563588e-05,
      "loss": 2.9899,
      "step": 551
    },
    {
      "epoch": 2.216867469879518,
      "grad_norm": 3.035787582397461,
      "learning_rate": 5.247657295850067e-05,
      "loss": 2.2514,
      "step": 552
    },
    {
      "epoch": 2.2208835341365463,
      "grad_norm": 3.0700008869171143,
      "learning_rate": 5.220883534136547e-05,
      "loss": 2.7965,
      "step": 553
    },
    {
      "epoch": 2.2248995983935744,
      "grad_norm": 3.380383253097534,
      "learning_rate": 5.194109772423026e-05,
      "loss": 2.7258,
      "step": 554
    },
    {
      "epoch": 2.2289156626506026,
      "grad_norm": 3.3445475101470947,
      "learning_rate": 5.167336010709505e-05,
      "loss": 3.0532,
      "step": 555
    },
    {
      "epoch": 2.2329317269076308,
      "grad_norm": 3.305169105529785,
      "learning_rate": 5.140562248995984e-05,
      "loss": 2.7851,
      "step": 556
    },
    {
      "epoch": 2.2369477911646585,
      "grad_norm": 3.3952481746673584,
      "learning_rate": 5.113788487282464e-05,
      "loss": 2.6845,
      "step": 557
    },
    {
      "epoch": 2.2409638554216866,
      "grad_norm": 2.7673559188842773,
      "learning_rate": 5.0870147255689426e-05,
      "loss": 2.6067,
      "step": 558
    },
    {
      "epoch": 2.244979919678715,
      "grad_norm": 3.3448803424835205,
      "learning_rate": 5.060240963855422e-05,
      "loss": 2.4804,
      "step": 559
    },
    {
      "epoch": 2.248995983935743,
      "grad_norm": 2.797827959060669,
      "learning_rate": 5.033467202141902e-05,
      "loss": 2.1237,
      "step": 560
    },
    {
      "epoch": 2.253012048192771,
      "grad_norm": 2.9383599758148193,
      "learning_rate": 5.0066934404283804e-05,
      "loss": 2.3107,
      "step": 561
    },
    {
      "epoch": 2.2570281124497993,
      "grad_norm": 3.0028162002563477,
      "learning_rate": 4.97991967871486e-05,
      "loss": 3.2211,
      "step": 562
    },
    {
      "epoch": 2.2610441767068274,
      "grad_norm": 2.928341865539551,
      "learning_rate": 4.953145917001339e-05,
      "loss": 2.5173,
      "step": 563
    },
    {
      "epoch": 2.2650602409638556,
      "grad_norm": 2.9720232486724854,
      "learning_rate": 4.926372155287818e-05,
      "loss": 2.3146,
      "step": 564
    },
    {
      "epoch": 2.2690763052208833,
      "grad_norm": 3.558094024658203,
      "learning_rate": 4.8995983935742975e-05,
      "loss": 3.1953,
      "step": 565
    },
    {
      "epoch": 2.2730923694779115,
      "grad_norm": 3.0352494716644287,
      "learning_rate": 4.872824631860777e-05,
      "loss": 2.4965,
      "step": 566
    },
    {
      "epoch": 2.2771084337349397,
      "grad_norm": 2.7428176403045654,
      "learning_rate": 4.8460508701472554e-05,
      "loss": 2.1514,
      "step": 567
    },
    {
      "epoch": 2.281124497991968,
      "grad_norm": 2.3594534397125244,
      "learning_rate": 4.8192771084337354e-05,
      "loss": 1.8075,
      "step": 568
    },
    {
      "epoch": 2.285140562248996,
      "grad_norm": 3.3449742794036865,
      "learning_rate": 4.792503346720215e-05,
      "loss": 2.5945,
      "step": 569
    },
    {
      "epoch": 2.289156626506024,
      "grad_norm": 3.104633331298828,
      "learning_rate": 4.765729585006693e-05,
      "loss": 2.9666,
      "step": 570
    },
    {
      "epoch": 2.2931726907630523,
      "grad_norm": 3.094238758087158,
      "learning_rate": 4.738955823293173e-05,
      "loss": 2.489,
      "step": 571
    },
    {
      "epoch": 2.2971887550200805,
      "grad_norm": 3.381775379180908,
      "learning_rate": 4.712182061579652e-05,
      "loss": 2.9042,
      "step": 572
    },
    {
      "epoch": 2.3012048192771086,
      "grad_norm": 3.2117156982421875,
      "learning_rate": 4.685408299866131e-05,
      "loss": 2.6925,
      "step": 573
    },
    {
      "epoch": 2.305220883534137,
      "grad_norm": 2.8267903327941895,
      "learning_rate": 4.658634538152611e-05,
      "loss": 2.3816,
      "step": 574
    },
    {
      "epoch": 2.3092369477911645,
      "grad_norm": 3.068437099456787,
      "learning_rate": 4.63186077643909e-05,
      "loss": 2.3124,
      "step": 575
    },
    {
      "epoch": 2.3132530120481927,
      "grad_norm": 2.832303762435913,
      "learning_rate": 4.605087014725569e-05,
      "loss": 2.5169,
      "step": 576
    },
    {
      "epoch": 2.317269076305221,
      "grad_norm": 2.8893704414367676,
      "learning_rate": 4.578313253012048e-05,
      "loss": 2.3119,
      "step": 577
    },
    {
      "epoch": 2.321285140562249,
      "grad_norm": 2.952976703643799,
      "learning_rate": 4.5515394912985275e-05,
      "loss": 2.3063,
      "step": 578
    },
    {
      "epoch": 2.325301204819277,
      "grad_norm": 2.7303566932678223,
      "learning_rate": 4.524765729585007e-05,
      "loss": 2.5834,
      "step": 579
    },
    {
      "epoch": 2.3293172690763053,
      "grad_norm": 2.9680216312408447,
      "learning_rate": 4.497991967871486e-05,
      "loss": 2.249,
      "step": 580
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 2.997044324874878,
      "learning_rate": 4.4712182061579654e-05,
      "loss": 2.5954,
      "step": 581
    },
    {
      "epoch": 2.337349397590361,
      "grad_norm": 3.4494729042053223,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 3.1359,
      "step": 582
    },
    {
      "epoch": 2.3413654618473894,
      "grad_norm": 3.1353585720062256,
      "learning_rate": 4.417670682730924e-05,
      "loss": 2.4317,
      "step": 583
    },
    {
      "epoch": 2.3453815261044175,
      "grad_norm": 2.9816396236419678,
      "learning_rate": 4.390896921017403e-05,
      "loss": 2.8438,
      "step": 584
    },
    {
      "epoch": 2.3493975903614457,
      "grad_norm": 2.6249794960021973,
      "learning_rate": 4.3641231593038825e-05,
      "loss": 2.0497,
      "step": 585
    },
    {
      "epoch": 2.353413654618474,
      "grad_norm": 2.8994345664978027,
      "learning_rate": 4.337349397590362e-05,
      "loss": 2.149,
      "step": 586
    },
    {
      "epoch": 2.357429718875502,
      "grad_norm": 3.8927950859069824,
      "learning_rate": 4.3105756358768404e-05,
      "loss": 3.0218,
      "step": 587
    },
    {
      "epoch": 2.36144578313253,
      "grad_norm": 3.120274543762207,
      "learning_rate": 4.2838018741633203e-05,
      "loss": 2.1973,
      "step": 588
    },
    {
      "epoch": 2.3654618473895583,
      "grad_norm": 3.104851007461548,
      "learning_rate": 4.2570281124497996e-05,
      "loss": 2.3442,
      "step": 589
    },
    {
      "epoch": 2.3694779116465865,
      "grad_norm": 2.97161602973938,
      "learning_rate": 4.230254350736278e-05,
      "loss": 2.5706,
      "step": 590
    },
    {
      "epoch": 2.3734939759036147,
      "grad_norm": 2.6856470108032227,
      "learning_rate": 4.203480589022758e-05,
      "loss": 2.0781,
      "step": 591
    },
    {
      "epoch": 2.3775100401606424,
      "grad_norm": 2.9654481410980225,
      "learning_rate": 4.176706827309237e-05,
      "loss": 2.2495,
      "step": 592
    },
    {
      "epoch": 2.3815261044176705,
      "grad_norm": 2.861020088195801,
      "learning_rate": 4.149933065595716e-05,
      "loss": 1.9942,
      "step": 593
    },
    {
      "epoch": 2.3855421686746987,
      "grad_norm": 3.413158893585205,
      "learning_rate": 4.123159303882196e-05,
      "loss": 2.6585,
      "step": 594
    },
    {
      "epoch": 2.389558232931727,
      "grad_norm": 3.1313233375549316,
      "learning_rate": 4.0963855421686746e-05,
      "loss": 2.9493,
      "step": 595
    },
    {
      "epoch": 2.393574297188755,
      "grad_norm": 3.325638771057129,
      "learning_rate": 4.069611780455154e-05,
      "loss": 2.7101,
      "step": 596
    },
    {
      "epoch": 2.397590361445783,
      "grad_norm": 2.991661787033081,
      "learning_rate": 4.042838018741633e-05,
      "loss": 2.5683,
      "step": 597
    },
    {
      "epoch": 2.4016064257028114,
      "grad_norm": 3.0619921684265137,
      "learning_rate": 4.0160642570281125e-05,
      "loss": 2.5722,
      "step": 598
    },
    {
      "epoch": 2.4056224899598395,
      "grad_norm": 2.730375289916992,
      "learning_rate": 3.989290495314592e-05,
      "loss": 2.2107,
      "step": 599
    },
    {
      "epoch": 2.4096385542168672,
      "grad_norm": 2.5859103202819824,
      "learning_rate": 3.962516733601071e-05,
      "loss": 2.0576,
      "step": 600
    },
    {
      "epoch": 2.4136546184738954,
      "grad_norm": 2.8956499099731445,
      "learning_rate": 3.93574297188755e-05,
      "loss": 2.1889,
      "step": 601
    },
    {
      "epoch": 2.4176706827309236,
      "grad_norm": 2.575547933578491,
      "learning_rate": 3.9089692101740296e-05,
      "loss": 1.9322,
      "step": 602
    },
    {
      "epoch": 2.4216867469879517,
      "grad_norm": 3.3304378986358643,
      "learning_rate": 3.882195448460509e-05,
      "loss": 2.4677,
      "step": 603
    },
    {
      "epoch": 2.42570281124498,
      "grad_norm": 3.5554420948028564,
      "learning_rate": 3.855421686746988e-05,
      "loss": 2.6703,
      "step": 604
    },
    {
      "epoch": 2.429718875502008,
      "grad_norm": 3.415844440460205,
      "learning_rate": 3.8286479250334675e-05,
      "loss": 2.9157,
      "step": 605
    },
    {
      "epoch": 2.433734939759036,
      "grad_norm": 3.127218008041382,
      "learning_rate": 3.801874163319947e-05,
      "loss": 2.416,
      "step": 606
    },
    {
      "epoch": 2.4377510040160644,
      "grad_norm": 3.796701192855835,
      "learning_rate": 3.7751004016064253e-05,
      "loss": 2.3505,
      "step": 607
    },
    {
      "epoch": 2.4417670682730925,
      "grad_norm": 3.6044912338256836,
      "learning_rate": 3.748326639892905e-05,
      "loss": 2.8561,
      "step": 608
    },
    {
      "epoch": 2.4457831325301207,
      "grad_norm": 3.2551517486572266,
      "learning_rate": 3.7215528781793846e-05,
      "loss": 2.5376,
      "step": 609
    },
    {
      "epoch": 2.4497991967871484,
      "grad_norm": 2.890302896499634,
      "learning_rate": 3.694779116465863e-05,
      "loss": 2.2256,
      "step": 610
    },
    {
      "epoch": 2.4538152610441766,
      "grad_norm": 3.478085517883301,
      "learning_rate": 3.668005354752343e-05,
      "loss": 2.6602,
      "step": 611
    },
    {
      "epoch": 2.4578313253012047,
      "grad_norm": 3.682518720626831,
      "learning_rate": 3.641231593038822e-05,
      "loss": 2.8083,
      "step": 612
    },
    {
      "epoch": 2.461847389558233,
      "grad_norm": 2.841364860534668,
      "learning_rate": 3.614457831325301e-05,
      "loss": 2.0827,
      "step": 613
    },
    {
      "epoch": 2.465863453815261,
      "grad_norm": 2.784315347671509,
      "learning_rate": 3.587684069611781e-05,
      "loss": 3.9997,
      "step": 614
    },
    {
      "epoch": 2.4698795180722892,
      "grad_norm": 3.153395652770996,
      "learning_rate": 3.5609103078982596e-05,
      "loss": 2.3443,
      "step": 615
    },
    {
      "epoch": 2.4738955823293174,
      "grad_norm": 3.2817304134368896,
      "learning_rate": 3.534136546184739e-05,
      "loss": 2.6729,
      "step": 616
    },
    {
      "epoch": 2.4779116465863456,
      "grad_norm": 2.8291358947753906,
      "learning_rate": 3.507362784471218e-05,
      "loss": 2.1918,
      "step": 617
    },
    {
      "epoch": 2.4819277108433733,
      "grad_norm": 3.548492670059204,
      "learning_rate": 3.4805890227576974e-05,
      "loss": 3.5277,
      "step": 618
    },
    {
      "epoch": 2.4859437751004014,
      "grad_norm": 9.622389793395996,
      "learning_rate": 3.4538152610441774e-05,
      "loss": 3.3926,
      "step": 619
    },
    {
      "epoch": 2.4899598393574296,
      "grad_norm": 3.489105224609375,
      "learning_rate": 3.427041499330656e-05,
      "loss": 2.5828,
      "step": 620
    },
    {
      "epoch": 2.4939759036144578,
      "grad_norm": 2.7694857120513916,
      "learning_rate": 3.400267737617135e-05,
      "loss": 1.9917,
      "step": 621
    },
    {
      "epoch": 2.497991967871486,
      "grad_norm": 3.2993392944335938,
      "learning_rate": 3.3734939759036146e-05,
      "loss": 2.8177,
      "step": 622
    },
    {
      "epoch": 2.502008032128514,
      "grad_norm": 2.863051176071167,
      "learning_rate": 3.346720214190094e-05,
      "loss": 2.0999,
      "step": 623
    },
    {
      "epoch": 2.5060240963855422,
      "grad_norm": 3.025731086730957,
      "learning_rate": 3.319946452476573e-05,
      "loss": 2.555,
      "step": 624
    },
    {
      "epoch": 2.5100401606425704,
      "grad_norm": 3.236588716506958,
      "learning_rate": 3.2931726907630524e-05,
      "loss": 2.3746,
      "step": 625
    },
    {
      "epoch": 2.5140562248995986,
      "grad_norm": 3.071715831756592,
      "learning_rate": 3.266398929049532e-05,
      "loss": 2.1943,
      "step": 626
    },
    {
      "epoch": 2.5180722891566267,
      "grad_norm": 3.353304147720337,
      "learning_rate": 3.23962516733601e-05,
      "loss": 3.2267,
      "step": 627
    },
    {
      "epoch": 2.522088353413655,
      "grad_norm": 2.9166722297668457,
      "learning_rate": 3.21285140562249e-05,
      "loss": 2.5768,
      "step": 628
    },
    {
      "epoch": 2.5261044176706826,
      "grad_norm": 2.571737051010132,
      "learning_rate": 3.1860776439089695e-05,
      "loss": 2.4097,
      "step": 629
    },
    {
      "epoch": 2.5301204819277108,
      "grad_norm": 3.2051124572753906,
      "learning_rate": 3.159303882195448e-05,
      "loss": 2.6875,
      "step": 630
    },
    {
      "epoch": 2.534136546184739,
      "grad_norm": 3.414586067199707,
      "learning_rate": 3.132530120481928e-05,
      "loss": 2.467,
      "step": 631
    },
    {
      "epoch": 2.538152610441767,
      "grad_norm": 3.201895236968994,
      "learning_rate": 3.105756358768407e-05,
      "loss": 2.6332,
      "step": 632
    },
    {
      "epoch": 2.5421686746987953,
      "grad_norm": 3.2875518798828125,
      "learning_rate": 3.078982597054887e-05,
      "loss": 3.0367,
      "step": 633
    },
    {
      "epoch": 2.5461847389558234,
      "grad_norm": 2.6989524364471436,
      "learning_rate": 3.052208835341366e-05,
      "loss": 2.1665,
      "step": 634
    },
    {
      "epoch": 2.550200803212851,
      "grad_norm": 2.7747488021850586,
      "learning_rate": 3.025435073627845e-05,
      "loss": 2.1499,
      "step": 635
    },
    {
      "epoch": 2.5542168674698793,
      "grad_norm": 3.4082605838775635,
      "learning_rate": 2.9986613119143242e-05,
      "loss": 2.6462,
      "step": 636
    },
    {
      "epoch": 2.5582329317269075,
      "grad_norm": 2.713757276535034,
      "learning_rate": 2.971887550200803e-05,
      "loss": 2.09,
      "step": 637
    },
    {
      "epoch": 2.5622489959839356,
      "grad_norm": 3.2788338661193848,
      "learning_rate": 2.9451137884872827e-05,
      "loss": 2.3322,
      "step": 638
    },
    {
      "epoch": 2.566265060240964,
      "grad_norm": 2.6642184257507324,
      "learning_rate": 2.918340026773762e-05,
      "loss": 2.1751,
      "step": 639
    },
    {
      "epoch": 2.570281124497992,
      "grad_norm": 3.069793224334717,
      "learning_rate": 2.891566265060241e-05,
      "loss": 2.2499,
      "step": 640
    },
    {
      "epoch": 2.57429718875502,
      "grad_norm": 3.132709503173828,
      "learning_rate": 2.8647925033467206e-05,
      "loss": 2.585,
      "step": 641
    },
    {
      "epoch": 2.5783132530120483,
      "grad_norm": 3.27109432220459,
      "learning_rate": 2.8380187416331995e-05,
      "loss": 2.4458,
      "step": 642
    },
    {
      "epoch": 2.5823293172690764,
      "grad_norm": 3.5450148582458496,
      "learning_rate": 2.8112449799196788e-05,
      "loss": 3.8692,
      "step": 643
    },
    {
      "epoch": 2.5863453815261046,
      "grad_norm": 3.2768943309783936,
      "learning_rate": 2.7844712182061584e-05,
      "loss": 2.4152,
      "step": 644
    },
    {
      "epoch": 2.5903614457831328,
      "grad_norm": 3.1916306018829346,
      "learning_rate": 2.7576974564926374e-05,
      "loss": 2.5376,
      "step": 645
    },
    {
      "epoch": 2.5943775100401605,
      "grad_norm": 2.7519237995147705,
      "learning_rate": 2.7309236947791167e-05,
      "loss": 2.1762,
      "step": 646
    },
    {
      "epoch": 2.5983935742971886,
      "grad_norm": 3.649415969848633,
      "learning_rate": 2.7041499330655956e-05,
      "loss": 3.0767,
      "step": 647
    },
    {
      "epoch": 2.602409638554217,
      "grad_norm": 3.1575088500976562,
      "learning_rate": 2.6773761713520752e-05,
      "loss": 2.5746,
      "step": 648
    },
    {
      "epoch": 2.606425702811245,
      "grad_norm": 3.1661970615386963,
      "learning_rate": 2.6506024096385545e-05,
      "loss": 2.8486,
      "step": 649
    },
    {
      "epoch": 2.610441767068273,
      "grad_norm": 3.374446392059326,
      "learning_rate": 2.6238286479250334e-05,
      "loss": 3.0536,
      "step": 650
    },
    {
      "epoch": 2.6144578313253013,
      "grad_norm": 3.2961578369140625,
      "learning_rate": 2.597054886211513e-05,
      "loss": 2.403,
      "step": 651
    },
    {
      "epoch": 2.6184738955823295,
      "grad_norm": 3.078670024871826,
      "learning_rate": 2.570281124497992e-05,
      "loss": 2.0923,
      "step": 652
    },
    {
      "epoch": 2.622489959839357,
      "grad_norm": 3.625155448913574,
      "learning_rate": 2.5435073627844713e-05,
      "loss": 3.3948,
      "step": 653
    },
    {
      "epoch": 2.6265060240963853,
      "grad_norm": 3.2434301376342773,
      "learning_rate": 2.516733601070951e-05,
      "loss": 3.0131,
      "step": 654
    },
    {
      "epoch": 2.6305220883534135,
      "grad_norm": 3.321974515914917,
      "learning_rate": 2.48995983935743e-05,
      "loss": 2.5972,
      "step": 655
    },
    {
      "epoch": 2.6345381526104417,
      "grad_norm": 2.6846182346343994,
      "learning_rate": 2.463186077643909e-05,
      "loss": 2.2812,
      "step": 656
    },
    {
      "epoch": 2.63855421686747,
      "grad_norm": 2.814183235168457,
      "learning_rate": 2.4364123159303884e-05,
      "loss": 2.1195,
      "step": 657
    },
    {
      "epoch": 2.642570281124498,
      "grad_norm": 2.640397310256958,
      "learning_rate": 2.4096385542168677e-05,
      "loss": 2.1728,
      "step": 658
    },
    {
      "epoch": 2.646586345381526,
      "grad_norm": 3.7056844234466553,
      "learning_rate": 2.3828647925033466e-05,
      "loss": 2.8224,
      "step": 659
    },
    {
      "epoch": 2.6506024096385543,
      "grad_norm": 2.740823268890381,
      "learning_rate": 2.356091030789826e-05,
      "loss": 2.3886,
      "step": 660
    },
    {
      "epoch": 2.6546184738955825,
      "grad_norm": 2.689279079437256,
      "learning_rate": 2.3293172690763055e-05,
      "loss": 2.3151,
      "step": 661
    },
    {
      "epoch": 2.6586345381526106,
      "grad_norm": 3.4579248428344727,
      "learning_rate": 2.3025435073627845e-05,
      "loss": 2.7812,
      "step": 662
    },
    {
      "epoch": 2.662650602409639,
      "grad_norm": 3.293381690979004,
      "learning_rate": 2.2757697456492638e-05,
      "loss": 2.9381,
      "step": 663
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 3.3860654830932617,
      "learning_rate": 2.248995983935743e-05,
      "loss": 2.4111,
      "step": 664
    },
    {
      "epoch": 2.6706827309236947,
      "grad_norm": 3.3504996299743652,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 2.4411,
      "step": 665
    },
    {
      "epoch": 2.674698795180723,
      "grad_norm": 3.2323498725891113,
      "learning_rate": 2.1954484605087016e-05,
      "loss": 2.6294,
      "step": 666
    },
    {
      "epoch": 2.678714859437751,
      "grad_norm": 2.935426950454712,
      "learning_rate": 2.168674698795181e-05,
      "loss": 2.5489,
      "step": 667
    },
    {
      "epoch": 2.682730923694779,
      "grad_norm": 3.483436346054077,
      "learning_rate": 2.1419009370816602e-05,
      "loss": 2.7512,
      "step": 668
    },
    {
      "epoch": 2.6867469879518073,
      "grad_norm": 3.4001944065093994,
      "learning_rate": 2.115127175368139e-05,
      "loss": 2.4015,
      "step": 669
    },
    {
      "epoch": 2.6907630522088355,
      "grad_norm": 3.6413683891296387,
      "learning_rate": 2.0883534136546184e-05,
      "loss": 3.5122,
      "step": 670
    },
    {
      "epoch": 2.694779116465863,
      "grad_norm": 2.5411088466644287,
      "learning_rate": 2.061579651941098e-05,
      "loss": 2.0925,
      "step": 671
    },
    {
      "epoch": 2.6987951807228914,
      "grad_norm": 3.1367125511169434,
      "learning_rate": 2.034805890227577e-05,
      "loss": 2.5457,
      "step": 672
    },
    {
      "epoch": 2.7028112449799195,
      "grad_norm": 3.300114393234253,
      "learning_rate": 2.0080321285140562e-05,
      "loss": 3.0402,
      "step": 673
    },
    {
      "epoch": 2.7068273092369477,
      "grad_norm": 2.744513750076294,
      "learning_rate": 1.9812583668005355e-05,
      "loss": 2.2273,
      "step": 674
    },
    {
      "epoch": 2.710843373493976,
      "grad_norm": 3.0049889087677,
      "learning_rate": 1.9544846050870148e-05,
      "loss": 2.4656,
      "step": 675
    },
    {
      "epoch": 2.714859437751004,
      "grad_norm": 2.9064860343933105,
      "learning_rate": 1.927710843373494e-05,
      "loss": 2.3855,
      "step": 676
    },
    {
      "epoch": 2.718875502008032,
      "grad_norm": 3.317073106765747,
      "learning_rate": 1.9009370816599734e-05,
      "loss": 2.7036,
      "step": 677
    },
    {
      "epoch": 2.7228915662650603,
      "grad_norm": 3.580209732055664,
      "learning_rate": 1.8741633199464527e-05,
      "loss": 2.4416,
      "step": 678
    },
    {
      "epoch": 2.7269076305220885,
      "grad_norm": 3.0195388793945312,
      "learning_rate": 1.8473895582329316e-05,
      "loss": 2.0284,
      "step": 679
    },
    {
      "epoch": 2.7309236947791167,
      "grad_norm": 3.5155584812164307,
      "learning_rate": 1.820615796519411e-05,
      "loss": 3.6898,
      "step": 680
    },
    {
      "epoch": 2.734939759036145,
      "grad_norm": 3.3643851280212402,
      "learning_rate": 1.7938420348058905e-05,
      "loss": 2.7534,
      "step": 681
    },
    {
      "epoch": 2.7389558232931726,
      "grad_norm": 3.949350595474243,
      "learning_rate": 1.7670682730923694e-05,
      "loss": 3.6933,
      "step": 682
    },
    {
      "epoch": 2.7429718875502007,
      "grad_norm": 2.7811617851257324,
      "learning_rate": 1.7402945113788487e-05,
      "loss": 2.0857,
      "step": 683
    },
    {
      "epoch": 2.746987951807229,
      "grad_norm": 3.3071796894073486,
      "learning_rate": 1.713520749665328e-05,
      "loss": 2.9454,
      "step": 684
    },
    {
      "epoch": 2.751004016064257,
      "grad_norm": 3.181541919708252,
      "learning_rate": 1.6867469879518073e-05,
      "loss": 2.4977,
      "step": 685
    },
    {
      "epoch": 2.755020080321285,
      "grad_norm": 2.8570432662963867,
      "learning_rate": 1.6599732262382866e-05,
      "loss": 2.2448,
      "step": 686
    },
    {
      "epoch": 2.7590361445783134,
      "grad_norm": 2.8519392013549805,
      "learning_rate": 1.633199464524766e-05,
      "loss": 2.0659,
      "step": 687
    },
    {
      "epoch": 2.7630522088353415,
      "grad_norm": 3.0057828426361084,
      "learning_rate": 1.606425702811245e-05,
      "loss": 2.711,
      "step": 688
    },
    {
      "epoch": 2.7670682730923692,
      "grad_norm": 3.7644693851470947,
      "learning_rate": 1.579651941097724e-05,
      "loss": 2.7368,
      "step": 689
    },
    {
      "epoch": 2.7710843373493974,
      "grad_norm": 3.339076519012451,
      "learning_rate": 1.5528781793842034e-05,
      "loss": 2.4372,
      "step": 690
    },
    {
      "epoch": 2.7751004016064256,
      "grad_norm": 3.3303468227386475,
      "learning_rate": 1.526104417670683e-05,
      "loss": 2.1496,
      "step": 691
    },
    {
      "epoch": 2.7791164658634537,
      "grad_norm": 3.007516384124756,
      "learning_rate": 1.4993306559571621e-05,
      "loss": 2.0637,
      "step": 692
    },
    {
      "epoch": 2.783132530120482,
      "grad_norm": 3.2054901123046875,
      "learning_rate": 1.4725568942436414e-05,
      "loss": 2.6325,
      "step": 693
    },
    {
      "epoch": 2.78714859437751,
      "grad_norm": 3.089660882949829,
      "learning_rate": 1.4457831325301205e-05,
      "loss": 2.6186,
      "step": 694
    },
    {
      "epoch": 2.791164658634538,
      "grad_norm": 3.6075477600097656,
      "learning_rate": 1.4190093708165998e-05,
      "loss": 3.04,
      "step": 695
    },
    {
      "epoch": 2.7951807228915664,
      "grad_norm": 2.9559810161590576,
      "learning_rate": 1.3922356091030792e-05,
      "loss": 2.1752,
      "step": 696
    },
    {
      "epoch": 2.7991967871485945,
      "grad_norm": 3.062072992324829,
      "learning_rate": 1.3654618473895583e-05,
      "loss": 2.0509,
      "step": 697
    },
    {
      "epoch": 2.8032128514056227,
      "grad_norm": 4.112563610076904,
      "learning_rate": 1.3386880856760376e-05,
      "loss": 2.937,
      "step": 698
    },
    {
      "epoch": 2.807228915662651,
      "grad_norm": 3.2194480895996094,
      "learning_rate": 1.3119143239625167e-05,
      "loss": 2.2974,
      "step": 699
    },
    {
      "epoch": 2.8112449799196786,
      "grad_norm": 3.2111270427703857,
      "learning_rate": 1.285140562248996e-05,
      "loss": 2.3903,
      "step": 700
    },
    {
      "epoch": 2.8152610441767068,
      "grad_norm": 3.1619982719421387,
      "learning_rate": 1.2583668005354755e-05,
      "loss": 2.154,
      "step": 701
    },
    {
      "epoch": 2.819277108433735,
      "grad_norm": 3.0533196926116943,
      "learning_rate": 1.2315930388219546e-05,
      "loss": 2.8862,
      "step": 702
    },
    {
      "epoch": 2.823293172690763,
      "grad_norm": 2.838397264480591,
      "learning_rate": 1.2048192771084338e-05,
      "loss": 2.1974,
      "step": 703
    },
    {
      "epoch": 2.8273092369477912,
      "grad_norm": 2.960359573364258,
      "learning_rate": 1.178045515394913e-05,
      "loss": 2.2714,
      "step": 704
    },
    {
      "epoch": 2.8313253012048194,
      "grad_norm": 3.3387844562530518,
      "learning_rate": 1.1512717536813922e-05,
      "loss": 2.5617,
      "step": 705
    },
    {
      "epoch": 2.835341365461847,
      "grad_norm": 3.802029609680176,
      "learning_rate": 1.1244979919678715e-05,
      "loss": 2.6791,
      "step": 706
    },
    {
      "epoch": 2.8393574297188753,
      "grad_norm": 3.0797119140625,
      "learning_rate": 1.0977242302543508e-05,
      "loss": 2.008,
      "step": 707
    },
    {
      "epoch": 2.8433734939759034,
      "grad_norm": 3.6929612159729004,
      "learning_rate": 1.0709504685408301e-05,
      "loss": 3.0253,
      "step": 708
    },
    {
      "epoch": 2.8473895582329316,
      "grad_norm": 3.409666061401367,
      "learning_rate": 1.0441767068273092e-05,
      "loss": 2.488,
      "step": 709
    },
    {
      "epoch": 2.8514056224899598,
      "grad_norm": 3.4419896602630615,
      "learning_rate": 1.0174029451137885e-05,
      "loss": 2.5107,
      "step": 710
    },
    {
      "epoch": 2.855421686746988,
      "grad_norm": 2.9970462322235107,
      "learning_rate": 9.906291834002678e-06,
      "loss": 2.4561,
      "step": 711
    },
    {
      "epoch": 2.859437751004016,
      "grad_norm": 2.9567370414733887,
      "learning_rate": 9.63855421686747e-06,
      "loss": 2.0972,
      "step": 712
    },
    {
      "epoch": 2.8634538152610443,
      "grad_norm": 3.134462356567383,
      "learning_rate": 9.370816599732263e-06,
      "loss": 2.4256,
      "step": 713
    },
    {
      "epoch": 2.8674698795180724,
      "grad_norm": 3.376096487045288,
      "learning_rate": 9.103078982597054e-06,
      "loss": 2.221,
      "step": 714
    },
    {
      "epoch": 2.8714859437751006,
      "grad_norm": 3.569254159927368,
      "learning_rate": 8.835341365461847e-06,
      "loss": 2.379,
      "step": 715
    },
    {
      "epoch": 2.8755020080321287,
      "grad_norm": 3.4028611183166504,
      "learning_rate": 8.56760374832664e-06,
      "loss": 2.3297,
      "step": 716
    },
    {
      "epoch": 2.8795180722891565,
      "grad_norm": 3.772540807723999,
      "learning_rate": 8.299866131191433e-06,
      "loss": 2.9839,
      "step": 717
    },
    {
      "epoch": 2.8835341365461846,
      "grad_norm": 3.2679340839385986,
      "learning_rate": 8.032128514056226e-06,
      "loss": 2.3875,
      "step": 718
    },
    {
      "epoch": 2.887550200803213,
      "grad_norm": 3.6074769496917725,
      "learning_rate": 7.764390896921017e-06,
      "loss": 2.9021,
      "step": 719
    },
    {
      "epoch": 2.891566265060241,
      "grad_norm": 3.7479116916656494,
      "learning_rate": 7.4966532797858104e-06,
      "loss": 2.5803,
      "step": 720
    },
    {
      "epoch": 2.895582329317269,
      "grad_norm": 3.051452875137329,
      "learning_rate": 7.228915662650602e-06,
      "loss": 2.9504,
      "step": 721
    },
    {
      "epoch": 2.8995983935742973,
      "grad_norm": 3.341724157333374,
      "learning_rate": 6.961178045515396e-06,
      "loss": 2.8643,
      "step": 722
    },
    {
      "epoch": 2.9036144578313254,
      "grad_norm": 2.8065922260284424,
      "learning_rate": 6.693440428380188e-06,
      "loss": 2.6456,
      "step": 723
    },
    {
      "epoch": 2.907630522088353,
      "grad_norm": 3.295828342437744,
      "learning_rate": 6.42570281124498e-06,
      "loss": 3.2691,
      "step": 724
    },
    {
      "epoch": 2.9116465863453813,
      "grad_norm": 3.15494966506958,
      "learning_rate": 6.157965194109773e-06,
      "loss": 2.3256,
      "step": 725
    },
    {
      "epoch": 2.9156626506024095,
      "grad_norm": 3.146188259124756,
      "learning_rate": 5.890227576974565e-06,
      "loss": 2.5247,
      "step": 726
    },
    {
      "epoch": 2.9196787148594376,
      "grad_norm": 3.042181968688965,
      "learning_rate": 5.622489959839358e-06,
      "loss": 2.3458,
      "step": 727
    },
    {
      "epoch": 2.923694779116466,
      "grad_norm": 2.8072509765625,
      "learning_rate": 5.3547523427041504e-06,
      "loss": 2.2129,
      "step": 728
    },
    {
      "epoch": 2.927710843373494,
      "grad_norm": 3.1902520656585693,
      "learning_rate": 5.087014725568942e-06,
      "loss": 2.1905,
      "step": 729
    },
    {
      "epoch": 2.931726907630522,
      "grad_norm": 3.706218719482422,
      "learning_rate": 4.819277108433735e-06,
      "loss": 2.8587,
      "step": 730
    },
    {
      "epoch": 2.9357429718875503,
      "grad_norm": 3.516908645629883,
      "learning_rate": 4.551539491298527e-06,
      "loss": 3.0003,
      "step": 731
    },
    {
      "epoch": 2.9397590361445785,
      "grad_norm": 3.9051806926727295,
      "learning_rate": 4.28380187416332e-06,
      "loss": 2.6986,
      "step": 732
    },
    {
      "epoch": 2.9437751004016066,
      "grad_norm": 2.434493064880371,
      "learning_rate": 4.016064257028113e-06,
      "loss": 2.0143,
      "step": 733
    },
    {
      "epoch": 2.9477911646586348,
      "grad_norm": 3.514988899230957,
      "learning_rate": 3.7483266398929052e-06,
      "loss": 2.5539,
      "step": 734
    },
    {
      "epoch": 2.9518072289156625,
      "grad_norm": 3.145475387573242,
      "learning_rate": 3.480589022757698e-06,
      "loss": 2.3991,
      "step": 735
    },
    {
      "epoch": 2.9558232931726907,
      "grad_norm": 3.0328280925750732,
      "learning_rate": 3.21285140562249e-06,
      "loss": 2.4384,
      "step": 736
    },
    {
      "epoch": 2.959839357429719,
      "grad_norm": 3.584406614303589,
      "learning_rate": 2.9451137884872824e-06,
      "loss": 2.219,
      "step": 737
    },
    {
      "epoch": 2.963855421686747,
      "grad_norm": 2.8902695178985596,
      "learning_rate": 2.6773761713520752e-06,
      "loss": 2.0701,
      "step": 738
    },
    {
      "epoch": 2.967871485943775,
      "grad_norm": 2.714848518371582,
      "learning_rate": 2.4096385542168676e-06,
      "loss": 2.3578,
      "step": 739
    },
    {
      "epoch": 2.9718875502008033,
      "grad_norm": 3.4589223861694336,
      "learning_rate": 2.14190093708166e-06,
      "loss": 2.4076,
      "step": 740
    },
    {
      "epoch": 2.9759036144578315,
      "grad_norm": 2.8250577449798584,
      "learning_rate": 1.8741633199464526e-06,
      "loss": 2.2688,
      "step": 741
    },
    {
      "epoch": 2.979919678714859,
      "grad_norm": 3.090301752090454,
      "learning_rate": 1.606425702811245e-06,
      "loss": 2.0527,
      "step": 742
    },
    {
      "epoch": 2.9839357429718874,
      "grad_norm": 3.82488751411438,
      "learning_rate": 1.3386880856760376e-06,
      "loss": 2.9784,
      "step": 743
    },
    {
      "epoch": 2.9879518072289155,
      "grad_norm": 3.046949863433838,
      "learning_rate": 1.07095046854083e-06,
      "loss": 2.987,
      "step": 744
    },
    {
      "epoch": 2.9919678714859437,
      "grad_norm": 3.08667254447937,
      "learning_rate": 8.032128514056225e-07,
      "loss": 2.3121,
      "step": 745
    },
    {
      "epoch": 2.995983935742972,
      "grad_norm": 3.114004611968994,
      "learning_rate": 5.35475234270415e-07,
      "loss": 2.4549,
      "step": 746
    },
    {
      "epoch": 3.0,
      "grad_norm": 3.1294381618499756,
      "learning_rate": 2.677376171352075e-07,
      "loss": 2.2527,
      "step": 747
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.8732815980911255,
      "eval_runtime": 201.6297,
      "eval_samples_per_second": 2.475,
      "eval_steps_per_second": 1.24,
      "step": 747
    }
  ],
  "logging_steps": 1,
  "max_steps": 747,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.0605631120002253e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}