{
  "best_metric": 1.2477189302444458,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.03266372693124286,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00016331863465621427,
      "grad_norm": 0.32222917675971985,
      "learning_rate": 1.008e-05,
      "loss": 1.0831,
      "step": 1
    },
    {
      "epoch": 0.00016331863465621427,
      "eval_loss": 1.5867140293121338,
      "eval_runtime": 263.8423,
      "eval_samples_per_second": 9.771,
      "eval_steps_per_second": 2.445,
      "step": 1
    },
    {
      "epoch": 0.00032663726931242854,
      "grad_norm": 0.3748534321784973,
      "learning_rate": 2.016e-05,
      "loss": 1.1966,
      "step": 2
    },
    {
      "epoch": 0.0004899559039686428,
      "grad_norm": 0.3374967873096466,
      "learning_rate": 3.024e-05,
      "loss": 1.2396,
      "step": 3
    },
    {
      "epoch": 0.0006532745386248571,
      "grad_norm": 0.3298506438732147,
      "learning_rate": 4.032e-05,
      "loss": 1.0918,
      "step": 4
    },
    {
      "epoch": 0.0008165931732810714,
      "grad_norm": 0.6883808374404907,
      "learning_rate": 5.04e-05,
      "loss": 1.2338,
      "step": 5
    },
    {
      "epoch": 0.0009799118079372856,
      "grad_norm": 0.34195977449417114,
      "learning_rate": 6.048e-05,
      "loss": 1.1993,
      "step": 6
    },
    {
      "epoch": 0.0011432304425935,
      "grad_norm": 0.3275952637195587,
      "learning_rate": 7.055999999999999e-05,
      "loss": 1.1522,
      "step": 7
    },
    {
      "epoch": 0.0013065490772497142,
      "grad_norm": 0.34548452496528625,
      "learning_rate": 8.064e-05,
      "loss": 1.0844,
      "step": 8
    },
    {
      "epoch": 0.0014698677119059284,
      "grad_norm": 0.33617380261421204,
      "learning_rate": 9.072e-05,
      "loss": 1.1804,
      "step": 9
    },
    {
      "epoch": 0.0016331863465621427,
      "grad_norm": 0.38608452677726746,
      "learning_rate": 0.0001008,
      "loss": 1.1614,
      "step": 10
    },
    {
      "epoch": 0.001796504981218357,
      "grad_norm": 0.2920483648777008,
      "learning_rate": 0.00010026947368421052,
      "loss": 1.0613,
      "step": 11
    },
    {
      "epoch": 0.0019598236158745713,
      "grad_norm": 0.3250345289707184,
      "learning_rate": 9.973894736842104e-05,
      "loss": 1.1086,
      "step": 12
    },
    {
      "epoch": 0.0021231422505307855,
      "grad_norm": 0.3447640836238861,
      "learning_rate": 9.920842105263157e-05,
      "loss": 1.124,
      "step": 13
    },
    {
      "epoch": 0.002286460885187,
      "grad_norm": 0.53537917137146,
      "learning_rate": 9.86778947368421e-05,
      "loss": 1.2802,
      "step": 14
    },
    {
      "epoch": 0.002449779519843214,
      "grad_norm": 0.39660409092903137,
      "learning_rate": 9.814736842105264e-05,
      "loss": 1.2796,
      "step": 15
    },
    {
      "epoch": 0.0026130981544994283,
      "grad_norm": 0.6454288363456726,
      "learning_rate": 9.761684210526316e-05,
      "loss": 0.9412,
      "step": 16
    },
    {
      "epoch": 0.0027764167891556426,
      "grad_norm": 0.3846704959869385,
      "learning_rate": 9.708631578947368e-05,
      "loss": 1.2856,
      "step": 17
    },
    {
      "epoch": 0.002939735423811857,
      "grad_norm": 0.42465347051620483,
      "learning_rate": 9.655578947368421e-05,
      "loss": 1.071,
      "step": 18
    },
    {
      "epoch": 0.003103054058468071,
      "grad_norm": 0.4995194673538208,
      "learning_rate": 9.602526315789473e-05,
      "loss": 1.1072,
      "step": 19
    },
    {
      "epoch": 0.0032663726931242854,
      "grad_norm": 0.4332369565963745,
      "learning_rate": 9.549473684210525e-05,
      "loss": 1.1913,
      "step": 20
    },
    {
      "epoch": 0.0034296913277804997,
      "grad_norm": 0.7425614595413208,
      "learning_rate": 9.496421052631579e-05,
      "loss": 1.1113,
      "step": 21
    },
    {
      "epoch": 0.003593009962436714,
      "grad_norm": 0.5277977585792542,
      "learning_rate": 9.443368421052631e-05,
      "loss": 1.3221,
      "step": 22
    },
    {
      "epoch": 0.0037563285970929282,
      "grad_norm": 0.5271258354187012,
      "learning_rate": 9.390315789473683e-05,
      "loss": 1.4147,
      "step": 23
    },
    {
      "epoch": 0.0039196472317491425,
      "grad_norm": 0.5364950895309448,
      "learning_rate": 9.337263157894737e-05,
      "loss": 1.1722,
      "step": 24
    },
    {
      "epoch": 0.004082965866405357,
      "grad_norm": 0.5438219308853149,
      "learning_rate": 9.28421052631579e-05,
      "loss": 1.2198,
      "step": 25
    },
    {
      "epoch": 0.004246284501061571,
      "grad_norm": 0.5307517051696777,
      "learning_rate": 9.231157894736842e-05,
      "loss": 1.138,
      "step": 26
    },
    {
      "epoch": 0.004409603135717786,
      "grad_norm": 0.549716591835022,
      "learning_rate": 9.178105263157895e-05,
      "loss": 1.0959,
      "step": 27
    },
    {
      "epoch": 0.004572921770374,
      "grad_norm": 0.6503384709358215,
      "learning_rate": 9.125052631578948e-05,
      "loss": 1.3766,
      "step": 28
    },
    {
      "epoch": 0.004736240405030214,
      "grad_norm": 1.253612756729126,
      "learning_rate": 9.072e-05,
      "loss": 1.0229,
      "step": 29
    },
    {
      "epoch": 0.004899559039686428,
      "grad_norm": 0.6769604682922363,
      "learning_rate": 9.018947368421052e-05,
      "loss": 1.132,
      "step": 30
    },
    {
      "epoch": 0.005062877674342643,
      "grad_norm": 0.8057838678359985,
      "learning_rate": 8.965894736842104e-05,
      "loss": 1.2194,
      "step": 31
    },
    {
      "epoch": 0.005226196308998857,
      "grad_norm": 0.8365297317504883,
      "learning_rate": 8.912842105263157e-05,
      "loss": 1.2038,
      "step": 32
    },
    {
      "epoch": 0.005389514943655071,
      "grad_norm": 1.167303442955017,
      "learning_rate": 8.85978947368421e-05,
      "loss": 1.3785,
      "step": 33
    },
    {
      "epoch": 0.005552833578311285,
      "grad_norm": 1.4942162036895752,
      "learning_rate": 8.806736842105264e-05,
      "loss": 1.2123,
      "step": 34
    },
    {
      "epoch": 0.0057161522129675,
      "grad_norm": 0.988175094127655,
      "learning_rate": 8.753684210526316e-05,
      "loss": 1.4071,
      "step": 35
    },
    {
      "epoch": 0.005879470847623714,
      "grad_norm": 1.5036920309066772,
      "learning_rate": 8.700631578947369e-05,
      "loss": 1.5718,
      "step": 36
    },
    {
      "epoch": 0.0060427894822799285,
      "grad_norm": 8.359253883361816,
      "learning_rate": 8.647578947368421e-05,
      "loss": 1.3043,
      "step": 37
    },
    {
      "epoch": 0.006206108116936142,
      "grad_norm": 1.4109854698181152,
      "learning_rate": 8.594526315789473e-05,
      "loss": 1.3995,
      "step": 38
    },
    {
      "epoch": 0.006369426751592357,
      "grad_norm": 1.68661630153656,
      "learning_rate": 8.541473684210525e-05,
      "loss": 1.3803,
      "step": 39
    },
    {
      "epoch": 0.006532745386248571,
      "grad_norm": 1.8966405391693115,
      "learning_rate": 8.488421052631578e-05,
      "loss": 1.7885,
      "step": 40
    },
    {
      "epoch": 0.0066960640209047856,
      "grad_norm": 1.9401127099990845,
      "learning_rate": 8.435368421052631e-05,
      "loss": 1.5803,
      "step": 41
    },
    {
      "epoch": 0.006859382655560999,
      "grad_norm": 1.7032259702682495,
      "learning_rate": 8.382315789473684e-05,
      "loss": 1.5758,
      "step": 42
    },
    {
      "epoch": 0.007022701290217214,
      "grad_norm": 2.17410945892334,
      "learning_rate": 8.329263157894737e-05,
      "loss": 1.7242,
      "step": 43
    },
    {
      "epoch": 0.007186019924873428,
      "grad_norm": 1.947619915008545,
      "learning_rate": 8.27621052631579e-05,
      "loss": 1.5663,
      "step": 44
    },
    {
      "epoch": 0.007349338559529643,
      "grad_norm": 2.3612546920776367,
      "learning_rate": 8.223157894736842e-05,
      "loss": 1.5712,
      "step": 45
    },
    {
      "epoch": 0.0075126571941858565,
      "grad_norm": 3.180138349533081,
      "learning_rate": 8.170105263157894e-05,
      "loss": 1.8573,
      "step": 46
    },
    {
      "epoch": 0.007675975828842071,
      "grad_norm": 2.709808349609375,
      "learning_rate": 8.117052631578946e-05,
      "loss": 1.5929,
      "step": 47
    },
    {
      "epoch": 0.007839294463498285,
      "grad_norm": 3.193575143814087,
      "learning_rate": 8.064e-05,
      "loss": 1.9396,
      "step": 48
    },
    {
      "epoch": 0.008002613098154499,
      "grad_norm": 2.937645673751831,
      "learning_rate": 8.010947368421052e-05,
      "loss": 1.5667,
      "step": 49
    },
    {
      "epoch": 0.008165931732810714,
      "grad_norm": 9.791438102722168,
      "learning_rate": 7.957894736842105e-05,
      "loss": 3.138,
      "step": 50
    },
    {
      "epoch": 0.008165931732810714,
      "eval_loss": 1.364829659461975,
      "eval_runtime": 263.5919,
      "eval_samples_per_second": 9.78,
      "eval_steps_per_second": 2.447,
      "step": 50
    },
    {
      "epoch": 0.008329250367466928,
      "grad_norm": 0.46805253624916077,
      "learning_rate": 7.904842105263158e-05,
      "loss": 0.9825,
      "step": 51
    },
    {
      "epoch": 0.008492569002123142,
      "grad_norm": 0.6312962770462036,
      "learning_rate": 7.85178947368421e-05,
      "loss": 1.0952,
      "step": 52
    },
    {
      "epoch": 0.008655887636779356,
      "grad_norm": 0.46032240986824036,
      "learning_rate": 7.798736842105263e-05,
      "loss": 1.1057,
      "step": 53
    },
    {
      "epoch": 0.008819206271435572,
      "grad_norm": 0.42325952649116516,
      "learning_rate": 7.745684210526315e-05,
      "loss": 1.0463,
      "step": 54
    },
    {
      "epoch": 0.008982524906091785,
      "grad_norm": 0.43187931180000305,
      "learning_rate": 7.692631578947369e-05,
      "loss": 1.1319,
      "step": 55
    },
    {
      "epoch": 0.009145843540748,
      "grad_norm": 0.3264637887477875,
      "learning_rate": 7.639578947368421e-05,
      "loss": 1.0825,
      "step": 56
    },
    {
      "epoch": 0.009309162175404213,
      "grad_norm": 0.45172223448753357,
      "learning_rate": 7.586526315789473e-05,
      "loss": 1.1596,
      "step": 57
    },
    {
      "epoch": 0.009472480810060429,
      "grad_norm": 0.3362988233566284,
      "learning_rate": 7.533473684210526e-05,
      "loss": 1.1166,
      "step": 58
    },
    {
      "epoch": 0.009635799444716642,
      "grad_norm": 0.2983613908290863,
      "learning_rate": 7.480421052631578e-05,
      "loss": 1.1385,
      "step": 59
    },
    {
      "epoch": 0.009799118079372856,
      "grad_norm": 0.31375735998153687,
      "learning_rate": 7.427368421052632e-05,
      "loss": 1.1313,
      "step": 60
    },
    {
      "epoch": 0.00996243671402907,
      "grad_norm": 0.32808735966682434,
      "learning_rate": 7.374315789473685e-05,
      "loss": 1.2054,
      "step": 61
    },
    {
      "epoch": 0.010125755348685286,
      "grad_norm": 0.3531345725059509,
      "learning_rate": 7.321263157894737e-05,
      "loss": 0.9664,
      "step": 62
    },
    {
      "epoch": 0.0102890739833415,
      "grad_norm": 0.3243650496006012,
      "learning_rate": 7.26821052631579e-05,
      "loss": 1.0795,
      "step": 63
    },
    {
      "epoch": 0.010452392617997713,
      "grad_norm": 0.3155343532562256,
      "learning_rate": 7.215157894736842e-05,
      "loss": 1.1584,
      "step": 64
    },
    {
      "epoch": 0.010615711252653927,
      "grad_norm": 0.33591097593307495,
      "learning_rate": 7.162105263157894e-05,
      "loss": 1.1621,
      "step": 65
    },
    {
      "epoch": 0.010779029887310143,
      "grad_norm": 0.36728230118751526,
      "learning_rate": 7.109052631578947e-05,
      "loss": 1.2027,
      "step": 66
    },
    {
      "epoch": 0.010942348521966357,
      "grad_norm": 0.39140239357948303,
      "learning_rate": 7.055999999999999e-05,
      "loss": 1.1875,
      "step": 67
    },
    {
      "epoch": 0.01110566715662257,
      "grad_norm": 0.34182071685791016,
      "learning_rate": 7.002947368421052e-05,
      "loss": 1.0609,
      "step": 68
    },
    {
      "epoch": 0.011268985791278784,
      "grad_norm": 0.381833016872406,
      "learning_rate": 6.949894736842105e-05,
      "loss": 1.2262,
      "step": 69
    },
    {
      "epoch": 0.011432304425935,
      "grad_norm": 0.4307697117328644,
      "learning_rate": 6.896842105263158e-05,
      "loss": 1.2998,
      "step": 70
    },
    {
      "epoch": 0.011595623060591214,
      "grad_norm": 0.4539545178413391,
      "learning_rate": 6.843789473684211e-05,
      "loss": 1.2983,
      "step": 71
    },
    {
      "epoch": 0.011758941695247428,
      "grad_norm": 0.6169005632400513,
      "learning_rate": 6.790736842105263e-05,
      "loss": 1.2035,
      "step": 72
    },
    {
      "epoch": 0.011922260329903641,
      "grad_norm": 0.48133376240730286,
      "learning_rate": 6.737684210526315e-05,
      "loss": 1.0532,
      "step": 73
    },
    {
      "epoch": 0.012085578964559857,
      "grad_norm": 0.45706743001937866,
      "learning_rate": 6.684631578947368e-05,
      "loss": 1.2692,
      "step": 74
    },
    {
      "epoch": 0.01224889759921607,
      "grad_norm": 0.5133025646209717,
      "learning_rate": 6.631578947368421e-05,
      "loss": 1.0706,
      "step": 75
    },
    {
      "epoch": 0.012412216233872285,
      "grad_norm": 0.4793209731578827,
      "learning_rate": 6.578526315789473e-05,
      "loss": 1.0376,
      "step": 76
    },
    {
      "epoch": 0.012575534868528498,
      "grad_norm": 0.5473383069038391,
      "learning_rate": 6.525473684210526e-05,
      "loss": 1.1123,
      "step": 77
    },
    {
      "epoch": 0.012738853503184714,
      "grad_norm": 0.5483773350715637,
      "learning_rate": 6.47242105263158e-05,
      "loss": 1.0622,
      "step": 78
    },
    {
      "epoch": 0.012902172137840928,
      "grad_norm": 0.553222119808197,
      "learning_rate": 6.419368421052632e-05,
      "loss": 1.0235,
      "step": 79
    },
    {
      "epoch": 0.013065490772497142,
      "grad_norm": 0.6909826993942261,
      "learning_rate": 6.366315789473684e-05,
      "loss": 1.2291,
      "step": 80
    },
    {
      "epoch": 0.013228809407153356,
      "grad_norm": 0.8075224757194519,
      "learning_rate": 6.313263157894736e-05,
      "loss": 1.3274,
      "step": 81
    },
    {
      "epoch": 0.013392128041809571,
      "grad_norm": 0.891085147857666,
      "learning_rate": 6.26021052631579e-05,
      "loss": 1.4474,
      "step": 82
    },
    {
      "epoch": 0.013555446676465785,
      "grad_norm": 0.8187800049781799,
      "learning_rate": 6.207157894736842e-05,
      "loss": 1.3497,
      "step": 83
    },
    {
      "epoch": 0.013718765311121999,
      "grad_norm": 2.8559410572052,
      "learning_rate": 6.154105263157894e-05,
      "loss": 1.6589,
      "step": 84
    },
    {
      "epoch": 0.013882083945778213,
      "grad_norm": 1.1072229146957397,
      "learning_rate": 6.1010526315789474e-05,
      "loss": 1.6099,
      "step": 85
    },
    {
      "epoch": 0.014045402580434428,
      "grad_norm": 1.0029040575027466,
      "learning_rate": 6.048e-05,
      "loss": 1.2986,
      "step": 86
    },
    {
      "epoch": 0.014208721215090642,
      "grad_norm": 1.3084521293640137,
      "learning_rate": 5.994947368421052e-05,
      "loss": 1.5465,
      "step": 87
    },
    {
      "epoch": 0.014372039849746856,
      "grad_norm": 1.1387213468551636,
      "learning_rate": 5.941894736842104e-05,
      "loss": 1.4108,
      "step": 88
    },
    {
      "epoch": 0.01453535848440307,
      "grad_norm": 1.4340485334396362,
      "learning_rate": 5.888842105263158e-05,
      "loss": 1.4014,
      "step": 89
    },
    {
      "epoch": 0.014698677119059285,
      "grad_norm": 1.2849938869476318,
      "learning_rate": 5.835789473684211e-05,
      "loss": 1.3246,
      "step": 90
    },
    {
      "epoch": 0.014861995753715499,
      "grad_norm": 1.754753589630127,
      "learning_rate": 5.782736842105263e-05,
      "loss": 1.4966,
      "step": 91
    },
    {
      "epoch": 0.015025314388371713,
      "grad_norm": 1.361053705215454,
      "learning_rate": 5.7296842105263154e-05,
      "loss": 1.1671,
      "step": 92
    },
    {
      "epoch": 0.015188633023027927,
      "grad_norm": 1.7495921850204468,
      "learning_rate": 5.676631578947368e-05,
      "loss": 0.7674,
      "step": 93
    },
    {
      "epoch": 0.015351951657684142,
      "grad_norm": 1.784242033958435,
      "learning_rate": 5.623578947368421e-05,
      "loss": 1.3846,
      "step": 94
    },
    {
      "epoch": 0.015515270292340356,
      "grad_norm": 1.8887526988983154,
      "learning_rate": 5.570526315789474e-05,
      "loss": 1.427,
      "step": 95
    },
    {
      "epoch": 0.01567858892699657,
      "grad_norm": 2.273012638092041,
      "learning_rate": 5.5174736842105266e-05,
      "loss": 1.9246,
      "step": 96
    },
    {
      "epoch": 0.015841907561652786,
      "grad_norm": 3.6536660194396973,
      "learning_rate": 5.464421052631579e-05,
      "loss": 1.855,
      "step": 97
    },
    {
      "epoch": 0.016005226196308998,
      "grad_norm": 3.4490716457366943,
      "learning_rate": 5.411368421052631e-05,
      "loss": 1.7049,
      "step": 98
    },
    {
      "epoch": 0.016168544830965213,
      "grad_norm": 2.958827018737793,
      "learning_rate": 5.358315789473684e-05,
      "loss": 2.3003,
      "step": 99
    },
    {
      "epoch": 0.01633186346562143,
      "grad_norm": 3.9172170162200928,
      "learning_rate": 5.3052631578947364e-05,
      "loss": 2.5521,
      "step": 100
    },
    {
      "epoch": 0.01633186346562143,
      "eval_loss": 1.3006949424743652,
      "eval_runtime": 263.5883,
      "eval_samples_per_second": 9.78,
      "eval_steps_per_second": 2.447,
      "step": 100
    },
    {
      "epoch": 0.01649518210027764,
      "grad_norm": 0.29520508646965027,
      "learning_rate": 5.252210526315789e-05,
      "loss": 1.0828,
      "step": 101
    },
    {
      "epoch": 0.016658500734933857,
      "grad_norm": 0.33909299969673157,
      "learning_rate": 5.199157894736842e-05,
      "loss": 1.0106,
      "step": 102
    },
    {
      "epoch": 0.01682181936959007,
      "grad_norm": 0.4111012816429138,
      "learning_rate": 5.1461052631578946e-05,
      "loss": 1.0862,
      "step": 103
    },
    {
      "epoch": 0.016985138004246284,
      "grad_norm": 0.33255207538604736,
      "learning_rate": 5.0930526315789476e-05,
      "loss": 1.045,
      "step": 104
    },
    {
      "epoch": 0.0171484566389025,
      "grad_norm": 0.3253837823867798,
      "learning_rate": 5.04e-05,
      "loss": 1.0511,
      "step": 105
    },
    {
      "epoch": 0.017311775273558712,
      "grad_norm": 0.3574228882789612,
      "learning_rate": 4.986947368421052e-05,
      "loss": 1.2643,
      "step": 106
    },
    {
      "epoch": 0.017475093908214927,
      "grad_norm": 0.33563002943992615,
      "learning_rate": 4.933894736842105e-05,
      "loss": 1.1151,
      "step": 107
    },
    {
      "epoch": 0.017638412542871143,
      "grad_norm": 0.32912537455558777,
      "learning_rate": 4.880842105263158e-05,
      "loss": 0.9867,
      "step": 108
    },
    {
      "epoch": 0.017801731177527355,
      "grad_norm": 0.32150453329086304,
      "learning_rate": 4.8277894736842103e-05,
      "loss": 1.0304,
      "step": 109
    },
    {
      "epoch": 0.01796504981218357,
      "grad_norm": 0.34850263595581055,
      "learning_rate": 4.7747368421052626e-05,
      "loss": 1.0714,
      "step": 110
    },
    {
      "epoch": 0.018128368446839783,
      "grad_norm": 0.3302375376224518,
      "learning_rate": 4.7216842105263156e-05,
      "loss": 1.1431,
      "step": 111
    },
    {
      "epoch": 0.018291687081496,
      "grad_norm": 0.29508376121520996,
      "learning_rate": 4.6686315789473686e-05,
      "loss": 0.9995,
      "step": 112
    },
    {
      "epoch": 0.018455005716152214,
      "grad_norm": 0.3080250918865204,
      "learning_rate": 4.615578947368421e-05,
      "loss": 1.0334,
      "step": 113
    },
    {
      "epoch": 0.018618324350808426,
      "grad_norm": 0.3518069386482239,
      "learning_rate": 4.562526315789474e-05,
      "loss": 1.1171,
      "step": 114
    },
    {
      "epoch": 0.01878164298546464,
      "grad_norm": 0.3530530333518982,
      "learning_rate": 4.509473684210526e-05,
      "loss": 1.0822,
      "step": 115
    },
    {
      "epoch": 0.018944961620120857,
      "grad_norm": 0.38098829984664917,
      "learning_rate": 4.4564210526315784e-05,
      "loss": 1.1513,
      "step": 116
    },
    {
      "epoch": 0.01910828025477707,
      "grad_norm": 0.3529113829135895,
      "learning_rate": 4.403368421052632e-05,
      "loss": 0.9899,
      "step": 117
    },
    {
      "epoch": 0.019271598889433285,
      "grad_norm": 0.41735753417015076,
      "learning_rate": 4.350315789473684e-05,
      "loss": 1.1746,
      "step": 118
    },
    {
      "epoch": 0.019434917524089497,
      "grad_norm": 0.3920365571975708,
      "learning_rate": 4.2972631578947366e-05,
      "loss": 1.0371,
      "step": 119
    },
    {
      "epoch": 0.019598236158745713,
      "grad_norm": 0.4281509220600128,
      "learning_rate": 4.244210526315789e-05,
      "loss": 1.0924,
      "step": 120
    },
    {
      "epoch": 0.019761554793401928,
      "grad_norm": 0.4261062741279602,
      "learning_rate": 4.191157894736842e-05,
      "loss": 1.172,
      "step": 121
    },
    {
      "epoch": 0.01992487342805814,
      "grad_norm": 0.6562580466270447,
      "learning_rate": 4.138105263157895e-05,
      "loss": 1.2355,
      "step": 122
    },
    {
      "epoch": 0.020088192062714356,
      "grad_norm": 0.5189172029495239,
      "learning_rate": 4.085052631578947e-05,
      "loss": 1.2467,
      "step": 123
    },
    {
      "epoch": 0.02025151069737057,
      "grad_norm": 0.5256746411323547,
      "learning_rate": 4.032e-05,
      "loss": 1.2434,
      "step": 124
    },
    {
      "epoch": 0.020414829332026783,
      "grad_norm": 0.4984714984893799,
      "learning_rate": 3.978947368421052e-05,
      "loss": 0.9975,
      "step": 125
    },
    {
      "epoch": 0.020578147966683,
      "grad_norm": 0.5474215745925903,
      "learning_rate": 3.925894736842105e-05,
      "loss": 1.0002,
      "step": 126
    },
    {
      "epoch": 0.02074146660133921,
      "grad_norm": 0.5669327974319458,
      "learning_rate": 3.8728421052631575e-05,
      "loss": 1.1484,
      "step": 127
    },
    {
      "epoch": 0.020904785235995427,
      "grad_norm": 0.7262234687805176,
      "learning_rate": 3.8197894736842105e-05,
      "loss": 1.1345,
      "step": 128
    },
    {
      "epoch": 0.021068103870651642,
      "grad_norm": 0.6831925511360168,
      "learning_rate": 3.766736842105263e-05,
      "loss": 0.9916,
      "step": 129
    },
    {
      "epoch": 0.021231422505307854,
      "grad_norm": 0.7332931756973267,
      "learning_rate": 3.713684210526316e-05,
      "loss": 1.3173,
      "step": 130
    },
    {
      "epoch": 0.02139474113996407,
      "grad_norm": 0.728067934513092,
      "learning_rate": 3.660631578947369e-05,
      "loss": 1.1692,
      "step": 131
    },
    {
      "epoch": 0.021558059774620286,
      "grad_norm": 1.0239650011062622,
      "learning_rate": 3.607578947368421e-05,
      "loss": 1.5271,
      "step": 132
    },
    {
      "epoch": 0.021721378409276498,
      "grad_norm": 0.8326459527015686,
      "learning_rate": 3.554526315789473e-05,
      "loss": 1.2258,
      "step": 133
    },
    {
      "epoch": 0.021884697043932713,
      "grad_norm": 0.8877243995666504,
      "learning_rate": 3.501473684210526e-05,
      "loss": 1.0801,
      "step": 134
    },
    {
      "epoch": 0.022048015678588925,
      "grad_norm": 1.1286940574645996,
      "learning_rate": 3.448421052631579e-05,
      "loss": 1.2527,
      "step": 135
    },
    {
      "epoch": 0.02221133431324514,
      "grad_norm": 1.1936653852462769,
      "learning_rate": 3.3953684210526315e-05,
      "loss": 1.4612,
      "step": 136
    },
    {
      "epoch": 0.022374652947901356,
      "grad_norm": 1.2300997972488403,
      "learning_rate": 3.342315789473684e-05,
      "loss": 1.2565,
      "step": 137
    },
    {
      "epoch": 0.02253797158255757,
      "grad_norm": 1.361835241317749,
      "learning_rate": 3.289263157894737e-05,
      "loss": 1.2855,
      "step": 138
    },
    {
      "epoch": 0.022701290217213784,
      "grad_norm": 1.4849436283111572,
      "learning_rate": 3.23621052631579e-05,
      "loss": 1.4416,
      "step": 139
    },
    {
      "epoch": 0.02286460885187,
      "grad_norm": 1.3447719812393188,
      "learning_rate": 3.183157894736842e-05,
      "loss": 1.2304,
      "step": 140
    },
    {
      "epoch": 0.023027927486526212,
      "grad_norm": 3.4335973262786865,
      "learning_rate": 3.130105263157895e-05,
      "loss": 1.6332,
      "step": 141
    },
    {
      "epoch": 0.023191246121182427,
      "grad_norm": 1.3858939409255981,
      "learning_rate": 3.077052631578947e-05,
      "loss": 1.2679,
      "step": 142
    },
    {
      "epoch": 0.02335456475583864,
      "grad_norm": 2.386140823364258,
      "learning_rate": 3.024e-05,
      "loss": 1.5735,
      "step": 143
    },
    {
      "epoch": 0.023517883390494855,
      "grad_norm": 1.8878880739212036,
      "learning_rate": 2.970947368421052e-05,
      "loss": 1.8912,
      "step": 144
    },
    {
      "epoch": 0.02368120202515107,
      "grad_norm": 2.6192140579223633,
      "learning_rate": 2.9178947368421054e-05,
      "loss": 2.0803,
      "step": 145
    },
    {
      "epoch": 0.023844520659807283,
      "grad_norm": 2.0558602809906006,
      "learning_rate": 2.8648421052631577e-05,
      "loss": 1.508,
      "step": 146
    },
    {
      "epoch": 0.0240078392944635,
      "grad_norm": 2.0632948875427246,
      "learning_rate": 2.8117894736842103e-05,
      "loss": 1.3411,
      "step": 147
    },
    {
      "epoch": 0.024171157929119714,
      "grad_norm": 2.250452995300293,
      "learning_rate": 2.7587368421052633e-05,
      "loss": 1.0817,
      "step": 148
    },
    {
      "epoch": 0.024334476563775926,
      "grad_norm": 4.366860389709473,
      "learning_rate": 2.7056842105263156e-05,
      "loss": 1.5064,
      "step": 149
    },
    {
      "epoch": 0.02449779519843214,
      "grad_norm": 4.980976581573486,
      "learning_rate": 2.6526315789473682e-05,
      "loss": 1.9394,
      "step": 150
    },
    {
      "epoch": 0.02449779519843214,
      "eval_loss": 1.2594364881515503,
      "eval_runtime": 263.8393,
      "eval_samples_per_second": 9.771,
      "eval_steps_per_second": 2.445,
      "step": 150
    },
    {
      "epoch": 0.024661113833088357,
      "grad_norm": 0.24001510441303253,
      "learning_rate": 2.599578947368421e-05,
      "loss": 1.1347,
      "step": 151
    },
    {
      "epoch": 0.02482443246774457,
      "grad_norm": 0.2314509153366089,
      "learning_rate": 2.5465263157894738e-05,
      "loss": 0.9836,
      "step": 152
    },
    {
      "epoch": 0.024987751102400785,
      "grad_norm": 0.23434089124202728,
      "learning_rate": 2.493473684210526e-05,
      "loss": 0.9956,
      "step": 153
    },
    {
      "epoch": 0.025151069737056997,
      "grad_norm": 0.26014959812164307,
      "learning_rate": 2.440421052631579e-05,
      "loss": 0.9441,
      "step": 154
    },
    {
      "epoch": 0.025314388371713212,
      "grad_norm": 0.2555046081542969,
      "learning_rate": 2.3873684210526313e-05,
      "loss": 0.9856,
      "step": 155
    },
    {
      "epoch": 0.025477707006369428,
      "grad_norm": 0.2826363444328308,
      "learning_rate": 2.3343157894736843e-05,
      "loss": 1.0106,
      "step": 156
    },
    {
      "epoch": 0.02564102564102564,
      "grad_norm": 0.2960548400878906,
      "learning_rate": 2.281263157894737e-05,
      "loss": 1.0006,
      "step": 157
    },
    {
      "epoch": 0.025804344275681856,
      "grad_norm": 0.32583704590797424,
      "learning_rate": 2.2282105263157892e-05,
      "loss": 1.173,
      "step": 158
    },
    {
      "epoch": 0.02596766291033807,
      "grad_norm": 0.2991553246974945,
      "learning_rate": 2.175157894736842e-05,
      "loss": 1.1834,
      "step": 159
    },
    {
      "epoch": 0.026130981544994283,
      "grad_norm": 0.34389781951904297,
      "learning_rate": 2.1221052631578944e-05,
      "loss": 1.0579,
      "step": 160
    },
    {
      "epoch": 0.0262943001796505,
      "grad_norm": 0.611555814743042,
      "learning_rate": 2.0690526315789474e-05,
      "loss": 1.1221,
      "step": 161
    },
    {
      "epoch": 0.02645761881430671,
      "grad_norm": 0.3195684254169464,
      "learning_rate": 2.016e-05,
      "loss": 1.068,
      "step": 162
    },
    {
      "epoch": 0.026620937448962927,
      "grad_norm": 0.3502015769481659,
      "learning_rate": 1.9629473684210526e-05,
      "loss": 1.2417,
      "step": 163
    },
    {
      "epoch": 0.026784256083619142,
      "grad_norm": 0.3644481599330902,
      "learning_rate": 1.9098947368421053e-05,
      "loss": 1.1423,
      "step": 164
    },
    {
      "epoch": 0.026947574718275354,
      "grad_norm": 0.3156784772872925,
      "learning_rate": 1.856842105263158e-05,
      "loss": 1.0131,
      "step": 165
    },
    {
      "epoch": 0.02711089335293157,
      "grad_norm": 0.3778960406780243,
      "learning_rate": 1.8037894736842105e-05,
      "loss": 1.1377,
      "step": 166
    },
    {
      "epoch": 0.027274211987587785,
      "grad_norm": 0.4191126227378845,
      "learning_rate": 1.750736842105263e-05,
      "loss": 1.2094,
      "step": 167
    },
    {
      "epoch": 0.027437530622243998,
      "grad_norm": 0.41389167308807373,
      "learning_rate": 1.6976842105263157e-05,
      "loss": 0.9609,
      "step": 168
    },
    {
      "epoch": 0.027600849256900213,
      "grad_norm": 0.667026162147522,
      "learning_rate": 1.6446315789473684e-05,
      "loss": 1.1122,
      "step": 169
    },
    {
      "epoch": 0.027764167891556425,
      "grad_norm": 0.4033166468143463,
      "learning_rate": 1.591578947368421e-05,
      "loss": 1.0542,
      "step": 170
    },
    {
      "epoch": 0.02792748652621264,
      "grad_norm": 0.41745874285697937,
      "learning_rate": 1.5385263157894736e-05,
      "loss": 1.0668,
      "step": 171
    },
    {
      "epoch": 0.028090805160868856,
      "grad_norm": 0.48646900057792664,
      "learning_rate": 1.485473684210526e-05,
      "loss": 1.1439,
      "step": 172
    },
    {
      "epoch": 0.02825412379552507,
      "grad_norm": 0.5496151447296143,
      "learning_rate": 1.4324210526315789e-05,
      "loss": 1.3225,
      "step": 173
    },
    {
      "epoch": 0.028417442430181284,
      "grad_norm": 0.4702199399471283,
      "learning_rate": 1.3793684210526316e-05,
      "loss": 1.031,
      "step": 174
    },
    {
      "epoch": 0.0285807610648375,
      "grad_norm": 0.5415987968444824,
      "learning_rate": 1.3263157894736841e-05,
      "loss": 1.2163,
      "step": 175
    },
    {
      "epoch": 0.02874407969949371,
      "grad_norm": 0.5560730695724487,
      "learning_rate": 1.2732631578947369e-05,
      "loss": 1.3519,
      "step": 176
    },
    {
      "epoch": 0.028907398334149927,
      "grad_norm": 0.6178779602050781,
      "learning_rate": 1.2202105263157895e-05,
      "loss": 1.0555,
      "step": 177
    },
    {
      "epoch": 0.02907071696880614,
      "grad_norm": 0.706653892993927,
      "learning_rate": 1.1671578947368421e-05,
      "loss": 1.1491,
      "step": 178
    },
    {
      "epoch": 0.029234035603462355,
      "grad_norm": 0.7643397450447083,
      "learning_rate": 1.1141052631578946e-05,
      "loss": 1.1422,
      "step": 179
    },
    {
      "epoch": 0.02939735423811857,
      "grad_norm": 0.7330595254898071,
      "learning_rate": 1.0610526315789472e-05,
      "loss": 1.278,
      "step": 180
    },
    {
      "epoch": 0.029560672872774783,
      "grad_norm": 0.7722088694572449,
      "learning_rate": 1.008e-05,
      "loss": 1.2338,
      "step": 181
    },
    {
      "epoch": 0.029723991507430998,
      "grad_norm": 0.7332117557525635,
      "learning_rate": 9.549473684210526e-06,
      "loss": 0.9931,
      "step": 182
    },
    {
      "epoch": 0.029887310142087214,
      "grad_norm": 1.1350094079971313,
      "learning_rate": 9.018947368421052e-06,
      "loss": 1.2263,
      "step": 183
    },
    {
      "epoch": 0.030050628776743426,
      "grad_norm": 2.072944402694702,
      "learning_rate": 8.488421052631579e-06,
      "loss": 1.4356,
      "step": 184
    },
    {
      "epoch": 0.03021394741139964,
      "grad_norm": 1.1814804077148438,
      "learning_rate": 7.957894736842105e-06,
      "loss": 1.381,
      "step": 185
    },
    {
      "epoch": 0.030377266046055854,
      "grad_norm": 1.370463252067566,
      "learning_rate": 7.42736842105263e-06,
      "loss": 1.6708,
      "step": 186
    },
    {
      "epoch": 0.03054058468071207,
      "grad_norm": 1.2709002494812012,
      "learning_rate": 6.896842105263158e-06,
      "loss": 1.0326,
      "step": 187
    },
    {
      "epoch": 0.030703903315368285,
      "grad_norm": 2.3869147300720215,
      "learning_rate": 6.3663157894736845e-06,
      "loss": 1.6504,
      "step": 188
    },
    {
      "epoch": 0.030867221950024497,
      "grad_norm": 1.4655234813690186,
      "learning_rate": 5.835789473684211e-06,
      "loss": 1.5917,
      "step": 189
    },
    {
      "epoch": 0.031030540584680712,
      "grad_norm": 1.7790828943252563,
      "learning_rate": 5.305263157894736e-06,
      "loss": 1.5934,
      "step": 190
    },
    {
      "epoch": 0.031193859219336928,
      "grad_norm": 1.6063296794891357,
      "learning_rate": 4.774736842105263e-06,
      "loss": 1.3037,
      "step": 191
    },
    {
      "epoch": 0.03135717785399314,
      "grad_norm": 1.437394618988037,
      "learning_rate": 4.244210526315789e-06,
      "loss": 1.222,
      "step": 192
    },
    {
      "epoch": 0.03152049648864935,
      "grad_norm": 1.525241494178772,
      "learning_rate": 3.713684210526315e-06,
      "loss": 0.876,
      "step": 193
    },
    {
      "epoch": 0.03168381512330557,
      "grad_norm": 3.02951979637146,
      "learning_rate": 3.1831578947368422e-06,
      "loss": 2.1089,
      "step": 194
    },
    {
      "epoch": 0.03184713375796178,
      "grad_norm": 2.51025652885437,
      "learning_rate": 2.652631578947368e-06,
      "loss": 1.8866,
      "step": 195
    },
    {
      "epoch": 0.032010452392617995,
      "grad_norm": 2.0772225856781006,
      "learning_rate": 2.1221052631578947e-06,
      "loss": 1.7559,
      "step": 196
    },
    {
      "epoch": 0.032173771027274214,
      "grad_norm": 2.8887031078338623,
      "learning_rate": 1.5915789473684211e-06,
      "loss": 2.0591,
      "step": 197
    },
    {
      "epoch": 0.03233708966193043,
      "grad_norm": 2.3809337615966797,
      "learning_rate": 1.0610526315789473e-06,
      "loss": 1.3646,
      "step": 198
    },
    {
      "epoch": 0.03250040829658664,
      "grad_norm": 2.4133598804473877,
      "learning_rate": 5.305263157894737e-07,
      "loss": 1.606,
      "step": 199
    },
    {
      "epoch": 0.03266372693124286,
      "grad_norm": 4.204187393188477,
      "learning_rate": 0.0,
      "loss": 2.2195,
      "step": 200
    },
    {
      "epoch": 0.03266372693124286,
      "eval_loss": 1.2477189302444458,
      "eval_runtime": 263.9779,
      "eval_samples_per_second": 9.766,
      "eval_steps_per_second": 2.443,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.719068728773837e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}