{
  "best_metric": 0.2143191248178482,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.7561436672967864,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003780718336483932,
      "grad_norm": 0.2776474058628082,
      "learning_rate": 1.0100000000000002e-05,
      "loss": 0.216,
      "step": 1
    },
    {
      "epoch": 0.003780718336483932,
      "eval_loss": 2.0128848552703857,
      "eval_runtime": 30.9756,
      "eval_samples_per_second": 115.026,
      "eval_steps_per_second": 3.616,
      "step": 1
    },
    {
      "epoch": 0.007561436672967864,
      "grad_norm": 0.8927688598632812,
      "learning_rate": 2.0200000000000003e-05,
      "loss": 0.8155,
      "step": 2
    },
    {
      "epoch": 0.011342155009451797,
      "grad_norm": 1.7943737506866455,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 1.5403,
      "step": 3
    },
    {
      "epoch": 0.015122873345935728,
      "grad_norm": 2.3204939365386963,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 1.9684,
      "step": 4
    },
    {
      "epoch": 0.01890359168241966,
      "grad_norm": 2.207650661468506,
      "learning_rate": 5.05e-05,
      "loss": 1.8871,
      "step": 5
    },
    {
      "epoch": 0.022684310018903593,
      "grad_norm": 2.2568235397338867,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 1.9136,
      "step": 6
    },
    {
      "epoch": 0.026465028355387523,
      "grad_norm": 0.21847207844257355,
      "learning_rate": 7.07e-05,
      "loss": 0.1797,
      "step": 7
    },
    {
      "epoch": 0.030245746691871456,
      "grad_norm": 0.3755481541156769,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.3431,
      "step": 8
    },
    {
      "epoch": 0.034026465028355386,
      "grad_norm": 0.7096770405769348,
      "learning_rate": 9.09e-05,
      "loss": 0.7642,
      "step": 9
    },
    {
      "epoch": 0.03780718336483932,
      "grad_norm": 0.7488306164741516,
      "learning_rate": 0.000101,
      "loss": 0.9202,
      "step": 10
    },
    {
      "epoch": 0.04158790170132325,
      "grad_norm": 0.7785933613777161,
      "learning_rate": 0.00010046842105263158,
      "loss": 0.8253,
      "step": 11
    },
    {
      "epoch": 0.045368620037807186,
      "grad_norm": 0.8660613298416138,
      "learning_rate": 9.993684210526315e-05,
      "loss": 0.7722,
      "step": 12
    },
    {
      "epoch": 0.04914933837429111,
      "grad_norm": 0.5072372555732727,
      "learning_rate": 9.940526315789473e-05,
      "loss": 0.1434,
      "step": 13
    },
    {
      "epoch": 0.052930056710775046,
      "grad_norm": 0.5675486326217651,
      "learning_rate": 9.887368421052632e-05,
      "loss": 0.2038,
      "step": 14
    },
    {
      "epoch": 0.05671077504725898,
      "grad_norm": 0.9036915898323059,
      "learning_rate": 9.83421052631579e-05,
      "loss": 0.4401,
      "step": 15
    },
    {
      "epoch": 0.06049149338374291,
      "grad_norm": 1.1963483095169067,
      "learning_rate": 9.781052631578948e-05,
      "loss": 0.5887,
      "step": 16
    },
    {
      "epoch": 0.06427221172022685,
      "grad_norm": 0.637458324432373,
      "learning_rate": 9.727894736842106e-05,
      "loss": 0.4728,
      "step": 17
    },
    {
      "epoch": 0.06805293005671077,
      "grad_norm": 0.6552077531814575,
      "learning_rate": 9.674736842105263e-05,
      "loss": 0.515,
      "step": 18
    },
    {
      "epoch": 0.07183364839319471,
      "grad_norm": 0.2621625065803528,
      "learning_rate": 9.621578947368421e-05,
      "loss": 0.1331,
      "step": 19
    },
    {
      "epoch": 0.07561436672967864,
      "grad_norm": 0.2746278941631317,
      "learning_rate": 9.568421052631578e-05,
      "loss": 0.1235,
      "step": 20
    },
    {
      "epoch": 0.07939508506616257,
      "grad_norm": 0.3212336599826813,
      "learning_rate": 9.515263157894737e-05,
      "loss": 0.2226,
      "step": 21
    },
    {
      "epoch": 0.0831758034026465,
      "grad_norm": 1.3950210809707642,
      "learning_rate": 9.462105263157895e-05,
      "loss": 0.4221,
      "step": 22
    },
    {
      "epoch": 0.08695652173913043,
      "grad_norm": 0.42385584115982056,
      "learning_rate": 9.408947368421054e-05,
      "loss": 0.3827,
      "step": 23
    },
    {
      "epoch": 0.09073724007561437,
      "grad_norm": 0.5654153227806091,
      "learning_rate": 9.355789473684211e-05,
      "loss": 0.4842,
      "step": 24
    },
    {
      "epoch": 0.0945179584120983,
      "grad_norm": 0.6092789173126221,
      "learning_rate": 9.302631578947369e-05,
      "loss": 0.5612,
      "step": 25
    },
    {
      "epoch": 0.09829867674858223,
      "grad_norm": 0.10935380309820175,
      "learning_rate": 9.249473684210526e-05,
      "loss": 0.0549,
      "step": 26
    },
    {
      "epoch": 0.10207939508506617,
      "grad_norm": 0.306022971868515,
      "learning_rate": 9.196315789473685e-05,
      "loss": 0.2281,
      "step": 27
    },
    {
      "epoch": 0.10586011342155009,
      "grad_norm": 0.4037986397743225,
      "learning_rate": 9.143157894736843e-05,
      "loss": 0.2919,
      "step": 28
    },
    {
      "epoch": 0.10964083175803403,
      "grad_norm": 0.42332723736763,
      "learning_rate": 9.09e-05,
      "loss": 0.3813,
      "step": 29
    },
    {
      "epoch": 0.11342155009451796,
      "grad_norm": 0.4240151345729828,
      "learning_rate": 9.036842105263158e-05,
      "loss": 0.3877,
      "step": 30
    },
    {
      "epoch": 0.11720226843100189,
      "grad_norm": 0.38645580410957336,
      "learning_rate": 8.983684210526316e-05,
      "loss": 0.4673,
      "step": 31
    },
    {
      "epoch": 0.12098298676748583,
      "grad_norm": 0.10314223915338516,
      "learning_rate": 8.930526315789474e-05,
      "loss": 0.0463,
      "step": 32
    },
    {
      "epoch": 0.12476370510396975,
      "grad_norm": 0.16500021517276764,
      "learning_rate": 8.877368421052632e-05,
      "loss": 0.1063,
      "step": 33
    },
    {
      "epoch": 0.1285444234404537,
      "grad_norm": 0.2411479949951172,
      "learning_rate": 8.82421052631579e-05,
      "loss": 0.22,
      "step": 34
    },
    {
      "epoch": 0.1323251417769376,
      "grad_norm": 0.3546068072319031,
      "learning_rate": 8.771052631578948e-05,
      "loss": 0.3276,
      "step": 35
    },
    {
      "epoch": 0.13610586011342155,
      "grad_norm": 0.32265526056289673,
      "learning_rate": 8.717894736842105e-05,
      "loss": 0.3168,
      "step": 36
    },
    {
      "epoch": 0.13988657844990549,
      "grad_norm": 0.4114874005317688,
      "learning_rate": 8.664736842105263e-05,
      "loss": 0.4597,
      "step": 37
    },
    {
      "epoch": 0.14366729678638943,
      "grad_norm": 0.06386609375476837,
      "learning_rate": 8.61157894736842e-05,
      "loss": 0.0539,
      "step": 38
    },
    {
      "epoch": 0.14744801512287334,
      "grad_norm": 0.11466538906097412,
      "learning_rate": 8.55842105263158e-05,
      "loss": 0.0719,
      "step": 39
    },
    {
      "epoch": 0.15122873345935728,
      "grad_norm": 0.22025613486766815,
      "learning_rate": 8.505263157894737e-05,
      "loss": 0.2229,
      "step": 40
    },
    {
      "epoch": 0.15500945179584122,
      "grad_norm": 0.3039408028125763,
      "learning_rate": 8.452105263157896e-05,
      "loss": 0.3134,
      "step": 41
    },
    {
      "epoch": 0.15879017013232513,
      "grad_norm": 0.2704800069332123,
      "learning_rate": 8.398947368421053e-05,
      "loss": 0.2818,
      "step": 42
    },
    {
      "epoch": 0.16257088846880907,
      "grad_norm": 0.3941892981529236,
      "learning_rate": 8.345789473684211e-05,
      "loss": 0.3404,
      "step": 43
    },
    {
      "epoch": 0.166351606805293,
      "grad_norm": 0.06527257710695267,
      "learning_rate": 8.292631578947368e-05,
      "loss": 0.0597,
      "step": 44
    },
    {
      "epoch": 0.17013232514177692,
      "grad_norm": 0.07949891686439514,
      "learning_rate": 8.239473684210526e-05,
      "loss": 0.0554,
      "step": 45
    },
    {
      "epoch": 0.17391304347826086,
      "grad_norm": 0.20099042356014252,
      "learning_rate": 8.186315789473683e-05,
      "loss": 0.1604,
      "step": 46
    },
    {
      "epoch": 0.1776937618147448,
      "grad_norm": 0.2566048800945282,
      "learning_rate": 8.133157894736842e-05,
      "loss": 0.2575,
      "step": 47
    },
    {
      "epoch": 0.18147448015122875,
      "grad_norm": 0.22815081477165222,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.2505,
      "step": 48
    },
    {
      "epoch": 0.18525519848771266,
      "grad_norm": 0.34272095561027527,
      "learning_rate": 8.026842105263159e-05,
      "loss": 0.3342,
      "step": 49
    },
    {
      "epoch": 0.1890359168241966,
      "grad_norm": 0.34190547466278076,
      "learning_rate": 7.973684210526316e-05,
      "loss": 0.3529,
      "step": 50
    },
    {
      "epoch": 0.1890359168241966,
      "eval_loss": 0.2857664227485657,
      "eval_runtime": 29.8081,
      "eval_samples_per_second": 119.531,
      "eval_steps_per_second": 3.757,
      "step": 50
    },
    {
      "epoch": 0.19281663516068054,
      "grad_norm": 0.08004216849803925,
      "learning_rate": 7.920526315789474e-05,
      "loss": 0.0364,
      "step": 51
    },
    {
      "epoch": 0.19659735349716445,
      "grad_norm": 0.1607617288827896,
      "learning_rate": 7.867368421052631e-05,
      "loss": 0.0946,
      "step": 52
    },
    {
      "epoch": 0.2003780718336484,
      "grad_norm": 0.25393086671829224,
      "learning_rate": 7.814210526315789e-05,
      "loss": 0.231,
      "step": 53
    },
    {
      "epoch": 0.20415879017013233,
      "grad_norm": 0.35327452421188354,
      "learning_rate": 7.761052631578946e-05,
      "loss": 0.2798,
      "step": 54
    },
    {
      "epoch": 0.20793950850661624,
      "grad_norm": 0.3119445741176605,
      "learning_rate": 7.707894736842105e-05,
      "loss": 0.2959,
      "step": 55
    },
    {
      "epoch": 0.21172022684310018,
      "grad_norm": 0.4120601713657379,
      "learning_rate": 7.654736842105264e-05,
      "loss": 0.3533,
      "step": 56
    },
    {
      "epoch": 0.21550094517958412,
      "grad_norm": 0.0643743947148323,
      "learning_rate": 7.601578947368422e-05,
      "loss": 0.0372,
      "step": 57
    },
    {
      "epoch": 0.21928166351606806,
      "grad_norm": 0.09276916086673737,
      "learning_rate": 7.548421052631579e-05,
      "loss": 0.0856,
      "step": 58
    },
    {
      "epoch": 0.22306238185255198,
      "grad_norm": 0.1667003184556961,
      "learning_rate": 7.495263157894737e-05,
      "loss": 0.171,
      "step": 59
    },
    {
      "epoch": 0.22684310018903592,
      "grad_norm": 0.2791569232940674,
      "learning_rate": 7.442105263157894e-05,
      "loss": 0.2137,
      "step": 60
    },
    {
      "epoch": 0.23062381852551986,
      "grad_norm": 0.2818446755409241,
      "learning_rate": 7.388947368421053e-05,
      "loss": 0.2748,
      "step": 61
    },
    {
      "epoch": 0.23440453686200377,
      "grad_norm": 0.2816309332847595,
      "learning_rate": 7.335789473684211e-05,
      "loss": 0.2726,
      "step": 62
    },
    {
      "epoch": 0.2381852551984877,
      "grad_norm": 0.07843450456857681,
      "learning_rate": 7.282631578947368e-05,
      "loss": 0.0466,
      "step": 63
    },
    {
      "epoch": 0.24196597353497165,
      "grad_norm": 0.09185236692428589,
      "learning_rate": 7.229473684210527e-05,
      "loss": 0.0627,
      "step": 64
    },
    {
      "epoch": 0.24574669187145556,
      "grad_norm": 0.14683520793914795,
      "learning_rate": 7.176315789473685e-05,
      "loss": 0.1489,
      "step": 65
    },
    {
      "epoch": 0.2495274102079395,
      "grad_norm": 0.25851941108703613,
      "learning_rate": 7.123157894736842e-05,
      "loss": 0.236,
      "step": 66
    },
    {
      "epoch": 0.2533081285444234,
      "grad_norm": 0.3220939040184021,
      "learning_rate": 7.07e-05,
      "loss": 0.2731,
      "step": 67
    },
    {
      "epoch": 0.2570888468809074,
      "grad_norm": 0.264652818441391,
      "learning_rate": 7.016842105263159e-05,
      "loss": 0.258,
      "step": 68
    },
    {
      "epoch": 0.2608695652173913,
      "grad_norm": 0.10519179701805115,
      "learning_rate": 6.963684210526316e-05,
      "loss": 0.0509,
      "step": 69
    },
    {
      "epoch": 0.2646502835538752,
      "grad_norm": 0.07884551584720612,
      "learning_rate": 6.910526315789474e-05,
      "loss": 0.049,
      "step": 70
    },
    {
      "epoch": 0.2684310018903592,
      "grad_norm": 0.11832456290721893,
      "learning_rate": 6.857368421052631e-05,
      "loss": 0.1151,
      "step": 71
    },
    {
      "epoch": 0.2722117202268431,
      "grad_norm": 0.2696699798107147,
      "learning_rate": 6.80421052631579e-05,
      "loss": 0.2352,
      "step": 72
    },
    {
      "epoch": 0.27599243856332706,
      "grad_norm": 0.29604342579841614,
      "learning_rate": 6.751052631578948e-05,
      "loss": 0.2501,
      "step": 73
    },
    {
      "epoch": 0.27977315689981097,
      "grad_norm": 0.3055245876312256,
      "learning_rate": 6.697894736842105e-05,
      "loss": 0.2612,
      "step": 74
    },
    {
      "epoch": 0.2835538752362949,
      "grad_norm": 0.39326199889183044,
      "learning_rate": 6.644736842105264e-05,
      "loss": 0.3471,
      "step": 75
    },
    {
      "epoch": 0.28733459357277885,
      "grad_norm": 0.08074267208576202,
      "learning_rate": 6.591578947368422e-05,
      "loss": 0.0356,
      "step": 76
    },
    {
      "epoch": 0.29111531190926276,
      "grad_norm": 0.16307616233825684,
      "learning_rate": 6.538421052631579e-05,
      "loss": 0.1193,
      "step": 77
    },
    {
      "epoch": 0.2948960302457467,
      "grad_norm": 0.2774163484573364,
      "learning_rate": 6.485263157894737e-05,
      "loss": 0.1944,
      "step": 78
    },
    {
      "epoch": 0.29867674858223064,
      "grad_norm": 0.37557846307754517,
      "learning_rate": 6.432105263157894e-05,
      "loss": 0.2351,
      "step": 79
    },
    {
      "epoch": 0.30245746691871456,
      "grad_norm": 0.32962411642074585,
      "learning_rate": 6.378947368421053e-05,
      "loss": 0.2722,
      "step": 80
    },
    {
      "epoch": 0.30623818525519847,
      "grad_norm": 0.34722137451171875,
      "learning_rate": 6.32578947368421e-05,
      "loss": 0.3177,
      "step": 81
    },
    {
      "epoch": 0.31001890359168244,
      "grad_norm": 0.06398814171552658,
      "learning_rate": 6.27263157894737e-05,
      "loss": 0.0443,
      "step": 82
    },
    {
      "epoch": 0.31379962192816635,
      "grad_norm": 0.07947073876857758,
      "learning_rate": 6.219473684210527e-05,
      "loss": 0.066,
      "step": 83
    },
    {
      "epoch": 0.31758034026465026,
      "grad_norm": 0.20370353758335114,
      "learning_rate": 6.166315789473685e-05,
      "loss": 0.1803,
      "step": 84
    },
    {
      "epoch": 0.32136105860113423,
      "grad_norm": 0.2863129675388336,
      "learning_rate": 6.113157894736842e-05,
      "loss": 0.2293,
      "step": 85
    },
    {
      "epoch": 0.32514177693761814,
      "grad_norm": 0.35408735275268555,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 0.2959,
      "step": 86
    },
    {
      "epoch": 0.32892249527410206,
      "grad_norm": 0.43553024530410767,
      "learning_rate": 6.006842105263158e-05,
      "loss": 0.2971,
      "step": 87
    },
    {
      "epoch": 0.332703213610586,
      "grad_norm": 0.07135424017906189,
      "learning_rate": 5.953684210526315e-05,
      "loss": 0.0476,
      "step": 88
    },
    {
      "epoch": 0.33648393194706994,
      "grad_norm": 0.11859652400016785,
      "learning_rate": 5.900526315789474e-05,
      "loss": 0.0723,
      "step": 89
    },
    {
      "epoch": 0.34026465028355385,
      "grad_norm": 0.1857086718082428,
      "learning_rate": 5.847368421052632e-05,
      "loss": 0.1311,
      "step": 90
    },
    {
      "epoch": 0.3440453686200378,
      "grad_norm": 0.2483491748571396,
      "learning_rate": 5.79421052631579e-05,
      "loss": 0.21,
      "step": 91
    },
    {
      "epoch": 0.34782608695652173,
      "grad_norm": 0.340191513299942,
      "learning_rate": 5.7410526315789475e-05,
      "loss": 0.274,
      "step": 92
    },
    {
      "epoch": 0.3516068052930057,
      "grad_norm": 0.3014258146286011,
      "learning_rate": 5.687894736842105e-05,
      "loss": 0.2856,
      "step": 93
    },
    {
      "epoch": 0.3553875236294896,
      "grad_norm": 0.07521812617778778,
      "learning_rate": 5.6347368421052625e-05,
      "loss": 0.0577,
      "step": 94
    },
    {
      "epoch": 0.3591682419659735,
      "grad_norm": 0.08080480992794037,
      "learning_rate": 5.5815789473684214e-05,
      "loss": 0.0515,
      "step": 95
    },
    {
      "epoch": 0.3629489603024575,
      "grad_norm": 0.1212855726480484,
      "learning_rate": 5.5284210526315796e-05,
      "loss": 0.1105,
      "step": 96
    },
    {
      "epoch": 0.3667296786389414,
      "grad_norm": 0.20727264881134033,
      "learning_rate": 5.475263157894737e-05,
      "loss": 0.191,
      "step": 97
    },
    {
      "epoch": 0.3705103969754253,
      "grad_norm": 0.2673453092575073,
      "learning_rate": 5.422105263157895e-05,
      "loss": 0.2624,
      "step": 98
    },
    {
      "epoch": 0.3742911153119093,
      "grad_norm": 0.3275381624698639,
      "learning_rate": 5.368947368421053e-05,
      "loss": 0.2595,
      "step": 99
    },
    {
      "epoch": 0.3780718336483932,
      "grad_norm": 0.3273058831691742,
      "learning_rate": 5.3157894736842104e-05,
      "loss": 0.3332,
      "step": 100
    },
    {
      "epoch": 0.3780718336483932,
      "eval_loss": 0.24537155032157898,
      "eval_runtime": 30.2236,
      "eval_samples_per_second": 117.888,
      "eval_steps_per_second": 3.706,
      "step": 100
    },
    {
      "epoch": 0.3818525519848771,
      "grad_norm": 0.059818606823682785,
      "learning_rate": 5.262631578947368e-05,
      "loss": 0.032,
      "step": 101
    },
    {
      "epoch": 0.3856332703213611,
      "grad_norm": 0.1320847123861313,
      "learning_rate": 5.209473684210527e-05,
      "loss": 0.1113,
      "step": 102
    },
    {
      "epoch": 0.389413988657845,
      "grad_norm": 0.23023459315299988,
      "learning_rate": 5.1563157894736844e-05,
      "loss": 0.2079,
      "step": 103
    },
    {
      "epoch": 0.3931947069943289,
      "grad_norm": 0.23579943180084229,
      "learning_rate": 5.1031578947368426e-05,
      "loss": 0.2353,
      "step": 104
    },
    {
      "epoch": 0.39697542533081287,
      "grad_norm": 0.26928672194480896,
      "learning_rate": 5.05e-05,
      "loss": 0.2572,
      "step": 105
    },
    {
      "epoch": 0.4007561436672968,
      "grad_norm": 0.3330037295818329,
      "learning_rate": 4.9968421052631576e-05,
      "loss": 0.2777,
      "step": 106
    },
    {
      "epoch": 0.4045368620037807,
      "grad_norm": 0.0755271390080452,
      "learning_rate": 4.943684210526316e-05,
      "loss": 0.0388,
      "step": 107
    },
    {
      "epoch": 0.40831758034026466,
      "grad_norm": 0.10857690125703812,
      "learning_rate": 4.890526315789474e-05,
      "loss": 0.066,
      "step": 108
    },
    {
      "epoch": 0.4120982986767486,
      "grad_norm": 0.22716279327869415,
      "learning_rate": 4.8373684210526316e-05,
      "loss": 0.1529,
      "step": 109
    },
    {
      "epoch": 0.4158790170132325,
      "grad_norm": 0.23240260779857635,
      "learning_rate": 4.784210526315789e-05,
      "loss": 0.2024,
      "step": 110
    },
    {
      "epoch": 0.41965973534971646,
      "grad_norm": 0.254545122385025,
      "learning_rate": 4.731052631578947e-05,
      "loss": 0.2331,
      "step": 111
    },
    {
      "epoch": 0.42344045368620037,
      "grad_norm": 0.31674468517303467,
      "learning_rate": 4.6778947368421055e-05,
      "loss": 0.2823,
      "step": 112
    },
    {
      "epoch": 0.42722117202268434,
      "grad_norm": 0.057891275733709335,
      "learning_rate": 4.624736842105263e-05,
      "loss": 0.037,
      "step": 113
    },
    {
      "epoch": 0.43100189035916825,
      "grad_norm": 0.07178207486867905,
      "learning_rate": 4.571578947368421e-05,
      "loss": 0.0502,
      "step": 114
    },
    {
      "epoch": 0.43478260869565216,
      "grad_norm": 0.17084892094135284,
      "learning_rate": 4.518421052631579e-05,
      "loss": 0.1551,
      "step": 115
    },
    {
      "epoch": 0.43856332703213613,
      "grad_norm": 0.2879685163497925,
      "learning_rate": 4.465263157894737e-05,
      "loss": 0.2175,
      "step": 116
    },
    {
      "epoch": 0.44234404536862004,
      "grad_norm": 0.24649544060230255,
      "learning_rate": 4.412105263157895e-05,
      "loss": 0.2249,
      "step": 117
    },
    {
      "epoch": 0.44612476370510395,
      "grad_norm": 0.305222749710083,
      "learning_rate": 4.358947368421053e-05,
      "loss": 0.2521,
      "step": 118
    },
    {
      "epoch": 0.4499054820415879,
      "grad_norm": 0.05859692394733429,
      "learning_rate": 4.30578947368421e-05,
      "loss": 0.0459,
      "step": 119
    },
    {
      "epoch": 0.45368620037807184,
      "grad_norm": 0.08235650509595871,
      "learning_rate": 4.2526315789473685e-05,
      "loss": 0.0464,
      "step": 120
    },
    {
      "epoch": 0.45746691871455575,
      "grad_norm": 0.12835930287837982,
      "learning_rate": 4.199473684210527e-05,
      "loss": 0.0998,
      "step": 121
    },
    {
      "epoch": 0.4612476370510397,
      "grad_norm": 0.20613369345664978,
      "learning_rate": 4.146315789473684e-05,
      "loss": 0.1922,
      "step": 122
    },
    {
      "epoch": 0.46502835538752363,
      "grad_norm": 0.23829489946365356,
      "learning_rate": 4.093157894736842e-05,
      "loss": 0.2245,
      "step": 123
    },
    {
      "epoch": 0.46880907372400754,
      "grad_norm": 0.24464939534664154,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.2267,
      "step": 124
    },
    {
      "epoch": 0.4725897920604915,
      "grad_norm": 0.34585779905319214,
      "learning_rate": 3.986842105263158e-05,
      "loss": 0.2845,
      "step": 125
    },
    {
      "epoch": 0.4763705103969754,
      "grad_norm": 0.06746263802051544,
      "learning_rate": 3.933684210526316e-05,
      "loss": 0.035,
      "step": 126
    },
    {
      "epoch": 0.48015122873345933,
      "grad_norm": 0.10969050228595734,
      "learning_rate": 3.880526315789473e-05,
      "loss": 0.0838,
      "step": 127
    },
    {
      "epoch": 0.4839319470699433,
      "grad_norm": 0.23313327133655548,
      "learning_rate": 3.827368421052632e-05,
      "loss": 0.166,
      "step": 128
    },
    {
      "epoch": 0.4877126654064272,
      "grad_norm": 0.22980253398418427,
      "learning_rate": 3.7742105263157896e-05,
      "loss": 0.2158,
      "step": 129
    },
    {
      "epoch": 0.4914933837429111,
      "grad_norm": 0.342641144990921,
      "learning_rate": 3.721052631578947e-05,
      "loss": 0.2717,
      "step": 130
    },
    {
      "epoch": 0.4952741020793951,
      "grad_norm": 0.3195633292198181,
      "learning_rate": 3.6678947368421054e-05,
      "loss": 0.2651,
      "step": 131
    },
    {
      "epoch": 0.499054820415879,
      "grad_norm": 0.06400395184755325,
      "learning_rate": 3.6147368421052636e-05,
      "loss": 0.0348,
      "step": 132
    },
    {
      "epoch": 0.502835538752363,
      "grad_norm": 0.1683722287416458,
      "learning_rate": 3.561578947368421e-05,
      "loss": 0.0765,
      "step": 133
    },
    {
      "epoch": 0.5066162570888468,
      "grad_norm": 0.16465729475021362,
      "learning_rate": 3.508421052631579e-05,
      "loss": 0.1415,
      "step": 134
    },
    {
      "epoch": 0.5103969754253308,
      "grad_norm": 0.23305806517601013,
      "learning_rate": 3.455263157894737e-05,
      "loss": 0.1785,
      "step": 135
    },
    {
      "epoch": 0.5141776937618148,
      "grad_norm": 0.27579644322395325,
      "learning_rate": 3.402105263157895e-05,
      "loss": 0.2567,
      "step": 136
    },
    {
      "epoch": 0.5179584120982986,
      "grad_norm": 0.3165864050388336,
      "learning_rate": 3.3489473684210526e-05,
      "loss": 0.2792,
      "step": 137
    },
    {
      "epoch": 0.5217391304347826,
      "grad_norm": 0.05771632120013237,
      "learning_rate": 3.295789473684211e-05,
      "loss": 0.0369,
      "step": 138
    },
    {
      "epoch": 0.5255198487712666,
      "grad_norm": 0.09058260917663574,
      "learning_rate": 3.242631578947368e-05,
      "loss": 0.0573,
      "step": 139
    },
    {
      "epoch": 0.5293005671077504,
      "grad_norm": 0.1685304045677185,
      "learning_rate": 3.1894736842105265e-05,
      "loss": 0.1479,
      "step": 140
    },
    {
      "epoch": 0.5330812854442344,
      "grad_norm": 0.22255757451057434,
      "learning_rate": 3.136315789473685e-05,
      "loss": 0.2033,
      "step": 141
    },
    {
      "epoch": 0.5368620037807184,
      "grad_norm": 0.23406191170215607,
      "learning_rate": 3.083157894736842e-05,
      "loss": 0.2041,
      "step": 142
    },
    {
      "epoch": 0.5406427221172023,
      "grad_norm": 0.28156107664108276,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 0.2402,
      "step": 143
    },
    {
      "epoch": 0.5444234404536862,
      "grad_norm": 0.09606731683015823,
      "learning_rate": 2.9768421052631577e-05,
      "loss": 0.0571,
      "step": 144
    },
    {
      "epoch": 0.5482041587901701,
      "grad_norm": 0.08045537769794464,
      "learning_rate": 2.923684210526316e-05,
      "loss": 0.0464,
      "step": 145
    },
    {
      "epoch": 0.5519848771266541,
      "grad_norm": 0.15177375078201294,
      "learning_rate": 2.8705263157894737e-05,
      "loss": 0.0996,
      "step": 146
    },
    {
      "epoch": 0.555765595463138,
      "grad_norm": 0.24074064195156097,
      "learning_rate": 2.8173684210526313e-05,
      "loss": 0.2102,
      "step": 147
    },
    {
      "epoch": 0.5595463137996219,
      "grad_norm": 0.2502225637435913,
      "learning_rate": 2.7642105263157898e-05,
      "loss": 0.2191,
      "step": 148
    },
    {
      "epoch": 0.5633270321361059,
      "grad_norm": 0.2506784498691559,
      "learning_rate": 2.7110526315789473e-05,
      "loss": 0.215,
      "step": 149
    },
    {
      "epoch": 0.5671077504725898,
      "grad_norm": 0.4029286801815033,
      "learning_rate": 2.6578947368421052e-05,
      "loss": 0.2908,
      "step": 150
    },
    {
      "epoch": 0.5671077504725898,
      "eval_loss": 0.22177568078041077,
      "eval_runtime": 31.0512,
      "eval_samples_per_second": 114.746,
      "eval_steps_per_second": 3.607,
      "step": 150
    },
    {
      "epoch": 0.5708884688090737,
      "grad_norm": 0.05824965983629227,
      "learning_rate": 2.6047368421052634e-05,
      "loss": 0.0313,
      "step": 151
    },
    {
      "epoch": 0.5746691871455577,
      "grad_norm": 0.09856655448675156,
      "learning_rate": 2.5515789473684213e-05,
      "loss": 0.0859,
      "step": 152
    },
    {
      "epoch": 0.5784499054820416,
      "grad_norm": 0.15868844091892242,
      "learning_rate": 2.4984210526315788e-05,
      "loss": 0.1576,
      "step": 153
    },
    {
      "epoch": 0.5822306238185255,
      "grad_norm": 0.19394546747207642,
      "learning_rate": 2.445263157894737e-05,
      "loss": 0.18,
      "step": 154
    },
    {
      "epoch": 0.5860113421550095,
      "grad_norm": 0.2561550438404083,
      "learning_rate": 2.3921052631578946e-05,
      "loss": 0.2357,
      "step": 155
    },
    {
      "epoch": 0.5897920604914934,
      "grad_norm": 0.3054594397544861,
      "learning_rate": 2.3389473684210528e-05,
      "loss": 0.2508,
      "step": 156
    },
    {
      "epoch": 0.5935727788279773,
      "grad_norm": 0.061896566301584244,
      "learning_rate": 2.2857894736842106e-05,
      "loss": 0.0335,
      "step": 157
    },
    {
      "epoch": 0.5973534971644613,
      "grad_norm": 0.10368932038545609,
      "learning_rate": 2.2326315789473685e-05,
      "loss": 0.0793,
      "step": 158
    },
    {
      "epoch": 0.6011342155009451,
      "grad_norm": 0.20871222019195557,
      "learning_rate": 2.1794736842105264e-05,
      "loss": 0.1823,
      "step": 159
    },
    {
      "epoch": 0.6049149338374291,
      "grad_norm": 0.2159244567155838,
      "learning_rate": 2.1263157894736842e-05,
      "loss": 0.1962,
      "step": 160
    },
    {
      "epoch": 0.6086956521739131,
      "grad_norm": 0.25139570236206055,
      "learning_rate": 2.073157894736842e-05,
      "loss": 0.2127,
      "step": 161
    },
    {
      "epoch": 0.6124763705103969,
      "grad_norm": 0.2985757887363434,
      "learning_rate": 2.0200000000000003e-05,
      "loss": 0.2489,
      "step": 162
    },
    {
      "epoch": 0.6162570888468809,
      "grad_norm": 0.06661764532327652,
      "learning_rate": 1.966842105263158e-05,
      "loss": 0.0384,
      "step": 163
    },
    {
      "epoch": 0.6200378071833649,
      "grad_norm": 0.08640998601913452,
      "learning_rate": 1.913684210526316e-05,
      "loss": 0.0571,
      "step": 164
    },
    {
      "epoch": 0.6238185255198487,
      "grad_norm": 0.12299804389476776,
      "learning_rate": 1.8605263157894736e-05,
      "loss": 0.1084,
      "step": 165
    },
    {
      "epoch": 0.6275992438563327,
      "grad_norm": 0.22902430593967438,
      "learning_rate": 1.8073684210526318e-05,
      "loss": 0.1966,
      "step": 166
    },
    {
      "epoch": 0.6313799621928167,
      "grad_norm": 0.30272412300109863,
      "learning_rate": 1.7542105263157897e-05,
      "loss": 0.2248,
      "step": 167
    },
    {
      "epoch": 0.6351606805293005,
      "grad_norm": 0.28684839606285095,
      "learning_rate": 1.7010526315789475e-05,
      "loss": 0.2467,
      "step": 168
    },
    {
      "epoch": 0.6389413988657845,
      "grad_norm": 0.07706702500581741,
      "learning_rate": 1.6478947368421054e-05,
      "loss": 0.0535,
      "step": 169
    },
    {
      "epoch": 0.6427221172022685,
      "grad_norm": 0.07619909197092056,
      "learning_rate": 1.5947368421052633e-05,
      "loss": 0.0448,
      "step": 170
    },
    {
      "epoch": 0.6465028355387523,
      "grad_norm": 0.11198799312114716,
      "learning_rate": 1.541578947368421e-05,
      "loss": 0.097,
      "step": 171
    },
    {
      "epoch": 0.6502835538752363,
      "grad_norm": 0.22149460017681122,
      "learning_rate": 1.4884210526315788e-05,
      "loss": 0.1678,
      "step": 172
    },
    {
      "epoch": 0.6540642722117203,
      "grad_norm": 0.22897721827030182,
      "learning_rate": 1.4352631578947369e-05,
      "loss": 0.2101,
      "step": 173
    },
    {
      "epoch": 0.6578449905482041,
      "grad_norm": 0.26536598801612854,
      "learning_rate": 1.3821052631578949e-05,
      "loss": 0.2079,
      "step": 174
    },
    {
      "epoch": 0.6616257088846881,
      "grad_norm": 0.48938217759132385,
      "learning_rate": 1.3289473684210526e-05,
      "loss": 0.3096,
      "step": 175
    },
    {
      "epoch": 0.665406427221172,
      "grad_norm": 0.06509292870759964,
      "learning_rate": 1.2757894736842106e-05,
      "loss": 0.0282,
      "step": 176
    },
    {
      "epoch": 0.6691871455576559,
      "grad_norm": 0.09729166328907013,
      "learning_rate": 1.2226315789473685e-05,
      "loss": 0.0771,
      "step": 177
    },
    {
      "epoch": 0.6729678638941399,
      "grad_norm": 0.20186547935009003,
      "learning_rate": 1.1694736842105264e-05,
      "loss": 0.1653,
      "step": 178
    },
    {
      "epoch": 0.6767485822306238,
      "grad_norm": 0.2594800293445587,
      "learning_rate": 1.1163157894736842e-05,
      "loss": 0.2057,
      "step": 179
    },
    {
      "epoch": 0.6805293005671077,
      "grad_norm": 0.29257431626319885,
      "learning_rate": 1.0631578947368421e-05,
      "loss": 0.2394,
      "step": 180
    },
    {
      "epoch": 0.6843100189035917,
      "grad_norm": 0.303032249212265,
      "learning_rate": 1.0100000000000002e-05,
      "loss": 0.2552,
      "step": 181
    },
    {
      "epoch": 0.6880907372400756,
      "grad_norm": 0.07493013143539429,
      "learning_rate": 9.56842105263158e-06,
      "loss": 0.044,
      "step": 182
    },
    {
      "epoch": 0.6918714555765595,
      "grad_norm": 0.11968467384576797,
      "learning_rate": 9.036842105263159e-06,
      "loss": 0.0778,
      "step": 183
    },
    {
      "epoch": 0.6956521739130435,
      "grad_norm": 0.2528347671031952,
      "learning_rate": 8.505263157894738e-06,
      "loss": 0.1943,
      "step": 184
    },
    {
      "epoch": 0.6994328922495274,
      "grad_norm": 0.24297292530536652,
      "learning_rate": 7.973684210526316e-06,
      "loss": 0.2147,
      "step": 185
    },
    {
      "epoch": 0.7032136105860114,
      "grad_norm": 0.2818734049797058,
      "learning_rate": 7.442105263157894e-06,
      "loss": 0.2505,
      "step": 186
    },
    {
      "epoch": 0.7069943289224953,
      "grad_norm": 0.2996186912059784,
      "learning_rate": 6.9105263157894745e-06,
      "loss": 0.2567,
      "step": 187
    },
    {
      "epoch": 0.7107750472589792,
      "grad_norm": 0.08377143740653992,
      "learning_rate": 6.378947368421053e-06,
      "loss": 0.0409,
      "step": 188
    },
    {
      "epoch": 0.7145557655954632,
      "grad_norm": 0.09042297303676605,
      "learning_rate": 5.847368421052632e-06,
      "loss": 0.0541,
      "step": 189
    },
    {
      "epoch": 0.718336483931947,
      "grad_norm": 0.12328507751226425,
      "learning_rate": 5.315789473684211e-06,
      "loss": 0.1099,
      "step": 190
    },
    {
      "epoch": 0.722117202268431,
      "grad_norm": 0.24173076450824738,
      "learning_rate": 4.78421052631579e-06,
      "loss": 0.2326,
      "step": 191
    },
    {
      "epoch": 0.725897920604915,
      "grad_norm": 0.2131427675485611,
      "learning_rate": 4.252631578947369e-06,
      "loss": 0.2043,
      "step": 192
    },
    {
      "epoch": 0.7296786389413988,
      "grad_norm": 0.2894384264945984,
      "learning_rate": 3.721052631578947e-06,
      "loss": 0.2401,
      "step": 193
    },
    {
      "epoch": 0.7334593572778828,
      "grad_norm": 0.062252603471279144,
      "learning_rate": 3.1894736842105266e-06,
      "loss": 0.0468,
      "step": 194
    },
    {
      "epoch": 0.7372400756143668,
      "grad_norm": 0.07547438889741898,
      "learning_rate": 2.6578947368421053e-06,
      "loss": 0.0465,
      "step": 195
    },
    {
      "epoch": 0.7410207939508506,
      "grad_norm": 0.140957772731781,
      "learning_rate": 2.1263157894736844e-06,
      "loss": 0.1016,
      "step": 196
    },
    {
      "epoch": 0.7448015122873346,
      "grad_norm": 0.24040064215660095,
      "learning_rate": 1.5947368421052633e-06,
      "loss": 0.2025,
      "step": 197
    },
    {
      "epoch": 0.7485822306238186,
      "grad_norm": 0.23566026985645294,
      "learning_rate": 1.0631578947368422e-06,
      "loss": 0.2075,
      "step": 198
    },
    {
      "epoch": 0.7523629489603024,
      "grad_norm": 0.27770549058914185,
      "learning_rate": 5.315789473684211e-07,
      "loss": 0.2433,
      "step": 199
    },
    {
      "epoch": 0.7561436672967864,
      "grad_norm": 0.4085654020309448,
      "learning_rate": 0.0,
      "loss": 0.2863,
      "step": 200
    },
    {
      "epoch": 0.7561436672967864,
      "eval_loss": 0.2143191248178482,
      "eval_runtime": 31.4144,
      "eval_samples_per_second": 113.419,
      "eval_steps_per_second": 3.565,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.1367969017841582e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}