{
  "best_global_step": 2072,
  "best_metric": 89.937106918239,
  "best_model_checkpoint": "/data/hungnm/unisentiment/roberta-base-sentiment/checkpoint-2072",
  "epoch": 50.0,
  "eval_steps": 500,
  "global_step": 2800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08928571428571429,
      "grad_norm": 59.24269104003906,
      "learning_rate": 8.92857142857143e-06,
      "loss": 2.85,
      "step": 5
    },
    {
      "epoch": 0.17857142857142858,
      "grad_norm": 29.214595794677734,
      "learning_rate": 1.785714285714286e-05,
      "loss": 2.3363,
      "step": 10
    },
    {
      "epoch": 0.26785714285714285,
      "grad_norm": 22.542577743530273,
      "learning_rate": 2.6785714285714288e-05,
      "loss": 2.4922,
      "step": 15
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 142.14141845703125,
      "learning_rate": 3.571428571428572e-05,
      "loss": 2.0449,
      "step": 20
    },
    {
      "epoch": 0.44642857142857145,
      "grad_norm": 7.237235069274902,
      "learning_rate": 4.464285714285715e-05,
      "loss": 1.827,
      "step": 25
    },
    {
      "epoch": 0.5357142857142857,
      "grad_norm": 7.419255256652832,
      "learning_rate": 4.999993577810563e-05,
      "loss": 1.6313,
      "step": 30
    },
    {
      "epoch": 0.625,
      "grad_norm": 6.396734714508057,
      "learning_rate": 4.999921328558333e-05,
      "loss": 1.6582,
      "step": 35
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 10.179349899291992,
      "learning_rate": 4.999768804644796e-05,
      "loss": 1.766,
      "step": 40
    },
    {
      "epoch": 0.8035714285714286,
      "grad_norm": 4.080478191375732,
      "learning_rate": 4.9995360109676296e-05,
      "loss": 1.6039,
      "step": 45
    },
    {
      "epoch": 0.8928571428571429,
      "grad_norm": 46.95652389526367,
      "learning_rate": 4.999222955002041e-05,
      "loss": 1.7658,
      "step": 50
    },
    {
      "epoch": 0.9821428571428571,
      "grad_norm": 13.342621803283691,
      "learning_rate": 4.998829646800533e-05,
      "loss": 1.541,
      "step": 55
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.34518229961395264,
      "eval_macro_f1": 78.41773492091933,
      "eval_macro_precision": 86.07313432835821,
      "eval_macro_recall": 75.09860202167894,
      "eval_micro_f1": 85.84905660377359,
      "eval_micro_precision": 85.84905660377359,
      "eval_micro_recall": 85.84905660377359,
      "eval_runtime": 10.6756,
      "eval_samples_per_second": 148.938,
      "eval_steps_per_second": 2.342,
      "step": 56
    },
    {
      "epoch": 1.0714285714285714,
      "grad_norm": 20.603862762451172,
      "learning_rate": 4.9983560989925736e-05,
      "loss": 1.3594,
      "step": 60
    },
    {
      "epoch": 1.1607142857142858,
      "grad_norm": 8.545742988586426,
      "learning_rate": 4.9978023267841994e-05,
      "loss": 1.3447,
      "step": 65
    },
    {
      "epoch": 1.25,
      "grad_norm": 7.969589710235596,
      "learning_rate": 4.99716834795752e-05,
      "loss": 1.3035,
      "step": 70
    },
    {
      "epoch": 1.3392857142857144,
      "grad_norm": 37.12427520751953,
      "learning_rate": 4.9964541828701506e-05,
      "loss": 1.2727,
      "step": 75
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 61.47677993774414,
      "learning_rate": 4.9956598544545566e-05,
      "loss": 1.4631,
      "step": 80
    },
    {
      "epoch": 1.5178571428571428,
      "grad_norm": 20.555511474609375,
      "learning_rate": 4.994785388217318e-05,
      "loss": 1.7768,
      "step": 85
    },
    {
      "epoch": 1.6071428571428572,
      "grad_norm": 19.720369338989258,
      "learning_rate": 4.993830812238311e-05,
      "loss": 1.4105,
      "step": 90
    },
    {
      "epoch": 1.6964285714285714,
      "grad_norm": 11.87168025970459,
      "learning_rate": 4.9927961571698064e-05,
      "loss": 1.2576,
      "step": 95
    },
    {
      "epoch": 1.7857142857142856,
      "grad_norm": 7.716609001159668,
      "learning_rate": 4.991681456235483e-05,
      "loss": 1.3186,
      "step": 100
    },
    {
      "epoch": 1.875,
      "grad_norm": 4.707287788391113,
      "learning_rate": 4.990486745229364e-05,
      "loss": 1.2502,
      "step": 105
    },
    {
      "epoch": 1.9642857142857144,
      "grad_norm": 7.120730400085449,
      "learning_rate": 4.989212062514664e-05,
      "loss": 1.0652,
      "step": 110
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.3161654770374298,
      "eval_macro_f1": 82.51917393751759,
      "eval_macro_precision": 84.85169367165287,
      "eval_macro_recall": 80.82915005991929,
      "eval_micro_f1": 87.42138364779875,
      "eval_micro_precision": 87.42138364779875,
      "eval_micro_recall": 87.42138364779875,
      "eval_runtime": 1.9934,
      "eval_samples_per_second": 797.637,
      "eval_steps_per_second": 12.541,
      "step": 112
    },
    {
      "epoch": 2.0535714285714284,
      "grad_norm": 9.230934143066406,
      "learning_rate": 4.987857449022561e-05,
      "loss": 1.0412,
      "step": 115
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 4.535208225250244,
      "learning_rate": 4.9864229482508804e-05,
      "loss": 1.0646,
      "step": 120
    },
    {
      "epoch": 2.232142857142857,
      "grad_norm": 39.12550354003906,
      "learning_rate": 4.984908606262696e-05,
      "loss": 1.0901,
      "step": 125
    },
    {
      "epoch": 2.3214285714285716,
      "grad_norm": 18.9006404876709,
      "learning_rate": 4.983314471684853e-05,
      "loss": 1.165,
      "step": 130
    },
    {
      "epoch": 2.4107142857142856,
      "grad_norm": 5.734167098999023,
      "learning_rate": 4.9816405957064106e-05,
      "loss": 1.0594,
      "step": 135
    },
    {
      "epoch": 2.5,
      "grad_norm": 16.50884437561035,
      "learning_rate": 4.9798870320769886e-05,
      "loss": 1.0566,
      "step": 140
    },
    {
      "epoch": 2.5892857142857144,
      "grad_norm": 48.42763900756836,
      "learning_rate": 4.97805383710505e-05,
      "loss": 1.383,
      "step": 145
    },
    {
      "epoch": 2.678571428571429,
      "grad_norm": 19.594017028808594,
      "learning_rate": 4.976141069656091e-05,
      "loss": 1.2805,
      "step": 150
    },
    {
      "epoch": 2.767857142857143,
      "grad_norm": 4.824181079864502,
      "learning_rate": 4.974148791150746e-05,
      "loss": 1.0623,
      "step": 155
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 11.474513053894043,
      "learning_rate": 4.972077065562821e-05,
      "loss": 1.0732,
      "step": 160
    },
    {
      "epoch": 2.946428571428571,
      "grad_norm": 17.615800857543945,
      "learning_rate": 4.96992595941724e-05,
      "loss": 1.0885,
      "step": 165
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.2910524904727936,
      "eval_macro_f1": 83.94523203683508,
      "eval_macro_precision": 84.81357128694967,
      "eval_macro_recall": 83.18583703199087,
      "eval_micro_f1": 88.0503144654088,
      "eval_micro_precision": 88.0503144654088,
      "eval_micro_recall": 88.0503144654088,
      "eval_runtime": 1.8143,
      "eval_samples_per_second": 876.376,
      "eval_steps_per_second": 13.78,
      "step": 168
    },
    {
      "epoch": 3.0357142857142856,
      "grad_norm": 9.219614028930664,
      "learning_rate": 4.967695541787901e-05,
      "loss": 1.0449,
      "step": 170
    },
    {
      "epoch": 3.125,
      "grad_norm": 11.528852462768555,
      "learning_rate": 4.965385884295467e-05,
      "loss": 0.8327,
      "step": 175
    },
    {
      "epoch": 3.2142857142857144,
      "grad_norm": 14.702798843383789,
      "learning_rate": 4.96299706110506e-05,
      "loss": 0.8543,
      "step": 180
    },
    {
      "epoch": 3.3035714285714284,
      "grad_norm": 9.77267837524414,
      "learning_rate": 4.960529148923884e-05,
      "loss": 1.0777,
      "step": 185
    },
    {
      "epoch": 3.392857142857143,
      "grad_norm": 11.903849601745605,
      "learning_rate": 4.9579822269987574e-05,
      "loss": 1.111,
      "step": 190
    },
    {
      "epoch": 3.482142857142857,
      "grad_norm": 15.278186798095703,
      "learning_rate": 4.955356377113574e-05,
      "loss": 0.8274,
      "step": 195
    },
    {
      "epoch": 3.571428571428571,
      "grad_norm": 11.262117385864258,
      "learning_rate": 4.952651683586668e-05,
      "loss": 0.8345,
      "step": 200
    },
    {
      "epoch": 3.6607142857142856,
      "grad_norm": 13.382967948913574,
      "learning_rate": 4.9498682332681174e-05,
      "loss": 0.6874,
      "step": 205
    },
    {
      "epoch": 3.75,
      "grad_norm": 6.932016849517822,
      "learning_rate": 4.947006115536947e-05,
      "loss": 0.7483,
      "step": 210
    },
    {
      "epoch": 3.8392857142857144,
      "grad_norm": 14.735459327697754,
      "learning_rate": 4.944065422298262e-05,
      "loss": 0.8449,
      "step": 215
    },
    {
      "epoch": 3.928571428571429,
      "grad_norm": 7.518039703369141,
      "learning_rate": 4.9410462479802945e-05,
      "loss": 0.8368,
      "step": 220
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.28605297207832336,
      "eval_macro_f1": 83.79635460918196,
      "eval_macro_precision": 88.60881482037983,
      "eval_macro_recall": 80.95314249160404,
      "eval_micro_f1": 88.80503144654088,
      "eval_micro_precision": 88.80503144654088,
      "eval_micro_recall": 88.80503144654088,
      "eval_runtime": 1.9349,
      "eval_samples_per_second": 821.746,
      "eval_steps_per_second": 12.921,
      "step": 224
    },
    {
      "epoch": 4.017857142857143,
      "grad_norm": 16.081928253173828,
      "learning_rate": 4.937948689531373e-05,
      "loss": 0.7979,
      "step": 225
    },
    {
      "epoch": 4.107142857142857,
      "grad_norm": 7.138861179351807,
      "learning_rate": 4.934772846416812e-05,
      "loss": 0.5874,
      "step": 230
    },
    {
      "epoch": 4.196428571428571,
      "grad_norm": 18.04113006591797,
      "learning_rate": 4.931518820615711e-05,
      "loss": 0.5545,
      "step": 235
    },
    {
      "epoch": 4.285714285714286,
      "grad_norm": 13.751228332519531,
      "learning_rate": 4.928186716617686e-05,
      "loss": 0.5696,
      "step": 240
    },
    {
      "epoch": 4.375,
      "grad_norm": 17.97528839111328,
      "learning_rate": 4.924776641419513e-05,
      "loss": 0.625,
      "step": 245
    },
    {
      "epoch": 4.464285714285714,
      "grad_norm": 6.758862495422363,
      "learning_rate": 4.921288704521689e-05,
      "loss": 0.6494,
      "step": 250
    },
    {
      "epoch": 4.553571428571429,
      "grad_norm": 39.63971710205078,
      "learning_rate": 4.917723017924921e-05,
      "loss": 0.7084,
      "step": 255
    },
    {
      "epoch": 4.642857142857143,
      "grad_norm": 22.54784393310547,
      "learning_rate": 4.914079696126526e-05,
      "loss": 0.6685,
      "step": 260
    },
    {
      "epoch": 4.732142857142857,
      "grad_norm": 17.557443618774414,
      "learning_rate": 4.910358856116752e-05,
      "loss": 0.6967,
      "step": 265
    },
    {
      "epoch": 4.821428571428571,
      "grad_norm": 12.355552673339844,
      "learning_rate": 4.90656061737503e-05,
      "loss": 0.7881,
      "step": 270
    },
    {
      "epoch": 4.910714285714286,
      "grad_norm": 14.7780179977417,
      "learning_rate": 4.90268510186613e-05,
      "loss": 0.6595,
      "step": 275
    },
    {
      "epoch": 5.0,
      "grad_norm": 16.71040153503418,
      "learning_rate": 4.898732434036244e-05,
      "loss": 0.7777,
      "step": 280
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.2805473804473877,
      "eval_macro_f1": 85.35613362920841,
      "eval_macro_precision": 87.13597361085554,
      "eval_macro_recall": 83.9505608736378,
      "eval_micro_f1": 89.30817610062893,
      "eval_micro_precision": 89.30817610062893,
      "eval_micro_recall": 89.30817610062893,
      "eval_runtime": 1.8728,
      "eval_samples_per_second": 849.0,
      "eval_steps_per_second": 13.349,
      "step": 280
    },
    {
      "epoch": 5.089285714285714,
      "grad_norm": 12.743489265441895,
      "learning_rate": 4.894702740808995e-05,
      "loss": 0.4128,
      "step": 285
    },
    {
      "epoch": 5.178571428571429,
      "grad_norm": 19.04743766784668,
      "learning_rate": 4.8905961515813604e-05,
      "loss": 0.477,
      "step": 290
    },
    {
      "epoch": 5.267857142857143,
      "grad_norm": 24.844810485839844,
      "learning_rate": 4.886412798219512e-05,
      "loss": 0.4719,
      "step": 295
    },
    {
      "epoch": 5.357142857142857,
      "grad_norm": 9.876107215881348,
      "learning_rate": 4.882152815054587e-05,
      "loss": 0.4332,
      "step": 300
    },
    {
      "epoch": 5.446428571428571,
      "grad_norm": 25.508865356445312,
      "learning_rate": 4.8778163388783724e-05,
      "loss": 0.4225,
      "step": 305
    },
    {
      "epoch": 5.535714285714286,
      "grad_norm": 12.033214569091797,
      "learning_rate": 4.8734035089389115e-05,
      "loss": 0.5101,
      "step": 310
    },
    {
      "epoch": 5.625,
      "grad_norm": 11.438920974731445,
      "learning_rate": 4.8689144669360375e-05,
      "loss": 0.4257,
      "step": 315
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 11.853082656860352,
      "learning_rate": 4.864349357016815e-05,
      "loss": 0.4271,
      "step": 320
    },
    {
      "epoch": 5.803571428571429,
      "grad_norm": 12.522577285766602,
      "learning_rate": 4.8597083257709194e-05,
      "loss": 0.538,
      "step": 325
    },
    {
      "epoch": 5.892857142857143,
      "grad_norm": 6.630044937133789,
      "learning_rate": 4.854991522225923e-05,
      "loss": 0.4855,
      "step": 330
    },
    {
      "epoch": 5.982142857142857,
      "grad_norm": 8.849501609802246,
      "learning_rate": 4.850199097842517e-05,
      "loss": 0.4158,
      "step": 335
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.35284000635147095,
      "eval_macro_f1": 84.31737482203201,
      "eval_macro_precision": 85.56294653855629,
      "eval_macro_recall": 83.27826020133713,
      "eval_micro_f1": 88.42767295597484,
      "eval_micro_precision": 88.42767295597484,
      "eval_micro_recall": 88.42767295597484,
      "eval_runtime": 1.8262,
      "eval_samples_per_second": 870.648,
      "eval_steps_per_second": 13.689,
      "step": 336
    },
    {
      "epoch": 6.071428571428571,
      "grad_norm": 10.551375389099121,
      "learning_rate": 4.84533120650964e-05,
      "loss": 0.2718,
      "step": 340
    },
    {
      "epoch": 6.160714285714286,
      "grad_norm": 11.759309768676758,
      "learning_rate": 4.8403880045395434e-05,
      "loss": 0.2064,
      "step": 345
    },
    {
      "epoch": 6.25,
      "grad_norm": 11.094610214233398,
      "learning_rate": 4.835369650662767e-05,
      "loss": 0.2482,
      "step": 350
    },
    {
      "epoch": 6.339285714285714,
      "grad_norm": 18.329065322875977,
      "learning_rate": 4.8302763060230446e-05,
      "loss": 0.2556,
      "step": 355
    },
    {
      "epoch": 6.428571428571429,
      "grad_norm": 10.95065975189209,
      "learning_rate": 4.825108134172131e-05,
      "loss": 0.318,
      "step": 360
    },
    {
      "epoch": 6.517857142857143,
      "grad_norm": 17.075756072998047,
      "learning_rate": 4.819865301064545e-05,
      "loss": 0.2354,
      "step": 365
    },
    {
      "epoch": 6.607142857142857,
      "grad_norm": 10.705339431762695,
      "learning_rate": 4.814547975052245e-05,
      "loss": 0.2294,
      "step": 370
    },
    {
      "epoch": 6.696428571428571,
      "grad_norm": 31.16196632385254,
      "learning_rate": 4.8091563268792236e-05,
      "loss": 0.2385,
      "step": 375
    },
    {
      "epoch": 6.785714285714286,
      "grad_norm": 15.710704803466797,
      "learning_rate": 4.803690529676019e-05,
      "loss": 0.3026,
      "step": 380
    },
    {
      "epoch": 6.875,
      "grad_norm": 22.431447982788086,
      "learning_rate": 4.798150758954164e-05,
      "loss": 0.3048,
      "step": 385
    },
    {
      "epoch": 6.964285714285714,
      "grad_norm": 10.632715225219727,
      "learning_rate": 4.7925371926005435e-05,
      "loss": 0.3086,
      "step": 390
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.41216832399368286,
      "eval_macro_f1": 85.17808273905835,
      "eval_macro_precision": 88.20624434584586,
      "eval_macro_recall": 83.06807537576768,
      "eval_micro_f1": 89.43396226415095,
      "eval_micro_precision": 89.43396226415095,
      "eval_micro_recall": 89.43396226415095,
      "eval_runtime": 1.8458,
      "eval_samples_per_second": 861.394,
      "eval_steps_per_second": 13.544,
      "step": 392
    },
    {
      "epoch": 7.053571428571429,
      "grad_norm": 11.026453971862793,
      "learning_rate": 4.786850010871684e-05,
      "loss": 0.221,
      "step": 395
    },
    {
      "epoch": 7.142857142857143,
      "grad_norm": 19.100629806518555,
      "learning_rate": 4.781089396387968e-05,
      "loss": 0.1621,
      "step": 400
    },
    {
      "epoch": 7.232142857142857,
      "grad_norm": 17.89957618713379,
      "learning_rate": 4.775255534127766e-05,
      "loss": 0.2228,
      "step": 405
    },
    {
      "epoch": 7.321428571428571,
      "grad_norm": 11.095701217651367,
      "learning_rate": 4.7693486114215015e-05,
      "loss": 0.1461,
      "step": 410
    },
    {
      "epoch": 7.410714285714286,
      "grad_norm": 56.87965393066406,
      "learning_rate": 4.76336881794563e-05,
      "loss": 0.3093,
      "step": 415
    },
    {
      "epoch": 7.5,
      "grad_norm": 18.552824020385742,
      "learning_rate": 4.7573163457165534e-05,
      "loss": 0.3726,
      "step": 420
    },
    {
      "epoch": 7.589285714285714,
      "grad_norm": 28.140094757080078,
      "learning_rate": 4.75119138908445e-05,
      "loss": 0.2765,
      "step": 425
    },
    {
      "epoch": 7.678571428571429,
      "grad_norm": 10.527276039123535,
      "learning_rate": 4.744994144727036e-05,
      "loss": 0.1934,
      "step": 430
    },
    {
      "epoch": 7.767857142857143,
      "grad_norm": 5.746723651885986,
      "learning_rate": 4.738724811643252e-05,
      "loss": 0.1292,
      "step": 435
    },
    {
      "epoch": 7.857142857142857,
      "grad_norm": 12.251644134521484,
      "learning_rate": 4.732383591146869e-05,
      "loss": 0.1795,
      "step": 440
    },
    {
      "epoch": 7.946428571428571,
      "grad_norm": 8.05550765991211,
      "learning_rate": 4.725970686860025e-05,
      "loss": 0.191,
      "step": 445
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.49135711789131165,
      "eval_macro_f1": 84.5839261475176,
      "eval_macro_precision": 86.58899167373744,
      "eval_macro_recall": 83.04834458680612,
      "eval_micro_f1": 88.80503144654088,
      "eval_micro_precision": 88.80503144654088,
      "eval_micro_recall": 88.80503144654088,
      "eval_runtime": 1.8149,
      "eval_samples_per_second": 876.068,
      "eval_steps_per_second": 13.775,
      "step": 448
    },
    {
      "epoch": 8.035714285714286,
      "grad_norm": 10.807100296020508,
      "learning_rate": 4.719486304706687e-05,
      "loss": 0.1643,
      "step": 450
    },
    {
      "epoch": 8.125,
      "grad_norm": 8.784672737121582,
      "learning_rate": 4.712930652906041e-05,
      "loss": 0.1144,
      "step": 455
    },
    {
      "epoch": 8.214285714285714,
      "grad_norm": 18.46906280517578,
      "learning_rate": 4.7063039419658035e-05,
      "loss": 0.0868,
      "step": 460
    },
    {
      "epoch": 8.303571428571429,
      "grad_norm": 6.650496959686279,
      "learning_rate": 4.699606384675459e-05,
      "loss": 0.1557,
      "step": 465
    },
    {
      "epoch": 8.392857142857142,
      "grad_norm": 27.389806747436523,
      "learning_rate": 4.6928381960994336e-05,
      "loss": 0.1858,
      "step": 470
    },
    {
      "epoch": 8.482142857142858,
      "grad_norm": 11.773507118225098,
      "learning_rate": 4.6859995935701855e-05,
      "loss": 0.1233,
      "step": 475
    },
    {
      "epoch": 8.571428571428571,
      "grad_norm": 16.25447654724121,
      "learning_rate": 4.679090796681225e-05,
      "loss": 0.1306,
      "step": 480
    },
    {
      "epoch": 8.660714285714286,
      "grad_norm": 14.601356506347656,
      "learning_rate": 4.6721120272800646e-05,
      "loss": 0.0961,
      "step": 485
    },
    {
      "epoch": 8.75,
      "grad_norm": 9.302750587463379,
      "learning_rate": 4.665063509461097e-05,
      "loss": 0.1043,
      "step": 490
    },
    {
      "epoch": 8.839285714285714,
      "grad_norm": 52.55154800415039,
      "learning_rate": 4.657945469558397e-05,
      "loss": 0.1102,
      "step": 495
    },
    {
      "epoch": 8.928571428571429,
      "grad_norm": 24.64861488342285,
      "learning_rate": 4.6507581361384537e-05,
      "loss": 0.1652,
      "step": 500
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.5782527327537537,
      "eval_macro_f1": 83.94912174439733,
      "eval_macro_precision": 85.74556651650795,
      "eval_macro_recall": 82.54905177982101,
      "eval_micro_f1": 88.30188679245283,
      "eval_micro_precision": 88.30188679245283,
      "eval_micro_recall": 88.30188679245283,
      "eval_runtime": 1.916,
      "eval_samples_per_second": 829.87,
      "eval_steps_per_second": 13.048,
      "step": 504
    },
    {
      "epoch": 9.017857142857142,
      "grad_norm": 2.140636920928955,
      "learning_rate": 4.643501739992833e-05,
      "loss": 0.1599,
      "step": 505
    },
    {
      "epoch": 9.107142857142858,
      "grad_norm": 14.48595905303955,
      "learning_rate": 4.6361765141307645e-05,
      "loss": 0.1669,
      "step": 510
    },
    {
      "epoch": 9.196428571428571,
      "grad_norm": 18.363910675048828,
      "learning_rate": 4.628782693771659e-05,
      "loss": 0.1088,
      "step": 515
    },
    {
      "epoch": 9.285714285714286,
      "grad_norm": 3.3701069355010986,
      "learning_rate": 4.6213205163375586e-05,
      "loss": 0.0675,
      "step": 520
    },
    {
      "epoch": 9.375,
      "grad_norm": 14.012438774108887,
      "learning_rate": 4.613790221445511e-05,
      "loss": 0.0949,
      "step": 525
    },
    {
      "epoch": 9.464285714285714,
      "grad_norm": 7.062801361083984,
      "learning_rate": 4.6061920508998735e-05,
      "loss": 0.182,
      "step": 530
    },
    {
      "epoch": 9.553571428571429,
      "grad_norm": 18.400386810302734,
      "learning_rate": 4.59852624868455e-05,
      "loss": 0.2805,
      "step": 535
    },
    {
      "epoch": 9.642857142857142,
      "grad_norm": 11.67214298248291,
      "learning_rate": 4.5907930609551584e-05,
      "loss": 0.089,
      "step": 540
    },
    {
      "epoch": 9.732142857142858,
      "grad_norm": 18.16691017150879,
      "learning_rate": 4.582992736031123e-05,
      "loss": 0.1596,
      "step": 545
    },
    {
      "epoch": 9.821428571428571,
      "grad_norm": 6.478634834289551,
      "learning_rate": 4.5751255243877015e-05,
      "loss": 0.1941,
      "step": 550
    },
    {
      "epoch": 9.910714285714286,
      "grad_norm": 5.8572096824646,
      "learning_rate": 4.567191678647945e-05,
      "loss": 0.152,
      "step": 555
    },
    {
      "epoch": 10.0,
      "grad_norm": 28.061464309692383,
      "learning_rate": 4.559191453574582e-05,
      "loss": 0.1177,
      "step": 560
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.5562991499900818,
      "eval_macro_f1": 83.77790670583238,
      "eval_macro_precision": 83.0857567614838,
      "eval_macro_recall": 84.57436534359611,
      "eval_micro_f1": 87.35849056603774,
      "eval_micro_precision": 87.35849056603774,
      "eval_micro_recall": 87.35849056603774,
      "eval_runtime": 2.3477,
      "eval_samples_per_second": 677.264,
      "eval_steps_per_second": 10.649,
      "step": 560
    },
    {
      "epoch": 10.089285714285714,
      "grad_norm": 7.564888954162598,
      "learning_rate": 4.55112510606184e-05,
      "loss": 0.0341,
      "step": 565
    },
    {
      "epoch": 10.178571428571429,
      "grad_norm": 8.534261703491211,
      "learning_rate": 4.542992895127195e-05,
      "loss": 0.0521,
      "step": 570
    },
    {
      "epoch": 10.267857142857142,
      "grad_norm": 13.397907257080078,
      "learning_rate": 4.534795081903056e-05,
      "loss": 0.0723,
      "step": 575
    },
    {
      "epoch": 10.357142857142858,
      "grad_norm": 22.610706329345703,
      "learning_rate": 4.526531929628379e-05,
      "loss": 0.1207,
      "step": 580
    },
    {
      "epoch": 10.446428571428571,
      "grad_norm": 7.134080410003662,
      "learning_rate": 4.518203703640214e-05,
      "loss": 0.056,
      "step": 585
    },
    {
      "epoch": 10.535714285714286,
      "grad_norm": 12.124205589294434,
      "learning_rate": 4.5098106713651846e-05,
      "loss": 0.1325,
      "step": 590
    },
    {
      "epoch": 10.625,
      "grad_norm": 4.9503583908081055,
      "learning_rate": 4.5013531023109014e-05,
      "loss": 0.1044,
      "step": 595
    },
    {
      "epoch": 10.714285714285714,
      "grad_norm": 19.115802764892578,
      "learning_rate": 4.4928312680573064e-05,
      "loss": 0.0675,
      "step": 600
    },
    {
      "epoch": 10.803571428571429,
      "grad_norm": 18.239246368408203,
      "learning_rate": 4.484245442247955e-05,
      "loss": 0.1275,
      "step": 605
    },
    {
      "epoch": 10.892857142857142,
      "grad_norm": 12.322056770324707,
      "learning_rate": 4.4755959005812256e-05,
      "loss": 0.1087,
      "step": 610
    },
    {
      "epoch": 10.982142857142858,
      "grad_norm": 10.249615669250488,
      "learning_rate": 4.4668829208014705e-05,
      "loss": 0.1236,
      "step": 615
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.7119177579879761,
      "eval_macro_f1": 82.11289781379863,
      "eval_macro_precision": 80.6222110582464,
      "eval_macro_recall": 84.43458828074213,
      "eval_micro_f1": 85.47169811320755,
      "eval_micro_precision": 85.47169811320755,
      "eval_micro_recall": 85.47169811320755,
      "eval_runtime": 2.1826,
      "eval_samples_per_second": 728.484,
      "eval_steps_per_second": 11.454,
      "step": 616
    },
    {
      "epoch": 11.071428571428571,
      "grad_norm": 7.2919440269470215,
      "learning_rate": 4.458106782690094e-05,
      "loss": 0.3132,
      "step": 620
    },
    {
      "epoch": 11.160714285714286,
      "grad_norm": 4.609331130981445,
      "learning_rate": 4.4492677680565696e-05,
      "loss": 0.0392,
      "step": 625
    },
    {
      "epoch": 11.25,
      "grad_norm": 11.323241233825684,
      "learning_rate": 4.440366160729392e-05,
      "loss": 0.0863,
      "step": 630
    },
    {
      "epoch": 11.339285714285714,
      "grad_norm": 7.759965896606445,
      "learning_rate": 4.431402246546962e-05,
      "loss": 0.0227,
      "step": 635
    },
    {
      "epoch": 11.428571428571429,
      "grad_norm": 10.826987266540527,
      "learning_rate": 4.422376313348405e-05,
      "loss": 0.0385,
      "step": 640
    },
    {
      "epoch": 11.517857142857142,
      "grad_norm": 6.147857189178467,
      "learning_rate": 4.413288650964337e-05,
      "loss": 0.0684,
      "step": 645
    },
    {
      "epoch": 11.607142857142858,
      "grad_norm": 6.45582914352417,
      "learning_rate": 4.4041395512075464e-05,
      "loss": 0.0503,
      "step": 650
    },
    {
      "epoch": 11.696428571428571,
      "grad_norm": 23.845369338989258,
      "learning_rate": 4.394929307863633e-05,
      "loss": 0.0553,
      "step": 655
    },
    {
      "epoch": 11.785714285714286,
      "grad_norm": 11.343393325805664,
      "learning_rate": 4.385658216681569e-05,
      "loss": 0.0788,
      "step": 660
    },
    {
      "epoch": 11.875,
      "grad_norm": 9.691651344299316,
      "learning_rate": 4.3763265753642055e-05,
      "loss": 0.1661,
      "step": 665
    },
    {
      "epoch": 11.964285714285714,
      "grad_norm": 33.286651611328125,
      "learning_rate": 4.36693468355871e-05,
      "loss": 0.058,
      "step": 670
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.6721820831298828,
      "eval_macro_f1": 84.28322715184908,
      "eval_macro_precision": 85.15999991284815,
      "eval_macro_recall": 83.51606813145274,
      "eval_micro_f1": 88.30188679245283,
      "eval_micro_precision": 88.30188679245283,
      "eval_micro_recall": 88.30188679245283,
      "eval_runtime": 2.0425,
      "eval_samples_per_second": 778.444,
      "eval_steps_per_second": 12.24,
      "step": 672
    },
    {
      "epoch": 12.053571428571429,
      "grad_norm": 1.1854312419891357,
      "learning_rate": 4.357482842846946e-05,
      "loss": 0.0744,
      "step": 675
    },
    {
      "epoch": 12.142857142857142,
      "grad_norm": 13.661476135253906,
      "learning_rate": 4.3479713567357886e-05,
      "loss": 0.0436,
      "step": 680
    },
    {
      "epoch": 12.232142857142858,
      "grad_norm": 9.265774726867676,
      "learning_rate": 4.338400530647382e-05,
      "loss": 0.077,
      "step": 685
    },
    {
      "epoch": 12.321428571428571,
      "grad_norm": 1.9117738008499146,
      "learning_rate": 4.328770671909323e-05,
      "loss": 0.0637,
      "step": 690
    },
    {
      "epoch": 12.410714285714286,
      "grad_norm": 10.00926399230957,
      "learning_rate": 4.319082089744804e-05,
      "loss": 0.0254,
      "step": 695
    },
    {
      "epoch": 12.5,
      "grad_norm": 9.133126258850098,
      "learning_rate": 4.309335095262676e-05,
      "loss": 0.0579,
      "step": 700
    },
    {
      "epoch": 12.589285714285714,
      "grad_norm": 12.192875862121582,
      "learning_rate": 4.299530001447459e-05,
      "loss": 0.0787,
      "step": 705
    },
    {
      "epoch": 12.678571428571429,
      "grad_norm": 9.46296501159668,
      "learning_rate": 4.2896671231492966e-05,
      "loss": 0.0822,
      "step": 710
    },
    {
      "epoch": 12.767857142857142,
      "grad_norm": 20.78971290588379,
      "learning_rate": 4.27974677707384e-05,
      "loss": 0.0967,
      "step": 715
    },
    {
      "epoch": 12.857142857142858,
      "grad_norm": 4.571549415588379,
      "learning_rate": 4.269769281772082e-05,
      "loss": 0.1071,
      "step": 720
    },
    {
      "epoch": 12.946428571428571,
      "grad_norm": 14.227160453796387,
      "learning_rate": 4.259734957630127e-05,
      "loss": 0.0767,
      "step": 725
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.663281261920929,
      "eval_macro_f1": 84.36653757838053,
      "eval_macro_precision": 86.22744226866327,
      "eval_macro_recall": 82.9215483061637,
      "eval_micro_f1": 88.61635220125787,
      "eval_micro_precision": 88.61635220125787,
      "eval_micro_recall": 88.61635220125787,
      "eval_runtime": 1.9979,
      "eval_samples_per_second": 795.816,
      "eval_steps_per_second": 12.513,
      "step": 728
    },
    {
      "epoch": 13.035714285714286,
      "grad_norm": 9.426419258117676,
      "learning_rate": 4.2496441268589046e-05,
      "loss": 0.0781,
      "step": 730
    },
    {
      "epoch": 13.125,
      "grad_norm": 19.891582489013672,
      "learning_rate": 4.239497113483819e-05,
      "loss": 0.0603,
      "step": 735
    },
    {
      "epoch": 13.214285714285714,
      "grad_norm": 6.893115043640137,
      "learning_rate": 4.22929424333435e-05,
      "loss": 0.0334,
      "step": 740
    },
    {
      "epoch": 13.303571428571429,
      "grad_norm": 3.4693875312805176,
      "learning_rate": 4.219035844033583e-05,
      "loss": 0.0515,
      "step": 745
    },
    {
      "epoch": 13.392857142857142,
      "grad_norm": 9.117530822753906,
      "learning_rate": 4.208722244987698e-05,
      "loss": 0.0438,
      "step": 750
    },
    {
      "epoch": 13.482142857142858,
      "grad_norm": 7.665452480316162,
      "learning_rate": 4.198353777375384e-05,
      "loss": 0.0323,
      "step": 755
    },
    {
      "epoch": 13.571428571428571,
      "grad_norm": 9.480864524841309,
      "learning_rate": 4.187930774137209e-05,
      "loss": 0.04,
      "step": 760
    },
    {
      "epoch": 13.660714285714286,
      "grad_norm": 8.460432052612305,
      "learning_rate": 4.1774535699649255e-05,
      "loss": 0.035,
      "step": 765
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.8143876791000366,
      "learning_rate": 4.166922501290729e-05,
      "loss": 0.0417,
      "step": 770
    },
    {
      "epoch": 13.839285714285714,
      "grad_norm": 18.344676971435547,
      "learning_rate": 4.156337906276449e-05,
      "loss": 0.1389,
      "step": 775
    },
    {
      "epoch": 13.928571428571429,
      "grad_norm": 15.893628120422363,
      "learning_rate": 4.145700124802693e-05,
      "loss": 0.0607,
      "step": 780
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.6969339847564697,
      "eval_macro_f1": 85.3983643196325,
      "eval_macro_precision": 85.17815944629582,
      "eval_macro_recall": 85.62705485782409,
      "eval_micro_f1": 88.80503144654088,
      "eval_micro_precision": 88.80503144654088,
      "eval_micro_recall": 88.80503144654088,
      "eval_runtime": 2.0363,
      "eval_samples_per_second": 780.832,
      "eval_steps_per_second": 12.277,
      "step": 784
    },
    {
      "epoch": 14.017857142857142,
      "grad_norm": 3.4685308933258057,
      "learning_rate": 4.135009498457931e-05,
      "loss": 0.0951,
      "step": 785
    },
    {
      "epoch": 14.107142857142858,
      "grad_norm": 5.312774658203125,
      "learning_rate": 4.124266370527531e-05,
      "loss": 0.017,
      "step": 790
    },
    {
      "epoch": 14.196428571428571,
      "grad_norm": 16.61371421813965,
      "learning_rate": 4.11347108598273e-05,
      "loss": 0.0694,
      "step": 795
    },
    {
      "epoch": 14.285714285714286,
      "grad_norm": 0.9555211663246155,
      "learning_rate": 4.1026239914695617e-05,
      "loss": 0.016,
      "step": 800
    },
    {
      "epoch": 14.375,
      "grad_norm": 11.234779357910156,
      "learning_rate": 4.0917254352977206e-05,
      "loss": 0.0538,
      "step": 805
    },
    {
      "epoch": 14.464285714285714,
      "grad_norm": 21.127065658569336,
      "learning_rate": 4.0807757674293834e-05,
      "loss": 0.1221,
      "step": 810
    },
    {
      "epoch": 14.553571428571429,
      "grad_norm": 19.199129104614258,
      "learning_rate": 4.069775339467966e-05,
      "loss": 0.1065,
      "step": 815
    },
    {
      "epoch": 14.642857142857142,
      "grad_norm": 20.038087844848633,
      "learning_rate": 4.058724504646834e-05,
      "loss": 0.0733,
      "step": 820
    },
    {
      "epoch": 14.732142857142858,
      "grad_norm": 9.910551071166992,
      "learning_rate": 4.047623617817965e-05,
      "loss": 0.0645,
      "step": 825
    },
    {
      "epoch": 14.821428571428571,
      "grad_norm": 13.347238540649414,
      "learning_rate": 4.0364730354405475e-05,
      "loss": 0.1127,
      "step": 830
    },
    {
      "epoch": 14.910714285714286,
      "grad_norm": 39.92618942260742,
      "learning_rate": 4.0252731155695396e-05,
      "loss": 0.0883,
      "step": 835
    },
    {
      "epoch": 15.0,
      "grad_norm": 8.375712394714355,
      "learning_rate": 4.014024217844167e-05,
      "loss": 0.066,
      "step": 840
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.9945361614227295,
      "eval_macro_f1": 83.19661865450335,
      "eval_macro_precision": 89.30070883315157,
      "eval_macro_recall": 79.93991455529917,
      "eval_micro_f1": 88.61635220125787,
      "eval_micro_precision": 88.61635220125787,
      "eval_micro_recall": 88.61635220125787,
      "eval_runtime": 1.747,
      "eval_samples_per_second": 910.121,
      "eval_steps_per_second": 14.31,
      "step": 840
    },
    {
      "epoch": 15.089285714285714,
      "grad_norm": 1.6275001764297485,
      "learning_rate": 4.0027267034763796e-05,
      "loss": 0.0499,
      "step": 845
    },
    {
      "epoch": 15.178571428571429,
      "grad_norm": 11.117130279541016,
      "learning_rate": 3.9913809352392474e-05,
      "loss": 0.0465,
      "step": 850
    },
    {
      "epoch": 15.267857142857142,
      "grad_norm": 1.5368372201919556,
      "learning_rate": 3.979987277455317e-05,
      "loss": 0.031,
      "step": 855
    },
    {
      "epoch": 15.357142857142858,
      "grad_norm": 2.8059964179992676,
      "learning_rate": 3.9685460959849105e-05,
      "loss": 0.0134,
      "step": 860
    },
    {
      "epoch": 15.446428571428571,
      "grad_norm": 0.37871724367141724,
      "learning_rate": 3.9570577582143756e-05,
      "loss": 0.026,
      "step": 865
    },
    {
      "epoch": 15.535714285714286,
      "grad_norm": 4.849483489990234,
      "learning_rate": 3.945522633044289e-05,
      "loss": 0.0582,
      "step": 870
    },
    {
      "epoch": 15.625,
      "grad_norm": 4.785881996154785,
      "learning_rate": 3.933941090877615e-05,
      "loss": 0.0239,
      "step": 875
    },
    {
      "epoch": 15.714285714285714,
      "grad_norm": 5.867705821990967,
      "learning_rate": 3.9223135036078064e-05,
      "loss": 0.0506,
      "step": 880
    },
    {
      "epoch": 15.803571428571429,
      "grad_norm": 5.988280296325684,
      "learning_rate": 3.910640244606863e-05,
      "loss": 0.0406,
      "step": 885
    },
    {
      "epoch": 15.892857142857142,
      "grad_norm": 10.76251220703125,
      "learning_rate": 3.898921688713346e-05,
      "loss": 0.033,
      "step": 890
    },
    {
      "epoch": 15.982142857142858,
      "grad_norm": 10.54697322845459,
      "learning_rate": 3.88715821222034e-05,
      "loss": 0.0474,
      "step": 895
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.8277662992477417,
      "eval_macro_f1": 84.62665166292602,
      "eval_macro_precision": 84.3093535297127,
      "eval_macro_recall": 84.96264650110804,
      "eval_micro_f1": 88.17610062893083,
      "eval_micro_precision": 88.17610062893083,
      "eval_micro_recall": 88.17610062893083,
      "eval_runtime": 1.7038,
      "eval_samples_per_second": 933.188,
      "eval_steps_per_second": 14.673,
      "step": 896
    },
    {
      "epoch": 16.071428571428573,
      "grad_norm": 0.2526906728744507,
      "learning_rate": 3.875350192863368e-05,
      "loss": 0.028,
      "step": 900
    },
    {
      "epoch": 16.160714285714285,
      "grad_norm": 4.583995819091797,
      "learning_rate": 3.863498009808263e-05,
      "loss": 0.0262,
      "step": 905
    },
    {
      "epoch": 16.25,
      "grad_norm": 2.2302212715148926,
      "learning_rate": 3.851602043638994e-05,
      "loss": 0.0297,
      "step": 910
    },
    {
      "epoch": 16.339285714285715,
      "grad_norm": 4.950682163238525,
      "learning_rate": 3.839662676345445e-05,
      "loss": 0.0802,
      "step": 915
    },
    {
      "epoch": 16.428571428571427,
      "grad_norm": 1.306373953819275,
      "learning_rate": 3.827680291311143e-05,
      "loss": 0.0683,
      "step": 920
    },
    {
      "epoch": 16.517857142857142,
      "grad_norm": 3.978598117828369,
      "learning_rate": 3.81565527330096e-05,
      "loss": 0.0467,
      "step": 925
    },
    {
      "epoch": 16.607142857142858,
      "grad_norm": 31.76022720336914,
      "learning_rate": 3.803588008448745e-05,
      "loss": 0.0599,
      "step": 930
    },
    {
      "epoch": 16.696428571428573,
      "grad_norm": 10.791604042053223,
      "learning_rate": 3.791478884244931e-05,
      "loss": 0.0811,
      "step": 935
    },
    {
      "epoch": 16.785714285714285,
      "grad_norm": 7.506629467010498,
      "learning_rate": 3.7793282895240926e-05,
      "loss": 0.2063,
      "step": 940
    },
    {
      "epoch": 16.875,
      "grad_norm": 2.9035871028900146,
      "learning_rate": 3.767136614452458e-05,
      "loss": 0.1391,
      "step": 945
    },
    {
      "epoch": 16.964285714285715,
      "grad_norm": 7.189354419708252,
      "learning_rate": 3.75490425051538e-05,
      "loss": 0.0634,
      "step": 950
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.7015231847763062,
      "eval_macro_f1": 83.68481902838367,
      "eval_macro_precision": 83.01537542916853,
      "eval_macro_recall": 84.45151522074599,
      "eval_micro_f1": 87.29559748427673,
      "eval_micro_precision": 87.29559748427673,
      "eval_micro_recall": 87.29559748427673,
      "eval_runtime": 1.6913,
      "eval_samples_per_second": 940.118,
      "eval_steps_per_second": 14.782,
      "step": 952
    },
    {
      "epoch": 17.053571428571427,
      "grad_norm": 3.729951858520508,
      "learning_rate": 3.7426315905047696e-05,
      "loss": 0.0609,
      "step": 955
    },
    {
      "epoch": 17.142857142857142,
      "grad_norm": 2.013429880142212,
      "learning_rate": 3.7303190285064776e-05,
      "loss": 0.0077,
      "step": 960
    },
    {
      "epoch": 17.232142857142858,
      "grad_norm": 1.032761573791504,
      "learning_rate": 3.717966959887643e-05,
      "loss": 0.0287,
      "step": 965
    },
    {
      "epoch": 17.321428571428573,
      "grad_norm": 10.677305221557617,
      "learning_rate": 3.705575781283999e-05,
      "loss": 0.0242,
      "step": 970
    },
    {
      "epoch": 17.410714285714285,
      "grad_norm": 3.170926809310913,
      "learning_rate": 3.6931458905871314e-05,
      "loss": 0.0576,
      "step": 975
    },
    {
      "epoch": 17.5,
      "grad_norm": 1.3387705087661743,
      "learning_rate": 3.680677686931707e-05,
      "loss": 0.0022,
      "step": 980
    },
    {
      "epoch": 17.589285714285715,
      "grad_norm": 8.100290298461914,
      "learning_rate": 3.668171570682655e-05,
      "loss": 0.0199,
      "step": 985
    },
    {
      "epoch": 17.678571428571427,
      "grad_norm": 4.04311990737915,
      "learning_rate": 3.6556279434223116e-05,
      "loss": 0.0149,
      "step": 990
    },
    {
      "epoch": 17.767857142857142,
      "grad_norm": 0.5880358815193176,
      "learning_rate": 3.6430472079375234e-05,
      "loss": 0.0169,
      "step": 995
    },
    {
      "epoch": 17.857142857142858,
      "grad_norm": 1.5214190483093262,
      "learning_rate": 3.6304297682067144e-05,
      "loss": 0.0209,
      "step": 1000
    },
    {
      "epoch": 17.946428571428573,
      "grad_norm": 8.436260223388672,
      "learning_rate": 3.617776029386916e-05,
      "loss": 0.0188,
      "step": 1005
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.9059441089630127,
      "eval_macro_f1": 85.13226593607345,
      "eval_macro_precision": 85.78507737593169,
      "eval_macro_recall": 84.54113454113454,
      "eval_micro_f1": 88.86792452830188,
      "eval_micro_precision": 88.86792452830188,
      "eval_micro_recall": 88.86792452830188,
      "eval_runtime": 1.7254,
      "eval_samples_per_second": 921.533,
      "eval_steps_per_second": 14.49,
      "step": 1008
    },
    {
      "epoch": 18.035714285714285,
      "grad_norm": 0.06204601749777794,
      "learning_rate": 3.605086397800753e-05,
      "loss": 0.0242,
      "step": 1010
    },
    {
      "epoch": 18.125,
      "grad_norm": 0.5178263783454895,
      "learning_rate": 3.592361280923399e-05,
      "loss": 0.0073,
      "step": 1015
    },
    {
      "epoch": 18.214285714285715,
      "grad_norm": 2.0144951343536377,
      "learning_rate": 3.579601087369492e-05,
      "loss": 0.0149,
      "step": 1020
    },
    {
      "epoch": 18.303571428571427,
      "grad_norm": 1.788545846939087,
      "learning_rate": 3.566806226880012e-05,
      "loss": 0.0193,
      "step": 1025
    },
    {
      "epoch": 18.392857142857142,
      "grad_norm": 5.27187442779541,
      "learning_rate": 3.553977110309125e-05,
      "loss": 0.0089,
      "step": 1030
    },
    {
      "epoch": 18.482142857142858,
      "grad_norm": 0.5820537209510803,
      "learning_rate": 3.5411141496109904e-05,
      "loss": 0.0248,
      "step": 1035
    },
    {
      "epoch": 18.571428571428573,
      "grad_norm": 5.2609710693359375,
      "learning_rate": 3.5282177578265296e-05,
      "loss": 0.0329,
      "step": 1040
    },
    {
      "epoch": 18.660714285714285,
      "grad_norm": 9.395613670349121,
      "learning_rate": 3.5152883490701684e-05,
      "loss": 0.0277,
      "step": 1045
    },
    {
      "epoch": 18.75,
      "grad_norm": 16.66202735900879,
      "learning_rate": 3.502326338516534e-05,
      "loss": 0.035,
      "step": 1050
    },
    {
      "epoch": 18.839285714285715,
      "grad_norm": 4.464576721191406,
      "learning_rate": 3.48933214238713e-05,
      "loss": 0.0427,
      "step": 1055
    },
    {
      "epoch": 18.928571428571427,
      "grad_norm": 2.8455142974853516,
      "learning_rate": 3.476306177936961e-05,
      "loss": 0.028,
      "step": 1060
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.9811861515045166,
      "eval_macro_f1": 85.30339277946933,
      "eval_macro_precision": 87.2576209004239,
      "eval_macro_recall": 83.78939148169917,
      "eval_micro_f1": 89.30817610062893,
      "eval_micro_precision": 89.30817610062893,
      "eval_micro_recall": 89.30817610062893,
      "eval_runtime": 1.8833,
      "eval_samples_per_second": 844.274,
      "eval_steps_per_second": 13.275,
      "step": 1064
    },
    {
      "epoch": 19.017857142857142,
      "grad_norm": 0.4936154782772064,
      "learning_rate": 3.463248863441145e-05,
      "loss": 0.0573,
      "step": 1065
    },
    {
      "epoch": 19.107142857142858,
      "grad_norm": 7.516551971435547,
      "learning_rate": 3.450160618181476e-05,
      "loss": 0.0142,
      "step": 1070
    },
    {
      "epoch": 19.196428571428573,
      "grad_norm": 0.28197282552719116,
      "learning_rate": 3.43704186243296e-05,
      "loss": 0.0059,
      "step": 1075
    },
    {
      "epoch": 19.285714285714285,
      "grad_norm": 0.0721740797162056,
      "learning_rate": 3.4238930174503245e-05,
      "loss": 0.0043,
      "step": 1080
    },
    {
      "epoch": 19.375,
      "grad_norm": 11.249062538146973,
      "learning_rate": 3.4107145054544857e-05,
      "loss": 0.0968,
      "step": 1085
    },
    {
      "epoch": 19.464285714285715,
      "grad_norm": 1.9606690406799316,
      "learning_rate": 3.3975067496189965e-05,
      "loss": 0.0169,
      "step": 1090
    },
    {
      "epoch": 19.553571428571427,
      "grad_norm": 16.80199432373047,
      "learning_rate": 3.3842701740564534e-05,
      "loss": 0.0422,
      "step": 1095
    },
    {
      "epoch": 19.642857142857142,
      "grad_norm": 14.884848594665527,
      "learning_rate": 3.37100520380488e-05,
      "loss": 0.0665,
      "step": 1100
    },
    {
      "epoch": 19.732142857142858,
      "grad_norm": 8.680991172790527,
      "learning_rate": 3.357712264814077e-05,
      "loss": 0.0675,
      "step": 1105
    },
    {
      "epoch": 19.821428571428573,
      "grad_norm": 4.685244560241699,
      "learning_rate": 3.344391783931947e-05,
      "loss": 0.0494,
      "step": 1110
    },
    {
      "epoch": 19.910714285714285,
      "grad_norm": 10.966636657714844,
      "learning_rate": 3.331044188890788e-05,
      "loss": 0.0193,
      "step": 1115
    },
    {
      "epoch": 20.0,
      "grad_norm": 18.55583381652832,
      "learning_rate": 3.3176699082935545e-05,
      "loss": 0.0704,
      "step": 1120
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.9311222434043884,
      "eval_macro_f1": 84.58923756150028,
      "eval_macro_precision": 84.91129891883661,
      "eval_macro_recall": 84.28359582205735,
      "eval_micro_f1": 88.36477987421384,
      "eval_micro_precision": 88.36477987421384,
      "eval_micro_recall": 88.36477987421384,
      "eval_runtime": 1.7297,
      "eval_samples_per_second": 919.235,
      "eval_steps_per_second": 14.453,
      "step": 1120
    },
    {
      "epoch": 20.089285714285715,
      "grad_norm": 0.6181861758232117,
      "learning_rate": 3.304269371600099e-05,
      "loss": 0.0264,
      "step": 1125
    },
    {
      "epoch": 20.178571428571427,
      "grad_norm": 0.6055905818939209,
      "learning_rate": 3.290843009113382e-05,
      "loss": 0.0312,
      "step": 1130
    },
    {
      "epoch": 20.267857142857142,
      "grad_norm": 4.4057111740112305,
      "learning_rate": 3.277391251965649e-05,
      "loss": 0.0124,
      "step": 1135
    },
    {
      "epoch": 20.357142857142858,
      "grad_norm": 3.0049655437469482,
      "learning_rate": 3.263914532104593e-05,
      "loss": 0.0175,
      "step": 1140
    },
    {
      "epoch": 20.446428571428573,
      "grad_norm": 10.01473331451416,
      "learning_rate": 3.250413282279482e-05,
      "loss": 0.0172,
      "step": 1145
    },
    {
      "epoch": 20.535714285714285,
      "grad_norm": 3.3975746631622314,
      "learning_rate": 3.2368879360272606e-05,
      "loss": 0.0223,
      "step": 1150
    },
    {
      "epoch": 20.625,
      "grad_norm": 3.1504733562469482,
      "learning_rate": 3.223338927658632e-05,
      "loss": 0.0046,
      "step": 1155
    },
    {
      "epoch": 20.714285714285715,
      "grad_norm": 7.759596347808838,
      "learning_rate": 3.20976669224411e-05,
      "loss": 0.0194,
      "step": 1160
    },
    {
      "epoch": 20.803571428571427,
      "grad_norm": 2.1500484943389893,
      "learning_rate": 3.196171665600051e-05,
      "loss": 0.0087,
      "step": 1165
    },
    {
      "epoch": 20.892857142857142,
      "grad_norm": 3.8775603771209717,
      "learning_rate": 3.182554284274654e-05,
      "loss": 0.0191,
      "step": 1170
    },
    {
      "epoch": 20.982142857142858,
      "grad_norm": 5.29668664932251,
      "learning_rate": 3.1689149855339496e-05,
      "loss": 0.0363,
      "step": 1175
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.9204599261283875,
      "eval_macro_f1": 85.419711590922,
      "eval_macro_precision": 84.96998284734134,
      "eval_macro_recall": 85.90712821482052,
      "eval_micro_f1": 88.74213836477988,
      "eval_micro_precision": 88.74213836477988,
      "eval_micro_recall": 88.74213836477988,
      "eval_runtime": 1.7455,
      "eval_samples_per_second": 910.893,
      "eval_steps_per_second": 14.322,
      "step": 1176
    },
    {
      "epoch": 21.071428571428573,
      "grad_norm": 1.5591216087341309,
      "learning_rate": 3.1552542073477555e-05,
      "loss": 0.0155,
      "step": 1180
    },
    {
      "epoch": 21.160714285714285,
      "grad_norm": 11.346221923828125,
      "learning_rate": 3.141572388375612e-05,
      "loss": 0.0071,
      "step": 1185
    },
    {
      "epoch": 21.25,
      "grad_norm": 0.09788035601377487,
      "learning_rate": 3.127869967952698e-05,
      "loss": 0.0172,
      "step": 1190
    },
    {
      "epoch": 21.339285714285715,
      "grad_norm": 0.4548446238040924,
      "learning_rate": 3.114147386075724e-05,
      "loss": 0.0103,
      "step": 1195
    },
    {
      "epoch": 21.428571428571427,
      "grad_norm": 16.57025718688965,
      "learning_rate": 3.1004050833887985e-05,
      "loss": 0.0392,
      "step": 1200
    },
    {
      "epoch": 21.517857142857142,
      "grad_norm": 1.1993194818496704,
      "learning_rate": 3.0866435011692885e-05,
      "loss": 0.025,
      "step": 1205
    },
    {
      "epoch": 21.607142857142858,
      "grad_norm": 1.881464958190918,
      "learning_rate": 3.072863081313639e-05,
      "loss": 0.0096,
      "step": 1210
    },
    {
      "epoch": 21.696428571428573,
      "grad_norm": 13.144051551818848,
      "learning_rate": 3.05906426632319e-05,
      "loss": 0.0171,
      "step": 1215
    },
    {
      "epoch": 21.785714285714285,
      "grad_norm": 0.2325822114944458,
      "learning_rate": 3.0452474992899643e-05,
      "loss": 0.0099,
      "step": 1220
    },
    {
      "epoch": 21.875,
      "grad_norm": 1.384522557258606,
      "learning_rate": 3.0314132238824415e-05,
      "loss": 0.0126,
      "step": 1225
    },
    {
      "epoch": 21.964285714285715,
      "grad_norm": 0.3896070718765259,
      "learning_rate": 3.017561884331311e-05,
      "loss": 0.0025,
      "step": 1230
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.9775845408439636,
      "eval_macro_f1": 85.79642633816226,
      "eval_macro_precision": 87.86862854659465,
      "eval_macro_recall": 84.20415343492267,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 1.7115,
      "eval_samples_per_second": 929.005,
      "eval_steps_per_second": 14.607,
      "step": 1232
    },
    {
      "epoch": 22.053571428571427,
      "grad_norm": 15.109649658203125,
      "learning_rate": 3.003693925415204e-05,
      "loss": 0.0147,
      "step": 1235
    },
    {
      "epoch": 22.142857142857142,
      "grad_norm": 0.29477667808532715,
      "learning_rate": 2.989809792446417e-05,
      "loss": 0.0515,
      "step": 1240
    },
    {
      "epoch": 22.232142857142858,
      "grad_norm": 0.05692288279533386,
      "learning_rate": 2.9759099312566076e-05,
      "loss": 0.0004,
      "step": 1245
    },
    {
      "epoch": 22.321428571428573,
      "grad_norm": 2.0338664054870605,
      "learning_rate": 2.9619947881824818e-05,
      "loss": 0.0109,
      "step": 1250
    },
    {
      "epoch": 22.410714285714285,
      "grad_norm": 0.07057174295186996,
      "learning_rate": 2.9480648100514586e-05,
      "loss": 0.0127,
      "step": 1255
    },
    {
      "epoch": 22.5,
      "grad_norm": 0.08349260687828064,
      "learning_rate": 2.9341204441673266e-05,
      "loss": 0.0258,
      "step": 1260
    },
    {
      "epoch": 22.589285714285715,
      "grad_norm": 0.5570873022079468,
      "learning_rate": 2.9201621382958733e-05,
      "loss": 0.002,
      "step": 1265
    },
    {
      "epoch": 22.678571428571427,
      "grad_norm": 0.06609360128641129,
      "learning_rate": 2.9061903406505154e-05,
      "loss": 0.0055,
      "step": 1270
    },
    {
      "epoch": 22.767857142857142,
      "grad_norm": 0.501964807510376,
      "learning_rate": 2.8922054998778998e-05,
      "loss": 0.0068,
      "step": 1275
    },
    {
      "epoch": 22.857142857142858,
      "grad_norm": 0.03342385217547417,
      "learning_rate": 2.8782080650435006e-05,
      "loss": 0.0181,
      "step": 1280
    },
    {
      "epoch": 22.946428571428573,
      "grad_norm": 6.850861072540283,
      "learning_rate": 2.864198485617199e-05,
      "loss": 0.0188,
      "step": 1285
    },
    {
      "epoch": 23.0,
      "eval_loss": 1.1122395992279053,
      "eval_macro_f1": 84.66160439893609,
      "eval_macro_precision": 87.28755884076602,
      "eval_macro_recall": 82.772217387602,
      "eval_micro_f1": 88.9937106918239,
      "eval_micro_precision": 88.9937106918239,
      "eval_micro_recall": 88.9937106918239,
      "eval_runtime": 1.7968,
      "eval_samples_per_second": 884.902,
      "eval_steps_per_second": 13.914,
      "step": 1288
    },
    {
      "epoch": 23.035714285714285,
      "grad_norm": 12.33535099029541,
      "learning_rate": 2.8501772114588476e-05,
      "loss": 0.0167,
      "step": 1290
    },
    {
      "epoch": 23.125,
      "grad_norm": 0.05313009023666382,
      "learning_rate": 2.8361446928038298e-05,
      "loss": 0.004,
      "step": 1295
    },
    {
      "epoch": 23.214285714285715,
      "grad_norm": 0.664737343788147,
      "learning_rate": 2.8221013802485975e-05,
      "loss": 0.0042,
      "step": 1300
    },
    {
      "epoch": 23.303571428571427,
      "grad_norm": 10.9341459274292,
      "learning_rate": 2.808047724736204e-05,
      "loss": 0.0077,
      "step": 1305
    },
    {
      "epoch": 23.392857142857142,
      "grad_norm": 8.750741004943848,
      "learning_rate": 2.793984177541827e-05,
      "loss": 0.0064,
      "step": 1310
    },
    {
      "epoch": 23.482142857142858,
      "grad_norm": 0.8044894933700562,
      "learning_rate": 2.7799111902582696e-05,
      "loss": 0.0068,
      "step": 1315
    },
    {
      "epoch": 23.571428571428573,
      "grad_norm": 8.937823295593262,
      "learning_rate": 2.76582921478147e-05,
      "loss": 0.0121,
      "step": 1320
    },
    {
      "epoch": 23.660714285714285,
      "grad_norm": 0.01974612846970558,
      "learning_rate": 2.7517387032959813e-05,
      "loss": 0.0043,
      "step": 1325
    },
    {
      "epoch": 23.75,
      "grad_norm": 1.4588861465454102,
      "learning_rate": 2.7376401082604564e-05,
      "loss": 0.0066,
      "step": 1330
    },
    {
      "epoch": 23.839285714285715,
      "grad_norm": 0.37790974974632263,
      "learning_rate": 2.72353388239312e-05,
      "loss": 0.0006,
      "step": 1335
    },
    {
      "epoch": 23.928571428571427,
      "grad_norm": 1.2444077730178833,
      "learning_rate": 2.7094204786572254e-05,
      "loss": 0.0282,
      "step": 1340
    },
    {
      "epoch": 24.0,
      "eval_loss": 1.0914798974990845,
      "eval_macro_f1": 85.26953769339522,
      "eval_macro_precision": 87.64161596177536,
      "eval_macro_recall": 83.50931812470273,
      "eval_micro_f1": 89.37106918238995,
      "eval_micro_precision": 89.37106918238995,
      "eval_micro_recall": 89.37106918238995,
      "eval_runtime": 1.7496,
      "eval_samples_per_second": 908.769,
      "eval_steps_per_second": 14.289,
      "step": 1344
    },
    {
      "epoch": 24.017857142857142,
      "grad_norm": 0.005385238211601973,
      "learning_rate": 2.6953003502465168e-05,
      "loss": 0.0042,
      "step": 1345
    },
    {
      "epoch": 24.107142857142858,
      "grad_norm": 0.1486300677061081,
      "learning_rate": 2.681173950570674e-05,
      "loss": 0.0042,
      "step": 1350
    },
    {
      "epoch": 24.196428571428573,
      "grad_norm": 0.11711076647043228,
      "learning_rate": 2.6670417332407487e-05,
      "loss": 0.0022,
      "step": 1355
    },
    {
      "epoch": 24.285714285714285,
      "grad_norm": 0.18978235125541687,
      "learning_rate": 2.652904152054607e-05,
      "loss": 0.003,
      "step": 1360
    },
    {
      "epoch": 24.375,
      "grad_norm": 8.865602493286133,
      "learning_rate": 2.6387616609823507e-05,
      "loss": 0.005,
      "step": 1365
    },
    {
      "epoch": 24.464285714285715,
      "grad_norm": 0.7902134656906128,
      "learning_rate": 2.624614714151743e-05,
      "loss": 0.0006,
      "step": 1370
    },
    {
      "epoch": 24.553571428571427,
      "grad_norm": 0.005069936625659466,
      "learning_rate": 2.610463765833625e-05,
      "loss": 0.0032,
      "step": 1375
    },
    {
      "epoch": 24.642857142857142,
      "grad_norm": 0.02278885804116726,
      "learning_rate": 2.59630927042733e-05,
      "loss": 0.0009,
      "step": 1380
    },
    {
      "epoch": 24.732142857142858,
      "grad_norm": 0.06174265593290329,
      "learning_rate": 2.5821516824460905e-05,
      "loss": 0.0033,
      "step": 1385
    },
    {
      "epoch": 24.821428571428573,
      "grad_norm": 0.04255477339029312,
      "learning_rate": 2.5679914565024443e-05,
      "loss": 0.0065,
      "step": 1390
    },
    {
      "epoch": 24.910714285714285,
      "grad_norm": 0.4989578127861023,
      "learning_rate": 2.5538290472936372e-05,
      "loss": 0.0077,
      "step": 1395
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.17359009385108948,
      "learning_rate": 2.5396649095870202e-05,
      "loss": 0.0136,
      "step": 1400
    },
    {
      "epoch": 25.0,
      "eval_loss": 1.1381731033325195,
      "eval_macro_f1": 84.72942532348473,
      "eval_macro_precision": 86.83333756629393,
      "eval_macro_recall": 83.13287544056776,
      "eval_micro_f1": 88.93081761006289,
      "eval_micro_precision": 88.93081761006289,
      "eval_micro_recall": 88.93081761006289,
      "eval_runtime": 1.7399,
      "eval_samples_per_second": 913.828,
      "eval_steps_per_second": 14.368,
      "step": 1400
    },
    {
      "epoch": 25.089285714285715,
      "grad_norm": 0.8178830742835999,
      "learning_rate": 2.5254994982054493e-05,
      "loss": 0.0003,
      "step": 1405
    },
    {
      "epoch": 25.178571428571427,
      "grad_norm": 2.3602683544158936,
      "learning_rate": 2.5113332680126795e-05,
      "loss": 0.001,
      "step": 1410
    },
    {
      "epoch": 25.267857142857142,
      "grad_norm": 0.004060968291014433,
      "learning_rate": 2.4971666738987563e-05,
      "loss": 0.0002,
      "step": 1415
    },
    {
      "epoch": 25.357142857142858,
      "grad_norm": 0.6710391044616699,
      "learning_rate": 2.4830001707654134e-05,
      "loss": 0.0003,
      "step": 1420
    },
    {
      "epoch": 25.446428571428573,
      "grad_norm": 0.008804717101156712,
      "learning_rate": 2.4688342135114627e-05,
      "loss": 0.0054,
      "step": 1425
    },
    {
      "epoch": 25.535714285714285,
      "grad_norm": 0.4956241250038147,
      "learning_rate": 2.4546692570181863e-05,
      "loss": 0.0035,
      "step": 1430
    },
    {
      "epoch": 25.625,
      "grad_norm": 0.04511274769902229,
      "learning_rate": 2.4405057561347315e-05,
      "loss": 0.0004,
      "step": 1435
    },
    {
      "epoch": 25.714285714285715,
      "grad_norm": 0.032900311052799225,
      "learning_rate": 2.4263441656635053e-05,
      "loss": 0.0038,
      "step": 1440
    },
    {
      "epoch": 25.803571428571427,
      "grad_norm": 0.15933604538440704,
      "learning_rate": 2.4121849403455688e-05,
      "loss": 0.001,
      "step": 1445
    },
    {
      "epoch": 25.892857142857142,
      "grad_norm": 0.1360047459602356,
      "learning_rate": 2.3980285348460363e-05,
      "loss": 0.002,
      "step": 1450
    },
    {
      "epoch": 25.982142857142858,
      "grad_norm": 0.02792578749358654,
      "learning_rate": 2.3838754037394757e-05,
      "loss": 0.0,
      "step": 1455
    },
    {
      "epoch": 26.0,
      "eval_loss": 1.164141058921814,
      "eval_macro_f1": 85.84761272086648,
      "eval_macro_precision": 87.74020642071049,
      "eval_macro_recall": 84.36532282686129,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 1.9014,
      "eval_samples_per_second": 836.217,
      "eval_steps_per_second": 13.148,
      "step": 1456
    },
    {
      "epoch": 26.071428571428573,
      "grad_norm": 0.0013366724597290158,
      "learning_rate": 2.3697260014953108e-05,
      "loss": 0.0001,
      "step": 1460
    },
    {
      "epoch": 26.160714285714285,
      "grad_norm": 0.5680537223815918,
      "learning_rate": 2.3555807824632285e-05,
      "loss": 0.0053,
      "step": 1465
    },
    {
      "epoch": 26.25,
      "grad_norm": 0.0030330184381455183,
      "learning_rate": 2.3414402008585888e-05,
      "loss": 0.0008,
      "step": 1470
    },
    {
      "epoch": 26.339285714285715,
      "grad_norm": 0.0012838690308853984,
      "learning_rate": 2.327304710747841e-05,
      "loss": 0.0,
      "step": 1475
    },
    {
      "epoch": 26.428571428571427,
      "grad_norm": 0.006956954021006823,
      "learning_rate": 2.3131747660339394e-05,
      "loss": 0.0014,
      "step": 1480
    },
    {
      "epoch": 26.517857142857142,
      "grad_norm": 0.06738751381635666,
      "learning_rate": 2.2990508204417742e-05,
      "loss": 0.0004,
      "step": 1485
    },
    {
      "epoch": 26.607142857142858,
      "grad_norm": 0.01422626618295908,
      "learning_rate": 2.2849333275035964e-05,
      "loss": 0.0,
      "step": 1490
    },
    {
      "epoch": 26.696428571428573,
      "grad_norm": 0.004991587717086077,
      "learning_rate": 2.270822740544457e-05,
      "loss": 0.0,
      "step": 1495
    },
    {
      "epoch": 26.785714285714285,
      "grad_norm": 0.001760053331963718,
      "learning_rate": 2.2567195126676507e-05,
      "loss": 0.0,
      "step": 1500
    },
    {
      "epoch": 26.875,
      "grad_norm": 0.0031189576257020235,
      "learning_rate": 2.242624096740164e-05,
      "loss": 0.0,
      "step": 1505
    },
    {
      "epoch": 26.964285714285715,
      "grad_norm": 0.001600801246240735,
      "learning_rate": 2.2285369453781364e-05,
      "loss": 0.0,
      "step": 1510
    },
    {
      "epoch": 27.0,
      "eval_loss": 1.1644015312194824,
      "eval_macro_f1": 85.87021885704534,
      "eval_macro_precision": 87.99308755760369,
      "eval_macro_recall": 84.24641886180348,
      "eval_micro_f1": 89.74842767295598,
      "eval_micro_precision": 89.74842767295598,
      "eval_micro_recall": 89.74842767295598,
      "eval_runtime": 1.7672,
      "eval_samples_per_second": 899.738,
      "eval_steps_per_second": 14.147,
      "step": 1512
    },
    {
      "epoch": 27.053571428571427,
      "grad_norm": 0.0008946519810706377,
      "learning_rate": 2.214458510932325e-05,
      "loss": 0.0011,
      "step": 1515
    },
    {
      "epoch": 27.142857142857142,
      "grad_norm": 0.002819470362737775,
      "learning_rate": 2.2003892454735786e-05,
      "loss": 0.0001,
      "step": 1520
    },
    {
      "epoch": 27.232142857142858,
      "grad_norm": 0.002619238570332527,
      "learning_rate": 2.1863296007783206e-05,
      "loss": 0.0008,
      "step": 1525
    },
    {
      "epoch": 27.321428571428573,
      "grad_norm": 0.0019296056125313044,
      "learning_rate": 2.172280028314045e-05,
      "loss": 0.0059,
      "step": 1530
    },
    {
      "epoch": 27.410714285714285,
      "grad_norm": 0.0006752462941221893,
      "learning_rate": 2.158240979224817e-05,
      "loss": 0.0,
      "step": 1535
    },
    {
      "epoch": 27.5,
      "grad_norm": 0.002963811159133911,
      "learning_rate": 2.1442129043167874e-05,
      "loss": 0.0,
      "step": 1540
    },
    {
      "epoch": 27.589285714285715,
      "grad_norm": 0.0020487557630985975,
      "learning_rate": 2.1301962540437164e-05,
      "loss": 0.0,
      "step": 1545
    },
    {
      "epoch": 27.678571428571427,
      "grad_norm": 0.004336291924118996,
      "learning_rate": 2.1161914784925083e-05,
      "loss": 0.0,
      "step": 1550
    },
    {
      "epoch": 27.767857142857142,
      "grad_norm": 0.002049487316980958,
      "learning_rate": 2.102199027368761e-05,
      "loss": 0.0,
      "step": 1555
    },
    {
      "epoch": 27.857142857142858,
      "grad_norm": 0.008441206067800522,
      "learning_rate": 2.088219349982323e-05,
      "loss": 0.0,
      "step": 1560
    },
    {
      "epoch": 27.946428571428573,
      "grad_norm": 0.0020169492345303297,
      "learning_rate": 2.0742528952328673e-05,
      "loss": 0.0,
      "step": 1565
    },
    {
      "epoch": 28.0,
      "eval_loss": 1.1838983297348022,
      "eval_macro_f1": 85.74461897087475,
      "eval_macro_precision": 88.00197532696066,
      "eval_macro_recall": 84.04298404298405,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 2.4777,
      "eval_samples_per_second": 641.733,
      "eval_steps_per_second": 10.09,
      "step": 1568
    },
    {
      "epoch": 28.035714285714285,
      "grad_norm": 0.21369871497154236,
      "learning_rate": 2.0603001115954774e-05,
      "loss": 0.0026,
      "step": 1570
    },
    {
      "epoch": 28.125,
      "grad_norm": 0.001929258112795651,
      "learning_rate": 2.0463614471062435e-05,
      "loss": 0.0,
      "step": 1575
    },
    {
      "epoch": 28.214285714285715,
      "grad_norm": 0.0026586749590933323,
      "learning_rate": 2.0324373493478804e-05,
      "loss": 0.005,
      "step": 1580
    },
    {
      "epoch": 28.303571428571427,
      "grad_norm": 0.021981006488204002,
      "learning_rate": 2.0185282654353493e-05,
      "loss": 0.0,
      "step": 1585
    },
    {
      "epoch": 28.392857142857142,
      "grad_norm": 0.005900249350816011,
      "learning_rate": 2.0046346420015067e-05,
      "loss": 0.0,
      "step": 1590
    },
    {
      "epoch": 28.482142857142858,
      "grad_norm": 0.0033512930385768414,
      "learning_rate": 1.990756925182756e-05,
      "loss": 0.0,
      "step": 1595
    },
    {
      "epoch": 28.571428571428573,
      "grad_norm": 0.0007393535925075412,
      "learning_rate": 1.976895560604729e-05,
      "loss": 0.0,
      "step": 1600
    },
    {
      "epoch": 28.660714285714285,
      "grad_norm": 0.2156071811914444,
      "learning_rate": 1.9630509933679704e-05,
      "loss": 0.0028,
      "step": 1605
    },
    {
      "epoch": 28.75,
      "grad_norm": 0.0010669779730960727,
      "learning_rate": 1.9492236680336485e-05,
      "loss": 0.0,
      "step": 1610
    },
    {
      "epoch": 28.839285714285715,
      "grad_norm": 0.0025355510879307985,
      "learning_rate": 1.9354140286092785e-05,
      "loss": 0.0,
      "step": 1615
    },
    {
      "epoch": 28.928571428571427,
      "grad_norm": 0.004663623869419098,
      "learning_rate": 1.9216225185344662e-05,
      "loss": 0.0,
      "step": 1620
    },
    {
      "epoch": 29.0,
      "eval_loss": 1.169285535812378,
      "eval_macro_f1": 85.77409578612829,
      "eval_macro_precision": 87.61836905650758,
      "eval_macro_recall": 84.32305739998047,
      "eval_micro_f1": 89.62264150943396,
      "eval_micro_precision": 89.62264150943396,
      "eval_micro_recall": 89.62264150943396,
      "eval_runtime": 1.9141,
      "eval_samples_per_second": 830.659,
      "eval_steps_per_second": 13.061,
      "step": 1624
    },
    {
      "epoch": 29.017857142857142,
      "grad_norm": 0.0022395530249923468,
      "learning_rate": 1.907849580666668e-05,
      "loss": 0.0,
      "step": 1625
    },
    {
      "epoch": 29.107142857142858,
      "grad_norm": 0.0007931589498184621,
      "learning_rate": 1.8940956572669692e-05,
      "loss": 0.0006,
      "step": 1630
    },
    {
      "epoch": 29.196428571428573,
      "grad_norm": 0.0019468627870082855,
      "learning_rate": 1.880361189985886e-05,
      "loss": 0.0,
      "step": 1635
    },
    {
      "epoch": 29.285714285714285,
      "grad_norm": 0.0028856031130999327,
      "learning_rate": 1.8666466198491795e-05,
      "loss": 0.0,
      "step": 1640
    },
    {
      "epoch": 29.375,
      "grad_norm": 0.0021576446015387774,
      "learning_rate": 1.852952387243698e-05,
      "loss": 0.0,
      "step": 1645
    },
    {
      "epoch": 29.464285714285715,
      "grad_norm": 0.0026545205619186163,
      "learning_rate": 1.8392789319032328e-05,
      "loss": 0.0009,
      "step": 1650
    },
    {
      "epoch": 29.553571428571427,
      "grad_norm": 0.0022205617278814316,
      "learning_rate": 1.8256266928943988e-05,
      "loss": 0.0066,
      "step": 1655
    },
    {
      "epoch": 29.642857142857142,
      "grad_norm": 0.001808985136449337,
      "learning_rate": 1.8119961086025374e-05,
      "loss": 0.0,
      "step": 1660
    },
    {
      "epoch": 29.732142857142858,
      "grad_norm": 0.0015430036000907421,
      "learning_rate": 1.7983876167176362e-05,
      "loss": 0.0,
      "step": 1665
    },
    {
      "epoch": 29.821428571428573,
      "grad_norm": 0.002092926762998104,
      "learning_rate": 1.7848016542202767e-05,
      "loss": 0.0,
      "step": 1670
    },
    {
      "epoch": 29.910714285714285,
      "grad_norm": 0.001246055937372148,
      "learning_rate": 1.7712386573676044e-05,
      "loss": 0.0,
      "step": 1675
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.001110477140173316,
      "learning_rate": 1.7576990616793137e-05,
      "loss": 0.0,
      "step": 1680
    },
    {
      "epoch": 30.0,
      "eval_loss": 1.193253755569458,
      "eval_macro_f1": 85.4909143681396,
      "eval_macro_precision": 88.02490672890218,
      "eval_macro_recall": 83.63611440534517,
      "eval_micro_f1": 89.55974842767296,
      "eval_micro_precision": 89.55974842767296,
      "eval_micro_recall": 89.55974842767296,
      "eval_runtime": 2.0785,
      "eval_samples_per_second": 764.987,
      "eval_steps_per_second": 12.028,
      "step": 1680
    },
    {
      "epoch": 30.089285714285715,
      "grad_norm": 0.015624803490936756,
      "learning_rate": 1.7441833019236704e-05,
      "loss": 0.0011,
      "step": 1685
    },
    {
      "epoch": 30.178571428571427,
      "grad_norm": 0.0003042487951461226,
      "learning_rate": 1.730691812103546e-05,
      "loss": 0.0,
      "step": 1690
    },
    {
      "epoch": 30.267857142857142,
      "grad_norm": 0.0016463997308164835,
      "learning_rate": 1.717225025442485e-05,
      "loss": 0.0,
      "step": 1695
    },
    {
      "epoch": 30.357142857142858,
      "grad_norm": 0.0009225396788679063,
      "learning_rate": 1.7037833743707892e-05,
      "loss": 0.0,
      "step": 1700
    },
    {
      "epoch": 30.446428571428573,
      "grad_norm": 0.14133678376674652,
      "learning_rate": 1.690367290511637e-05,
      "loss": 0.0008,
      "step": 1705
    },
    {
      "epoch": 30.535714285714285,
      "grad_norm": 0.0003841827274300158,
      "learning_rate": 1.676977204667221e-05,
      "loss": 0.0,
      "step": 1710
    },
    {
      "epoch": 30.625,
      "grad_norm": 0.0009803869761526585,
      "learning_rate": 1.6636135468049123e-05,
      "loss": 0.0,
      "step": 1715
    },
    {
      "epoch": 30.714285714285715,
      "grad_norm": 0.002163276541978121,
      "learning_rate": 1.6502767460434588e-05,
      "loss": 0.0,
      "step": 1720
    },
    {
      "epoch": 30.803571428571427,
      "grad_norm": 0.002792706247419119,
      "learning_rate": 1.6369672306392027e-05,
      "loss": 0.0,
      "step": 1725
    },
    {
      "epoch": 30.892857142857142,
      "grad_norm": 0.0011888825101777911,
      "learning_rate": 1.62368542797233e-05,
      "loss": 0.0,
      "step": 1730
    },
    {
      "epoch": 30.982142857142858,
      "grad_norm": 0.0003651406441349536,
      "learning_rate": 1.6104317645331456e-05,
      "loss": 0.0063,
      "step": 1735
    },
    {
      "epoch": 31.0,
      "eval_loss": 1.1838295459747314,
      "eval_macro_f1": 85.54969445546462,
      "eval_macro_precision": 87.56241738875019,
      "eval_macro_recall": 83.99677245831091,
      "eval_micro_f1": 89.49685534591195,
      "eval_micro_precision": 89.49685534591195,
      "eval_micro_recall": 89.49685534591195,
      "eval_runtime": 2.059,
      "eval_samples_per_second": 772.237,
      "eval_steps_per_second": 12.142,
      "step": 1736
    },
    {
      "epoch": 31.071428571428573,
      "grad_norm": 0.0007483928930014372,
      "learning_rate": 1.5972066659083796e-05,
      "loss": 0.0,
      "step": 1740
    },
    {
      "epoch": 31.160714285714285,
      "grad_norm": 0.004502744879573584,
      "learning_rate": 1.5840105567675218e-05,
      "loss": 0.0,
      "step": 1745
    },
    {
      "epoch": 31.25,
      "grad_norm": 0.009936104528605938,
      "learning_rate": 1.5708438608491814e-05,
      "loss": 0.0,
      "step": 1750
    },
    {
      "epoch": 31.339285714285715,
      "grad_norm": 0.0025622285902500153,
      "learning_rate": 1.557707000947487e-05,
      "loss": 0.0,
      "step": 1755
    },
    {
      "epoch": 31.428571428571427,
      "grad_norm": 0.0010868199169635773,
      "learning_rate": 1.5446003988985043e-05,
      "loss": 0.0,
      "step": 1760
    },
    {
      "epoch": 31.517857142857142,
      "grad_norm": 0.0007128150318749249,
      "learning_rate": 1.531524475566693e-05,
      "loss": 0.0012,
      "step": 1765
    },
    {
      "epoch": 31.607142857142858,
      "grad_norm": 0.0021832745987921953,
      "learning_rate": 1.5184796508313934e-05,
      "loss": 0.0038,
      "step": 1770
    },
    {
      "epoch": 31.696428571428573,
      "grad_norm": 0.001526080071926117,
      "learning_rate": 1.5054663435733418e-05,
      "loss": 0.0014,
      "step": 1775
    },
    {
      "epoch": 31.785714285714285,
      "grad_norm": 0.00137015909422189,
      "learning_rate": 1.492484971661221e-05,
      "loss": 0.0,
      "step": 1780
    },
    {
      "epoch": 31.875,
      "grad_norm": 0.0007851460832171142,
      "learning_rate": 1.479535951938243e-05,
      "loss": 0.0,
      "step": 1785
    },
    {
      "epoch": 31.964285714285715,
      "grad_norm": 0.0010572908213362098,
      "learning_rate": 1.4666197002087594e-05,
      "loss": 0.0013,
      "step": 1790
    },
    {
      "epoch": 32.0,
      "eval_loss": 1.1904088258743286,
      "eval_macro_f1": 85.89264432682533,
      "eval_macro_precision": 88.25563122053431,
      "eval_macro_recall": 84.12751489674567,
      "eval_micro_f1": 89.81132075471699,
      "eval_micro_precision": 89.81132075471699,
      "eval_micro_recall": 89.81132075471699,
      "eval_runtime": 1.7315,
      "eval_samples_per_second": 918.253,
      "eval_steps_per_second": 14.438,
      "step": 1792
    },
    {
      "epoch": 32.05357142857143,
      "grad_norm": 0.0002830619050655514,
      "learning_rate": 1.4537366312249165e-05,
      "loss": 0.0,
      "step": 1795
    },
    {
      "epoch": 32.142857142857146,
      "grad_norm": 0.0003966302901972085,
      "learning_rate": 1.4408871586733318e-05,
      "loss": 0.0,
      "step": 1800
    },
    {
      "epoch": 32.232142857142854,
      "grad_norm": 0.0010989709990099072,
      "learning_rate": 1.428071695161812e-05,
      "loss": 0.0,
      "step": 1805
    },
    {
      "epoch": 32.32142857142857,
      "grad_norm": 0.0009420845308341086,
      "learning_rate": 1.4152906522061048e-05,
      "loss": 0.0042,
      "step": 1810
    },
    {
      "epoch": 32.410714285714285,
      "grad_norm": 0.0009583772043697536,
      "learning_rate": 1.402544440216682e-05,
      "loss": 0.0,
      "step": 1815
    },
    {
      "epoch": 32.5,
      "grad_norm": 0.000329616479575634,
      "learning_rate": 1.3898334684855647e-05,
      "loss": 0.0,
      "step": 1820
    },
    {
      "epoch": 32.589285714285715,
      "grad_norm": 0.0010914219310507178,
      "learning_rate": 1.3771581451731768e-05,
      "loss": 0.0,
      "step": 1825
    },
    {
      "epoch": 32.67857142857143,
      "grad_norm": 0.001109420321881771,
      "learning_rate": 1.3645188772952411e-05,
      "loss": 0.0017,
      "step": 1830
    },
    {
      "epoch": 32.767857142857146,
      "grad_norm": 0.003983737900853157,
      "learning_rate": 1.3519160707097073e-05,
      "loss": 0.0016,
      "step": 1835
    },
    {
      "epoch": 32.857142857142854,
      "grad_norm": 0.0013640534598380327,
      "learning_rate": 1.3393501301037245e-05,
      "loss": 0.0013,
      "step": 1840
    },
    {
      "epoch": 32.94642857142857,
      "grad_norm": 0.00043303275015205145,
      "learning_rate": 1.3268214589806388e-05,
      "loss": 0.0,
      "step": 1845
    },
    {
      "epoch": 33.0,
      "eval_loss": 1.1757960319519043,
      "eval_macro_f1": 85.82209656372336,
      "eval_macro_precision": 87.80381119449642,
      "eval_macro_recall": 84.28473813089197,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 2.0676,
      "eval_samples_per_second": 769.018,
      "eval_steps_per_second": 12.091,
      "step": 1848
    },
    {
      "epoch": 33.035714285714285,
      "grad_norm": 0.0008297289023175836,
      "learning_rate": 1.3143304596470443e-05,
      "loss": 0.0,
      "step": 1850
    },
    {
      "epoch": 33.125,
      "grad_norm": 0.0008214128902181983,
      "learning_rate": 1.301877533199859e-05,
      "loss": 0.0,
      "step": 1855
    },
    {
      "epoch": 33.214285714285715,
      "grad_norm": 0.0019036834128201008,
      "learning_rate": 1.2894630795134455e-05,
      "loss": 0.0,
      "step": 1860
    },
    {
      "epoch": 33.30357142857143,
      "grad_norm": 0.0015944598708301783,
      "learning_rate": 1.2770874972267777e-05,
      "loss": 0.0,
      "step": 1865
    },
    {
      "epoch": 33.392857142857146,
      "grad_norm": 0.0004286083276383579,
      "learning_rate": 1.2647511837306284e-05,
      "loss": 0.0,
      "step": 1870
    },
    {
      "epoch": 33.482142857142854,
      "grad_norm": 0.0017838689964264631,
      "learning_rate": 1.2524545351548206e-05,
      "loss": 0.0052,
      "step": 1875
    },
    {
      "epoch": 33.57142857142857,
      "grad_norm": 0.0007197365048341453,
      "learning_rate": 1.2401979463554982e-05,
      "loss": 0.0008,
      "step": 1880
    },
    {
      "epoch": 33.660714285714285,
      "grad_norm": 0.0011250259121879935,
      "learning_rate": 1.2279818109024538e-05,
      "loss": 0.0,
      "step": 1885
    },
    {
      "epoch": 33.75,
      "grad_norm": 0.0006792208878323436,
      "learning_rate": 1.2158065210664848e-05,
      "loss": 0.001,
      "step": 1890
    },
    {
      "epoch": 33.839285714285715,
      "grad_norm": 0.0010428227251395583,
      "learning_rate": 1.2036724678068006e-05,
      "loss": 0.0,
      "step": 1895
    },
    {
      "epoch": 33.92857142857143,
      "grad_norm": 0.0009357041562907398,
      "learning_rate": 1.1915800407584704e-05,
      "loss": 0.0009,
      "step": 1900
    },
    {
      "epoch": 34.0,
      "eval_loss": 1.1771963834762573,
      "eval_macro_f1": 85.57575566624061,
      "eval_macro_precision": 87.49931435467062,
      "eval_macro_recall": 84.07735715428024,
      "eval_micro_f1": 89.49685534591195,
      "eval_micro_precision": 89.49685534591195,
      "eval_micro_recall": 89.49685534591195,
      "eval_runtime": 2.4523,
      "eval_samples_per_second": 648.379,
      "eval_steps_per_second": 10.195,
      "step": 1904
    },
    {
      "epoch": 34.017857142857146,
      "grad_norm": 0.0015970384702086449,
      "learning_rate": 1.1795296282199061e-05,
      "loss": 0.0,
      "step": 1905
    },
    {
      "epoch": 34.107142857142854,
      "grad_norm": 0.0010594812920317054,
      "learning_rate": 1.1675216171404002e-05,
      "loss": 0.0048,
      "step": 1910
    },
    {
      "epoch": 34.19642857142857,
      "grad_norm": 0.0008670884999446571,
      "learning_rate": 1.1555563931076934e-05,
      "loss": 0.0,
      "step": 1915
    },
    {
      "epoch": 34.285714285714285,
      "grad_norm": 0.000477910740301013,
      "learning_rate": 1.1436343403356017e-05,
      "loss": 0.0,
      "step": 1920
    },
    {
      "epoch": 34.375,
      "grad_norm": 0.00853039976209402,
      "learning_rate": 1.1317558416516697e-05,
      "loss": 0.0012,
      "step": 1925
    },
    {
      "epoch": 34.464285714285715,
      "grad_norm": 0.001123997732065618,
      "learning_rate": 1.1199212784848834e-05,
      "loss": 0.0,
      "step": 1930
    },
    {
      "epoch": 34.55357142857143,
      "grad_norm": 0.0008179740980267525,
      "learning_rate": 1.1081310308534229e-05,
      "loss": 0.0011,
      "step": 1935
    },
    {
      "epoch": 34.642857142857146,
      "grad_norm": 0.0008750974084250629,
      "learning_rate": 1.096385477352455e-05,
      "loss": 0.0,
      "step": 1940
    },
    {
      "epoch": 34.732142857142854,
      "grad_norm": 0.0006880298024043441,
      "learning_rate": 1.0846849951419814e-05,
      "loss": 0.0009,
      "step": 1945
    },
    {
      "epoch": 34.82142857142857,
      "grad_norm": 0.0012920346343889832,
      "learning_rate": 1.0730299599347219e-05,
      "loss": 0.0,
      "step": 1950
    },
    {
      "epoch": 34.910714285714285,
      "grad_norm": 0.00165931461378932,
      "learning_rate": 1.0614207459840572e-05,
      "loss": 0.0,
      "step": 1955
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.003719399683177471,
      "learning_rate": 1.049857726072005e-05,
      "loss": 0.0,
      "step": 1960
    },
    {
      "epoch": 35.0,
      "eval_loss": 1.1785622835159302,
      "eval_macro_f1": 86.0688671097593,
      "eval_macro_precision": 88.10971691878396,
      "eval_macro_recall": 84.49211910750371,
      "eval_micro_f1": 89.87421383647799,
      "eval_micro_precision": 89.87421383647799,
      "eval_micro_recall": 89.87421383647799,
      "eval_runtime": 1.6934,
      "eval_samples_per_second": 938.939,
      "eval_steps_per_second": 14.763,
      "step": 1960
    },
    {
      "epoch": 35.089285714285715,
      "grad_norm": 0.001190517912618816,
      "learning_rate": 1.0383412714972507e-05,
      "loss": 0.0007,
      "step": 1965
    },
    {
      "epoch": 35.17857142857143,
      "grad_norm": 0.0001941876980708912,
      "learning_rate": 1.0268717520632298e-05,
      "loss": 0.0,
      "step": 1970
    },
    {
      "epoch": 35.267857142857146,
      "grad_norm": 0.0013438657624647021,
      "learning_rate": 1.0154495360662464e-05,
      "loss": 0.0,
      "step": 1975
    },
    {
      "epoch": 35.357142857142854,
      "grad_norm": 0.0008899585227482021,
      "learning_rate": 1.0040749902836507e-05,
      "loss": 0.0,
      "step": 1980
    },
    {
      "epoch": 35.44642857142857,
      "grad_norm": 0.0008040536195039749,
      "learning_rate": 9.927484799620595e-06,
      "loss": 0.0,
      "step": 1985
    },
    {
      "epoch": 35.535714285714285,
      "grad_norm": 0.0008036054205149412,
      "learning_rate": 9.814703688056321e-06,
      "loss": 0.0,
      "step": 1990
    },
    {
      "epoch": 35.625,
      "grad_norm": 0.000511976657435298,
      "learning_rate": 9.702410189643837e-06,
      "loss": 0.0,
      "step": 1995
    },
    {
      "epoch": 35.714285714285715,
      "grad_norm": 0.000789080688264221,
      "learning_rate": 9.59060791022566e-06,
      "loss": 0.0,
      "step": 2000
    },
    {
      "epoch": 35.80357142857143,
      "grad_norm": 0.0002290449192514643,
      "learning_rate": 9.479300439870787e-06,
      "loss": 0.0,
      "step": 2005
    },
    {
      "epoch": 35.892857142857146,
      "grad_norm": 0.0005157162086106837,
      "learning_rate": 9.368491352759506e-06,
      "loss": 0.0,
      "step": 2010
    },
    {
      "epoch": 35.982142857142854,
      "grad_norm": 0.5052797794342041,
      "learning_rate": 9.258184207068551e-06,
      "loss": 0.0069,
      "step": 2015
    },
    {
      "epoch": 36.0,
      "eval_loss": 1.1818641424179077,
      "eval_macro_f1": 85.82209656372336,
      "eval_macro_precision": 87.80381119449642,
      "eval_macro_recall": 84.28473813089197,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 1.9269,
      "eval_samples_per_second": 825.175,
      "eval_steps_per_second": 12.974,
      "step": 2016
    },
    {
      "epoch": 36.07142857142857,
      "grad_norm": 0.001218083780258894,
      "learning_rate": 9.148382544856884e-06,
      "loss": 0.0,
      "step": 2020
    },
    {
      "epoch": 36.160714285714285,
      "grad_norm": 0.0006271243910305202,
      "learning_rate": 9.039089891951975e-06,
      "loss": 0.0051,
      "step": 2025
    },
    {
      "epoch": 36.25,
      "grad_norm": 0.001310994615778327,
      "learning_rate": 8.930309757836517e-06,
      "loss": 0.0,
      "step": 2030
    },
    {
      "epoch": 36.339285714285715,
      "grad_norm": 0.0016614202177152038,
      "learning_rate": 8.822045635535823e-06,
      "loss": 0.0,
      "step": 2035
    },
    {
      "epoch": 36.42857142857143,
      "grad_norm": 0.00039496883982792497,
      "learning_rate": 8.714301001505567e-06,
      "loss": 0.0012,
      "step": 2040
    },
    {
      "epoch": 36.517857142857146,
      "grad_norm": 0.0006432042573578656,
      "learning_rate": 8.607079315520252e-06,
      "loss": 0.0,
      "step": 2045
    },
    {
      "epoch": 36.607142857142854,
      "grad_norm": 0.00702462624758482,
      "learning_rate": 8.500384020562018e-06,
      "loss": 0.0,
      "step": 2050
    },
    {
      "epoch": 36.69642857142857,
      "grad_norm": 0.17590132355690002,
      "learning_rate": 8.394218542710141e-06,
      "loss": 0.0012,
      "step": 2055
    },
    {
      "epoch": 36.785714285714285,
      "grad_norm": 0.00369036803022027,
      "learning_rate": 8.288586291031026e-06,
      "loss": 0.0,
      "step": 2060
    },
    {
      "epoch": 36.875,
      "grad_norm": 0.0006468078936450183,
      "learning_rate": 8.183490657468688e-06,
      "loss": 0.0,
      "step": 2065
    },
    {
      "epoch": 36.964285714285715,
      "grad_norm": 0.15709273517131805,
      "learning_rate": 8.078935016735891e-06,
      "loss": 0.001,
      "step": 2070
    },
    {
      "epoch": 37.0,
      "eval_loss": 1.1875933408737183,
      "eval_macro_f1": 86.06680921167936,
      "eval_macro_precision": 88.44071939933647,
      "eval_macro_recall": 84.29263044647661,
      "eval_micro_f1": 89.937106918239,
      "eval_micro_precision": 89.937106918239,
      "eval_micro_recall": 89.937106918239,
      "eval_runtime": 1.7266,
      "eval_samples_per_second": 920.898,
      "eval_steps_per_second": 14.48,
      "step": 2072
    },
    {
      "epoch": 37.05357142857143,
      "grad_norm": 0.009659999050199986,
      "learning_rate": 7.974922726205736e-06,
      "loss": 0.0,
      "step": 2075
    },
    {
      "epoch": 37.142857142857146,
      "grad_norm": 0.0007702059228904545,
      "learning_rate": 7.871457125803896e-06,
      "loss": 0.0,
      "step": 2080
    },
    {
      "epoch": 37.232142857142854,
      "grad_norm": 0.0009207057883031666,
      "learning_rate": 7.768541537901325e-06,
      "loss": 0.0009,
      "step": 2085
    },
    {
      "epoch": 37.32142857142857,
      "grad_norm": 0.00031363347079604864,
      "learning_rate": 7.666179267207596e-06,
      "loss": 0.0,
      "step": 2090
    },
    {
      "epoch": 37.410714285714285,
      "grad_norm": 0.0014384811511263251,
      "learning_rate": 7.564373600664804e-06,
      "loss": 0.0056,
      "step": 2095
    },
    {
      "epoch": 37.5,
      "grad_norm": 0.0012792075285688043,
      "learning_rate": 7.463127807341966e-06,
      "loss": 0.0,
      "step": 2100
    },
    {
      "epoch": 37.589285714285715,
      "grad_norm": 0.000563352950848639,
      "learning_rate": 7.3624451383301125e-06,
      "loss": 0.0,
      "step": 2105
    },
    {
      "epoch": 37.67857142857143,
      "grad_norm": 0.0017736536683514714,
      "learning_rate": 7.262328826637826e-06,
      "loss": 0.0009,
      "step": 2110
    },
    {
      "epoch": 37.767857142857146,
      "grad_norm": 0.000779169553425163,
      "learning_rate": 7.162782087087494e-06,
      "loss": 0.0,
      "step": 2115
    },
    {
      "epoch": 37.857142857142854,
      "grad_norm": 0.001163293025456369,
      "learning_rate": 7.06380811621202e-06,
      "loss": 0.0,
      "step": 2120
    },
    {
      "epoch": 37.94642857142857,
      "grad_norm": 0.00028616635245271027,
      "learning_rate": 6.965410092152211e-06,
      "loss": 0.0,
      "step": 2125
    },
    {
      "epoch": 38.0,
      "eval_loss": 1.1880896091461182,
      "eval_macro_f1": 85.5970716119231,
      "eval_macro_precision": 87.7511203877084,
      "eval_macro_recall": 83.95845318922241,
      "eval_micro_f1": 89.55974842767296,
      "eval_micro_precision": 89.55974842767296,
      "eval_micro_recall": 89.55974842767296,
      "eval_runtime": 2.01,
      "eval_samples_per_second": 791.054,
      "eval_steps_per_second": 12.438,
      "step": 2128
    },
    {
      "epoch": 38.035714285714285,
      "grad_norm": 0.0016029111575335264,
      "learning_rate": 6.867591174554713e-06,
      "loss": 0.0,
      "step": 2130
    },
    {
      "epoch": 38.125,
      "grad_norm": 0.0014079079264774919,
      "learning_rate": 6.770354504470575e-06,
      "loss": 0.0,
      "step": 2135
    },
    {
      "epoch": 38.214285714285715,
      "grad_norm": 0.0005063859280198812,
      "learning_rate": 6.673703204254347e-06,
      "loss": 0.0,
      "step": 2140
    },
    {
      "epoch": 38.30357142857143,
      "grad_norm": 0.0009960135212168097,
      "learning_rate": 6.577640377463848e-06,
      "loss": 0.0009,
      "step": 2145
    },
    {
      "epoch": 38.392857142857146,
      "grad_norm": 0.0003499105223454535,
      "learning_rate": 6.482169108760511e-06,
      "loss": 0.0,
      "step": 2150
    },
    {
      "epoch": 38.482142857142854,
      "grad_norm": 0.0017842509550973773,
      "learning_rate": 6.387292463810299e-06,
      "loss": 0.0008,
      "step": 2155
    },
    {
      "epoch": 38.57142857142857,
      "grad_norm": 0.0008073888020589948,
      "learning_rate": 6.2930134891853146e-06,
      "loss": 0.0,
      "step": 2160
    },
    {
      "epoch": 38.660714285714285,
      "grad_norm": 0.0010807816870510578,
      "learning_rate": 6.199335212265911e-06,
      "loss": 0.0,
      "step": 2165
    },
    {
      "epoch": 38.75,
      "grad_norm": 0.0004026450333185494,
      "learning_rate": 6.106260641143546e-06,
      "loss": 0.0051,
      "step": 2170
    },
    {
      "epoch": 38.839285714285715,
      "grad_norm": 0.13531385362148285,
      "learning_rate": 6.013792764524129e-06,
      "loss": 0.0008,
      "step": 2175
    },
    {
      "epoch": 38.92857142857143,
      "grad_norm": 0.00043903145706281066,
      "learning_rate": 5.921934551632085e-06,
      "loss": 0.0,
      "step": 2180
    },
    {
      "epoch": 39.0,
      "eval_loss": 1.1880995035171509,
      "eval_macro_f1": 85.5970716119231,
      "eval_macro_precision": 87.7511203877084,
      "eval_macro_recall": 83.95845318922241,
      "eval_micro_f1": 89.55974842767296,
      "eval_micro_precision": 89.55974842767296,
      "eval_micro_recall": 89.55974842767296,
      "eval_runtime": 2.1641,
      "eval_samples_per_second": 734.708,
      "eval_steps_per_second": 11.552,
      "step": 2184
    },
    {
      "epoch": 39.017857142857146,
      "grad_norm": 0.0007070303545333445,
      "learning_rate": 5.830688952115018e-06,
      "loss": 0.0,
      "step": 2185
    },
    {
      "epoch": 39.107142857142854,
      "grad_norm": 0.0003032834501937032,
      "learning_rate": 5.740058895948955e-06,
      "loss": 0.0,
      "step": 2190
    },
    {
      "epoch": 39.19642857142857,
      "grad_norm": 0.1616564691066742,
      "learning_rate": 5.650047293344315e-06,
      "loss": 0.0071,
      "step": 2195
    },
    {
      "epoch": 39.285714285714285,
      "grad_norm": 0.00030247235554270446,
      "learning_rate": 5.560657034652406e-06,
      "loss": 0.0,
      "step": 2200
    },
    {
      "epoch": 39.375,
      "grad_norm": 0.0009000123827718198,
      "learning_rate": 5.471890990272666e-06,
      "loss": 0.0,
      "step": 2205
    },
    {
      "epoch": 39.464285714285715,
      "grad_norm": 0.0009570589754730463,
      "learning_rate": 5.383752010560441e-06,
      "loss": 0.0,
      "step": 2210
    },
    {
      "epoch": 39.55357142857143,
      "grad_norm": 0.0008730028057470918,
      "learning_rate": 5.296242925735487e-06,
      "loss": 0.0,
      "step": 2215
    },
    {
      "epoch": 39.642857142857146,
      "grad_norm": 0.0006854677340015769,
      "learning_rate": 5.2093665457911e-06,
      "loss": 0.0,
      "step": 2220
    },
    {
      "epoch": 39.732142857142854,
      "grad_norm": 0.0013594292104244232,
      "learning_rate": 5.123125660403849e-06,
      "loss": 0.0,
      "step": 2225
    },
    {
      "epoch": 39.82142857142857,
      "grad_norm": 0.0011872885515913367,
      "learning_rate": 5.037523038844033e-06,
      "loss": 0.0,
      "step": 2230
    },
    {
      "epoch": 39.910714285714285,
      "grad_norm": 0.0007189795724116266,
      "learning_rate": 4.952561429886721e-06,
      "loss": 0.0,
      "step": 2235
    },
    {
      "epoch": 40.0,
      "grad_norm": 8.409917063545436e-05,
      "learning_rate": 4.868243561723535e-06,
      "loss": 0.0,
      "step": 2240
    },
    {
      "epoch": 40.0,
      "eval_loss": 1.1868513822555542,
      "eval_macro_f1": 85.77060086961077,
      "eval_macro_precision": 87.93467695199129,
      "eval_macro_recall": 84.12356873895335,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 2.0444,
      "eval_samples_per_second": 777.736,
      "eval_steps_per_second": 12.229,
      "step": 2240
    },
    {
      "epoch": 40.089285714285715,
      "grad_norm": 0.0010488256812095642,
      "learning_rate": 4.7845721418749905e-06,
      "loss": 0.0,
      "step": 2245
    },
    {
      "epoch": 40.17857142857143,
      "grad_norm": 0.00023322908964473754,
      "learning_rate": 4.701549857103588e-06,
      "loss": 0.0,
      "step": 2250
    },
    {
      "epoch": 40.267857142857146,
      "grad_norm": 0.0007012597052380443,
      "learning_rate": 4.619179373327545e-06,
      "loss": 0.0,
      "step": 2255
    },
    {
      "epoch": 40.357142857142854,
      "grad_norm": 0.0006945223431102931,
      "learning_rate": 4.537463335535161e-06,
      "loss": 0.0,
      "step": 2260
    },
    {
      "epoch": 40.44642857142857,
      "grad_norm": 0.003948695491999388,
      "learning_rate": 4.456404367699923e-06,
      "loss": 0.0,
      "step": 2265
    },
    {
      "epoch": 40.535714285714285,
      "grad_norm": 0.0009591460693627596,
      "learning_rate": 4.376005072696204e-06,
      "loss": 0.0,
      "step": 2270
    },
    {
      "epoch": 40.625,
      "grad_norm": 0.0007004874059930444,
      "learning_rate": 4.296268032215733e-06,
      "loss": 0.0,
      "step": 2275
    },
    {
      "epoch": 40.714285714285715,
      "grad_norm": 0.00040511120459996164,
      "learning_rate": 4.217195806684629e-06,
      "loss": 0.0053,
      "step": 2280
    },
    {
      "epoch": 40.80357142857143,
      "grad_norm": 0.0005234309355728328,
      "learning_rate": 4.138790935181258e-06,
      "loss": 0.0,
      "step": 2285
    },
    {
      "epoch": 40.892857142857146,
      "grad_norm": 0.0015812547644600272,
      "learning_rate": 4.061055935354643e-06,
      "loss": 0.0,
      "step": 2290
    },
    {
      "epoch": 40.982142857142854,
      "grad_norm": 0.0006628704722970724,
      "learning_rate": 3.983993303343639e-06,
      "loss": 0.001,
      "step": 2295
    },
    {
      "epoch": 41.0,
      "eval_loss": 1.1929736137390137,
      "eval_macro_f1": 85.96683768424042,
      "eval_macro_precision": 88.38352495427227,
      "eval_macro_recall": 84.16978032362647,
      "eval_micro_f1": 89.87421383647799,
      "eval_micro_precision": 89.87421383647799,
      "eval_micro_recall": 89.87421383647799,
      "eval_runtime": 2.071,
      "eval_samples_per_second": 767.76,
      "eval_steps_per_second": 12.072,
      "step": 2296
    },
    {
      "epoch": 41.07142857142857,
      "grad_norm": 0.0007947610574774444,
      "learning_rate": 3.907605513696808e-06,
      "loss": 0.001,
      "step": 2300
    },
    {
      "epoch": 41.160714285714285,
      "grad_norm": 0.006750487256795168,
      "learning_rate": 3.831895019292897e-06,
      "loss": 0.0,
      "step": 2305
    },
    {
      "epoch": 41.25,
      "grad_norm": 0.0010204770369455218,
      "learning_rate": 3.756864251262143e-06,
      "loss": 0.0,
      "step": 2310
    },
    {
      "epoch": 41.339285714285715,
      "grad_norm": 0.1501074582338333,
      "learning_rate": 3.68251561890815e-06,
      "loss": 0.0062,
      "step": 2315
    },
    {
      "epoch": 41.42857142857143,
      "grad_norm": 0.0004478511691559106,
      "learning_rate": 3.6088515096305674e-06,
      "loss": 0.0,
      "step": 2320
    },
    {
      "epoch": 41.517857142857146,
      "grad_norm": 0.0007376694120466709,
      "learning_rate": 3.535874288848398e-06,
      "loss": 0.0,
      "step": 2325
    },
    {
      "epoch": 41.607142857142854,
      "grad_norm": 0.0005087918252684176,
      "learning_rate": 3.4635862999240457e-06,
      "loss": 0.0,
      "step": 2330
    },
    {
      "epoch": 41.69642857142857,
      "grad_norm": 0.0007002074271440506,
      "learning_rate": 3.391989864088102e-06,
      "loss": 0.0009,
      "step": 2335
    },
    {
      "epoch": 41.785714285714285,
      "grad_norm": 0.0004804203344974667,
      "learning_rate": 3.321087280364757e-06,
      "loss": 0.0,
      "step": 2340
    },
    {
      "epoch": 41.875,
      "grad_norm": 0.00030447664903476834,
      "learning_rate": 3.250880825498026e-06,
      "loss": 0.0,
      "step": 2345
    },
    {
      "epoch": 41.964285714285715,
      "grad_norm": 0.0008117399993352592,
      "learning_rate": 3.181372753878595e-06,
      "loss": 0.0,
      "step": 2350
    },
    {
      "epoch": 42.0,
      "eval_loss": 1.1892344951629639,
      "eval_macro_f1": 85.91846508098604,
      "eval_macro_precision": 88.18629280744503,
      "eval_macro_recall": 84.20809959271497,
      "eval_micro_f1": 89.81132075471699,
      "eval_micro_precision": 89.81132075471699,
      "eval_micro_recall": 89.81132075471699,
      "eval_runtime": 2.1894,
      "eval_samples_per_second": 726.234,
      "eval_steps_per_second": 11.419,
      "step": 2352
    },
    {
      "epoch": 42.05357142857143,
      "grad_norm": 0.0006969855749048293,
      "learning_rate": 3.1125652974714758e-06,
      "loss": 0.0,
      "step": 2355
    },
    {
      "epoch": 42.142857142857146,
      "grad_norm": 0.0007993881008587778,
      "learning_rate": 3.044460665744284e-06,
      "loss": 0.0,
      "step": 2360
    },
    {
      "epoch": 42.232142857142854,
      "grad_norm": 0.14198355376720428,
      "learning_rate": 2.9770610455963547e-06,
      "loss": 0.0009,
      "step": 2365
    },
    {
      "epoch": 42.32142857142857,
      "grad_norm": 0.001101199653930962,
      "learning_rate": 2.9103686012884546e-06,
      "loss": 0.0009,
      "step": 2370
    },
    {
      "epoch": 42.410714285714285,
      "grad_norm": 0.0004274248203728348,
      "learning_rate": 2.8443854743733233e-06,
      "loss": 0.0,
      "step": 2375
    },
    {
      "epoch": 42.5,
      "grad_norm": 0.00032507788273505867,
      "learning_rate": 2.779113783626916e-06,
      "loss": 0.0,
      "step": 2380
    },
    {
      "epoch": 42.589285714285715,
      "grad_norm": 0.4506078064441681,
      "learning_rate": 2.7145556249803193e-06,
      "loss": 0.0055,
      "step": 2385
    },
    {
      "epoch": 42.67857142857143,
      "grad_norm": 0.00020234609837643802,
      "learning_rate": 2.6507130714525095e-06,
      "loss": 0.0,
      "step": 2390
    },
    {
      "epoch": 42.767857142857146,
      "grad_norm": 0.0005826003616675735,
      "learning_rate": 2.5875881730837324e-06,
      "loss": 0.0,
      "step": 2395
    },
    {
      "epoch": 42.857142857142854,
      "grad_norm": 0.000374118477338925,
      "learning_rate": 2.5251829568697207e-06,
      "loss": 0.0,
      "step": 2400
    },
    {
      "epoch": 42.94642857142857,
      "grad_norm": 0.0006962314946576953,
      "learning_rate": 2.463499426696564e-06,
      "loss": 0.0,
      "step": 2405
    },
    {
      "epoch": 43.0,
      "eval_loss": 1.1839672327041626,
      "eval_macro_f1": 85.74461897087475,
      "eval_macro_precision": 88.00197532696066,
      "eval_macro_recall": 84.04298404298405,
      "eval_micro_f1": 89.68553459119497,
      "eval_micro_precision": 89.68553459119497,
      "eval_micro_recall": 89.68553459119497,
      "eval_runtime": 2.6258,
      "eval_samples_per_second": 605.527,
      "eval_steps_per_second": 9.521,
      "step": 2408
    },
    {
      "epoch": 43.035714285714285,
      "grad_norm": 0.0006290263263508677,
      "learning_rate": 2.4025395632763846e-06,
      "loss": 0.0,
      "step": 2410
    },
    {
      "epoch": 43.125,
      "grad_norm": 0.00028139716596342623,
      "learning_rate": 2.3423053240837515e-06,
      "loss": 0.0,
      "step": 2415
    },
    {
      "epoch": 43.214285714285715,
      "grad_norm": 0.0004424660000950098,
      "learning_rate": 2.282798643292777e-06,
      "loss": 0.0009,
      "step": 2420
    },
    {
      "epoch": 43.30357142857143,
      "grad_norm": 0.0006072869873605669,
      "learning_rate": 2.224021431715065e-06,
      "loss": 0.0009,
      "step": 2425
    },
    {
      "epoch": 43.392857142857146,
      "grad_norm": 0.0006662249797955155,
      "learning_rate": 2.165975576738294e-06,
      "loss": 0.0,
      "step": 2430
    },
    {
      "epoch": 43.482142857142854,
      "grad_norm": 0.4406328797340393,
      "learning_rate": 2.108662942265666e-06,
      "loss": 0.0045,
      "step": 2435
    },
    {
      "epoch": 43.57142857142857,
      "grad_norm": 0.0005156341940164566,
      "learning_rate": 2.0520853686560178e-06,
      "loss": 0.0008,
      "step": 2440
    },
    {
      "epoch": 43.660714285714285,
      "grad_norm": 0.0010501693468540907,
      "learning_rate": 1.996244672664749e-06,
      "loss": 0.0,
      "step": 2445
    },
    {
      "epoch": 43.75,
      "grad_norm": 0.0007498673512600362,
      "learning_rate": 1.9411426473854688e-06,
      "loss": 0.0,
      "step": 2450
    },
    {
      "epoch": 43.839285714285715,
      "grad_norm": 0.000809444987680763,
      "learning_rate": 1.8867810621924165e-06,
      "loss": 0.0,
      "step": 2455
    },
    {
      "epoch": 43.92857142857143,
      "grad_norm": 0.0011670913081616163,
      "learning_rate": 1.8331616626836718e-06,
      "loss": 0.0,
      "step": 2460
    },
    {
      "epoch": 44.0,
      "eval_loss": 1.1925363540649414,
      "eval_macro_f1": 85.62321202521304,
      "eval_macro_precision": 87.68582327904362,
      "eval_macro_recall": 84.03903788519173,
      "eval_micro_f1": 89.55974842767296,
      "eval_micro_precision": 89.55974842767296,
      "eval_micro_recall": 89.55974842767296,
      "eval_runtime": 2.1265,
      "eval_samples_per_second": 747.691,
      "eval_steps_per_second": 11.756,
      "step": 2464
    },
    {
      "epoch": 44.017857142857146,
      "grad_norm": 0.0004898426122963428,
      "learning_rate": 1.7802861706250563e-06,
      "loss": 0.0,
      "step": 2465
    },
    {
      "epoch": 44.107142857142854,
      "grad_norm": 0.0005355161265470088,
      "learning_rate": 1.7281562838948966e-06,
      "loss": 0.0044,
      "step": 2470
    },
    {
      "epoch": 44.19642857142857,
      "grad_norm": 0.00022611931490246207,
      "learning_rate": 1.6767736764294605e-06,
      "loss": 0.0,
      "step": 2475
    },
    {
      "epoch": 44.285714285714285,
      "grad_norm": 0.0004798888403456658,
      "learning_rate": 1.626139998169246e-06,
      "loss": 0.0,
      "step": 2480
    },
    {
      "epoch": 44.375,
      "grad_norm": 0.002094451105222106,
      "learning_rate": 1.5762568750059604e-06,
      "loss": 0.0,
      "step": 2485
    },
    {
      "epoch": 44.464285714285715,
      "grad_norm": 0.0004955387557856739,
      "learning_rate": 1.5271259087303314e-06,
      "loss": 0.0,
      "step": 2490
    },
    {
      "epoch": 44.55357142857143,
      "grad_norm": 0.0005791817093268037,
      "learning_rate": 1.4787486769806847e-06,
      "loss": 0.002,
      "step": 2495
    },
    {
      "epoch": 44.642857142857146,
      "grad_norm": 0.0011661151656880975,
      "learning_rate": 1.4311267331922534e-06,
      "loss": 0.0,
      "step": 2500
    },
    {
      "epoch": 44.732142857142854,
      "grad_norm": 0.14946410059928894,
      "learning_rate": 1.3842616065473297e-06,
      "loss": 0.0009,
      "step": 2505
    },
    {
      "epoch": 44.82142857142857,
      "grad_norm": 0.0009950968669727445,
      "learning_rate": 1.3381548019261335e-06,
      "loss": 0.0,
      "step": 2510
    },
    {
      "epoch": 44.910714285714285,
      "grad_norm": 0.0006654797471128404,
      "learning_rate": 1.2928077998585087e-06,
      "loss": 0.0,
      "step": 2515
    },
    {
      "epoch": 45.0,
      "grad_norm": 0.000741883646696806,
      "learning_rate": 1.248222056476367e-06,
      "loss": 0.0,
      "step": 2520
    },
    {
      "epoch": 45.0,
      "eval_loss": 1.1892344951629639,
      "eval_macro_f1": 85.69684730927904,
      "eval_macro_precision": 87.80990783410138,
      "eval_macro_recall": 84.08130331207254,
      "eval_micro_f1": 89.62264150943396,
      "eval_micro_precision": 89.62264150943396,
      "eval_micro_recall": 89.62264150943396,
      "eval_runtime": 2.0693,
      "eval_samples_per_second": 768.362,
      "eval_steps_per_second": 12.081,
      "step": 2520
    },
    {
      "epoch": 45.089285714285715,
      "grad_norm": 0.0008588531636632979,
      "learning_rate": 1.204399003466941e-06,
      "loss": 0.0043,
      "step": 2525
    },
    {
      "epoch": 45.17857142857143,
      "grad_norm": 0.0007599690579809248,
      "learning_rate": 1.1613400480268099e-06,
      "loss": 0.0,
      "step": 2530
    },
    {
      "epoch": 45.267857142857146,
      "grad_norm": 0.0005483416607603431,
      "learning_rate": 1.1190465728167066e-06,
      "loss": 0.0,
      "step": 2535
    },
    {
      "epoch": 45.357142857142854,
      "grad_norm": 0.0006434289389289916,
      "learning_rate": 1.0775199359171345e-06,
      "loss": 0.001,
      "step": 2540
    },
    {
      "epoch": 45.44642857142857,
      "grad_norm": 0.0026349611580371857,
      "learning_rate": 1.0367614707847334e-06,
      "loss": 0.0,
      "step": 2545
    },
    {
      "epoch": 45.535714285714285,
      "grad_norm": 0.00044675698154605925,
      "learning_rate": 9.96772486209485e-07,
      "loss": 0.0,
      "step": 2550
    },
    {
      "epoch": 45.625,
      "grad_norm": 0.0010068505071103573,
      "learning_rate": 9.575542662726754e-07,
      "loss": 0.001,
      "step": 2555
    },
    {
      "epoch": 45.714285714285715,
      "grad_norm": 0.00023187148326542228,
      "learning_rate": 9.191080703056604e-07,
      "loss": 0.0,
      "step": 2560
    },
    {
      "epoch": 45.80357142857143,
      "grad_norm": 0.006482269149273634,
      "learning_rate": 8.814351328494369e-07,
      "loss": 0.0,
      "step": 2565
    },
    {
      "epoch": 45.892857142857146,
      "grad_norm": 0.0037991167046129704,
      "learning_rate": 8.445366636149865e-07,
      "loss": 0.0,
      "step": 2570
    },
    {
      "epoch": 45.982142857142854,
      "grad_norm": 0.0010641113622114062,
      "learning_rate": 8.084138474444503e-07,
      "loss": 0.0009,
      "step": 2575
    },
    {
      "epoch": 46.0,
      "eval_loss": 1.1895390748977661,
      "eval_macro_f1": 85.81857161383309,
      "eval_macro_precision": 88.1284500864264,
      "eval_macro_recall": 84.08524946986486,
      "eval_micro_f1": 89.74842767295598,
      "eval_micro_precision": 89.74842767295598,
      "eval_micro_recall": 89.74842767295598,
      "eval_runtime": 2.0545,
      "eval_samples_per_second": 773.904,
      "eval_steps_per_second": 12.168,
      "step": 2576
    },
    {
      "epoch": 46.07142857142857,
      "grad_norm": 0.0006879018619656563,
      "learning_rate": 7.730678442730538e-07,
      "loss": 0.0,
      "step": 2580
    },
    {
      "epoch": 46.160714285714285,
      "grad_norm": 0.0003646935510914773,
      "learning_rate": 7.384997890918899e-07,
      "loss": 0.0,
      "step": 2585
    },
    {
      "epoch": 46.25,
      "grad_norm": 0.0005362197407521307,
      "learning_rate": 7.047107919114588e-07,
      "loss": 0.0009,
      "step": 2590
    },
    {
      "epoch": 46.339285714285715,
      "grad_norm": 0.0005088266334496439,
      "learning_rate": 6.71701937726027e-07,
      "loss": 0.0009,
      "step": 2595
    },
    {
      "epoch": 46.42857142857143,
      "grad_norm": 0.000821845605969429,
      "learning_rate": 6.394742864787806e-07,
      "loss": 0.0,
      "step": 2600
    },
    {
      "epoch": 46.517857142857146,
      "grad_norm": 0.0003609760315157473,
      "learning_rate": 6.080288730278077e-07,
      "loss": 0.0,
      "step": 2605
    },
    {
      "epoch": 46.607142857142854,
      "grad_norm": 0.0006496753776445985,
      "learning_rate": 5.773667071128447e-07,
      "loss": 0.0,
      "step": 2610
    },
    {
      "epoch": 46.69642857142857,
      "grad_norm": 0.14351055026054382,
      "learning_rate": 5.474887733228656e-07,
      "loss": 0.0009,
      "step": 2615
    },
    {
      "epoch": 46.785714285714285,
      "grad_norm": 0.0012996145524084568,
      "learning_rate": 5.183960310644748e-07,
      "loss": 0.0,
      "step": 2620
    },
    {
      "epoch": 46.875,
      "grad_norm": 0.43366459012031555,
      "learning_rate": 4.900894145310753e-07,
      "loss": 0.0044,
      "step": 2625
    },
    {
      "epoch": 46.964285714285715,
      "grad_norm": 0.0005488655297085643,
      "learning_rate": 4.6256983267289887e-07,
      "loss": 0.0,
      "step": 2630
    },
    {
      "epoch": 47.0,
      "eval_loss": 1.1887431144714355,
      "eval_macro_f1": 86.01816071550488,
      "eval_macro_precision": 88.24407240824033,
      "eval_macro_recall": 84.3309497155651,
      "eval_micro_f1": 89.87421383647799,
      "eval_micro_precision": 89.87421383647799,
      "eval_micro_recall": 89.87421383647799,
      "eval_runtime": 2.1006,
      "eval_samples_per_second": 756.93,
      "eval_steps_per_second": 11.901,
      "step": 2632
    },
    {
      "epoch": 47.05357142857143,
      "grad_norm": 0.4307861626148224,
      "learning_rate": 4.358381691677932e-07,
      "loss": 0.0044,
      "step": 2635
    },
    {
      "epoch": 47.142857142857146,
      "grad_norm": 0.0007851451518945396,
      "learning_rate": 4.098952823928692e-07,
      "loss": 0.0,
      "step": 2640
    },
    {
      "epoch": 47.232142857142854,
      "grad_norm": 0.0006281957612372935,
      "learning_rate": 3.8474200539692087e-07,
      "loss": 0.0,
      "step": 2645
    },
    {
      "epoch": 47.32142857142857,
      "grad_norm": 0.000335185817675665,
      "learning_rate": 3.603791458736766e-07,
      "loss": 0.0,
      "step": 2650
    },
    {
      "epoch": 47.410714285714285,
      "grad_norm": 0.0007661879062652588,
      "learning_rate": 3.3680748613587885e-07,
      "loss": 0.0,
      "step": 2655
    },
    {
      "epoch": 47.5,
      "grad_norm": 0.00047480862122029066,
      "learning_rate": 3.140277830901428e-07,
      "loss": 0.0,
      "step": 2660
    },
    {
      "epoch": 47.589285714285715,
      "grad_norm": 0.0009058488649316132,
      "learning_rate": 2.9204076821266747e-07,
      "loss": 0.0,
      "step": 2665
    },
    {
      "epoch": 47.67857142857143,
      "grad_norm": 0.0015131317777559161,
      "learning_rate": 2.708471475257407e-07,
      "loss": 0.0,
      "step": 2670
    },
    {
      "epoch": 47.767857142857146,
      "grad_norm": 0.001217082142829895,
      "learning_rate": 2.5044760157506565e-07,
      "loss": 0.0018,
      "step": 2675
    },
    {
      "epoch": 47.857142857142854,
      "grad_norm": 0.0005450554890558124,
      "learning_rate": 2.3084278540791427e-07,
      "loss": 0.0,
      "step": 2680
    },
    {
      "epoch": 47.94642857142857,
      "grad_norm": 0.0010108886053785682,
      "learning_rate": 2.1203332855208313e-07,
      "loss": 0.0,
      "step": 2685
    },
    {
      "epoch": 48.0,
      "eval_loss": 1.1932783126831055,
      "eval_macro_f1": 85.84447327097699,
      "eval_macro_precision": 88.06013659836749,
      "eval_macro_recall": 84.16583416583417,
      "eval_micro_f1": 89.74842767295598,
      "eval_micro_precision": 89.74842767295598,
      "eval_micro_recall": 89.74842767295598,
      "eval_runtime": 2.0801,
      "eval_samples_per_second": 764.369,
      "eval_steps_per_second": 12.018,
      "step": 2688
    },
    {
      "epoch": 48.035714285714285,
      "grad_norm": 0.0012142349733039737,
      "learning_rate": 1.9401983499569842e-07,
      "loss": 0.0009,
      "step": 2690
    },
    {
      "epoch": 48.125,
      "grad_norm": 0.0010546569246798754,
      "learning_rate": 1.768028831677926e-07,
      "loss": 0.0,
      "step": 2695
    },
    {
      "epoch": 48.214285714285715,
      "grad_norm": 0.0007233622018247843,
      "learning_rate": 1.6038302591975806e-07,
      "loss": 0.0043,
      "step": 2700
    },
    {
      "epoch": 48.30357142857143,
      "grad_norm": 0.0009546867804601789,
      "learning_rate": 1.4476079050757818e-07,
      "loss": 0.0,
      "step": 2705
    },
    {
      "epoch": 48.392857142857146,
      "grad_norm": 0.0010814859997481108,
      "learning_rate": 1.29936678574899e-07,
      "loss": 0.0009,
      "step": 2710
    },
    {
      "epoch": 48.482142857142854,
      "grad_norm": 0.00036580185405910015,
      "learning_rate": 1.1591116613692832e-07,
      "loss": 0.0,
      "step": 2715
    },
    {
      "epoch": 48.57142857142857,
      "grad_norm": 0.0009721943642944098,
      "learning_rate": 1.0268470356514237e-07,
      "loss": 0.0009,
      "step": 2720
    },
    {
      "epoch": 48.660714285714285,
      "grad_norm": 0.000539219006896019,
      "learning_rate": 9.025771557282792e-08,
      "loss": 0.0,
      "step": 2725
    },
    {
      "epoch": 48.75,
      "grad_norm": 0.0017280342290177941,
      "learning_rate": 7.863060120144317e-08,
      "loss": 0.0009,
      "step": 2730
    },
    {
      "epoch": 48.839285714285715,
      "grad_norm": 0.0009316341020166874,
      "learning_rate": 6.780373380780025e-08,
      "loss": 0.0,
      "step": 2735
    },
    {
      "epoch": 48.92857142857143,
      "grad_norm": 0.0016215546056628227,
      "learning_rate": 5.7777461052091474e-08,
      "loss": 0.0,
      "step": 2740
    },
    {
      "epoch": 49.0,
      "eval_loss": 1.190055012702942,
      "eval_macro_f1": 85.81857161383309,
      "eval_macro_precision": 88.1284500864264,
      "eval_macro_recall": 84.08524946986486,
      "eval_micro_f1": 89.74842767295598,
      "eval_micro_precision": 89.74842767295598,
      "eval_micro_recall": 89.74842767295598,
      "eval_runtime": 2.1039,
      "eval_samples_per_second": 755.753,
      "eval_steps_per_second": 11.883,
      "step": 2744
    },
    {
      "epoch": 49.017857142857146,
      "grad_norm": 0.0018325834535062313,
      "learning_rate": 4.855210488670381e-08,
      "loss": 0.0,
      "step": 2745
    },
    {
      "epoch": 49.107142857142854,
      "grad_norm": 0.00028368146740831435,
      "learning_rate": 4.01279615458966e-08,
      "loss": 0.0,
      "step": 2750
    },
    {
      "epoch": 49.19642857142857,
      "grad_norm": 0.0009773739147931337,
      "learning_rate": 3.250530153628417e-08,
      "loss": 0.0009,
      "step": 2755
    },
    {
      "epoch": 49.285714285714285,
      "grad_norm": 0.0006530345417559147,
      "learning_rate": 2.5684369628148353e-08,
      "loss": 0.0009,
      "step": 2760
    },
    {
      "epoch": 49.375,
      "grad_norm": 0.001267548301257193,
      "learning_rate": 1.9665384847583622e-08,
      "loss": 0.0,
      "step": 2765
    },
    {
      "epoch": 49.464285714285715,
      "grad_norm": 0.00035301086609251797,
      "learning_rate": 1.4448540469458316e-08,
      "loss": 0.0,
      "step": 2770
    },
    {
      "epoch": 49.55357142857143,
      "grad_norm": 0.0017323438078165054,
      "learning_rate": 1.0034004011202913e-08,
      "loss": 0.0,
      "step": 2775
    },
    {
      "epoch": 49.642857142857146,
      "grad_norm": 0.0008427600259892642,
      "learning_rate": 6.421917227455998e-09,
      "loss": 0.0,
      "step": 2780
    },
    {
      "epoch": 49.732142857142854,
      "grad_norm": 0.14544406533241272,
      "learning_rate": 3.6123961054762567e-09,
      "loss": 0.0009,
      "step": 2785
    },
    {
      "epoch": 49.82142857142857,
      "grad_norm": 0.0004677158431150019,
      "learning_rate": 1.605530861450988e-09,
      "loss": 0.0,
      "step": 2790
    },
    {
      "epoch": 49.910714285714285,
      "grad_norm": 0.0009074215777218342,
      "learning_rate": 4.0138593757621523e-10,
      "loss": 0.0,
      "step": 2795
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.0004363281768746674,
      "learning_rate": 0.0,
      "loss": 0.0043,
      "step": 2800
    },
    {
      "epoch": 50.0,
      "eval_loss": 1.1904431581497192,
      "eval_macro_f1": 85.6707858264491,
      "eval_macro_precision": 87.87620078849466,
      "eval_macro_recall": 84.00071861610323,
      "eval_micro_f1": 89.62264150943396,
      "eval_micro_precision": 89.62264150943396,
      "eval_micro_recall": 89.62264150943396,
      "eval_runtime": 2.6821,
      "eval_samples_per_second": 592.81,
      "eval_steps_per_second": 9.321,
      "step": 2800
    },
    {
      "epoch": 50.0,
      "step": 2800,
      "total_flos": 1.502828979688571e+17,
      "train_loss": 0.1562508400436075,
      "train_runtime": 2658.12,
      "train_samples_per_second": 269.1,
      "train_steps_per_second": 1.053
    }
  ],
  "logging_steps": 5,
  "max_steps": 2800,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.502828979688571e+17,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}