{
  "best_metric": 11.925721168518066,
  "best_model_checkpoint": "miner_id_24/checkpoint-75",
  "epoch": 3.0328068043742404,
  "eval_steps": 25,
  "global_step": 78,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.038882138517618466,
      "grad_norm": 0.014918850734829903,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 11.9307,
      "step": 1
    },
    {
      "epoch": 0.038882138517618466,
      "eval_loss": 11.93078327178955,
      "eval_runtime": 0.1644,
      "eval_samples_per_second": 304.085,
      "eval_steps_per_second": 79.062,
      "step": 1
    },
    {
      "epoch": 0.07776427703523693,
      "grad_norm": 0.01353289745748043,
      "learning_rate": 6.666666666666667e-05,
      "loss": 11.931,
      "step": 2
    },
    {
      "epoch": 0.1166464155528554,
      "grad_norm": 0.014034337364137173,
      "learning_rate": 0.0001,
      "loss": 11.9303,
      "step": 3
    },
    {
      "epoch": 0.15552855407047386,
      "grad_norm": 0.01396939530968666,
      "learning_rate": 9.996052735444863e-05,
      "loss": 11.9296,
      "step": 4
    },
    {
      "epoch": 0.19441069258809235,
      "grad_norm": 0.013935886323451996,
      "learning_rate": 9.98421786662277e-05,
      "loss": 11.9313,
      "step": 5
    },
    {
      "epoch": 0.2332928311057108,
      "grad_norm": 0.013108586892485619,
      "learning_rate": 9.964516155915151e-05,
      "loss": 11.9302,
      "step": 6
    },
    {
      "epoch": 0.27217496962332927,
      "grad_norm": 0.012689103372395039,
      "learning_rate": 9.936982166817273e-05,
      "loss": 11.9304,
      "step": 7
    },
    {
      "epoch": 0.3110571081409477,
      "grad_norm": 0.012829549610614777,
      "learning_rate": 9.901664203302126e-05,
      "loss": 11.9297,
      "step": 8
    },
    {
      "epoch": 0.34993924665856624,
      "grad_norm": 0.013445321470499039,
      "learning_rate": 9.858624225078841e-05,
      "loss": 11.931,
      "step": 9
    },
    {
      "epoch": 0.3888213851761847,
      "grad_norm": 0.013827052898705006,
      "learning_rate": 9.807937738894303e-05,
      "loss": 11.9306,
      "step": 10
    },
    {
      "epoch": 0.42770352369380316,
      "grad_norm": 0.013323170132935047,
      "learning_rate": 9.749693666068664e-05,
      "loss": 11.9304,
      "step": 11
    },
    {
      "epoch": 0.4665856622114216,
      "grad_norm": 0.01601136475801468,
      "learning_rate": 9.683994186497132e-05,
      "loss": 11.9301,
      "step": 12
    },
    {
      "epoch": 0.5054678007290401,
      "grad_norm": 0.014844357036054134,
      "learning_rate": 9.610954559391703e-05,
      "loss": 11.9298,
      "step": 13
    },
    {
      "epoch": 0.5443499392466585,
      "grad_norm": 0.01699352264404297,
      "learning_rate": 9.530702921077358e-05,
      "loss": 11.9301,
      "step": 14
    },
    {
      "epoch": 0.583232077764277,
      "grad_norm": 0.017707666382193565,
      "learning_rate": 9.443380060197387e-05,
      "loss": 11.9297,
      "step": 15
    },
    {
      "epoch": 0.6221142162818954,
      "grad_norm": 0.019840450957417488,
      "learning_rate": 9.349139170722281e-05,
      "loss": 11.9296,
      "step": 16
    },
    {
      "epoch": 0.660996354799514,
      "grad_norm": 0.01751299761235714,
      "learning_rate": 9.248145583195448e-05,
      "loss": 11.93,
      "step": 17
    },
    {
      "epoch": 0.6998784933171325,
      "grad_norm": 0.019310379400849342,
      "learning_rate": 9.140576474687264e-05,
      "loss": 11.9302,
      "step": 18
    },
    {
      "epoch": 0.7387606318347509,
      "grad_norm": 0.02049989625811577,
      "learning_rate": 9.02662055796628e-05,
      "loss": 11.9301,
      "step": 19
    },
    {
      "epoch": 0.7776427703523694,
      "grad_norm": 0.023226914927363396,
      "learning_rate": 8.906477750432904e-05,
      "loss": 11.9305,
      "step": 20
    },
    {
      "epoch": 0.8165249088699879,
      "grad_norm": 0.02360590733587742,
      "learning_rate": 8.780358823396352e-05,
      "loss": 11.9297,
      "step": 21
    },
    {
      "epoch": 0.8554070473876063,
      "grad_norm": 0.02631574310362339,
      "learning_rate": 8.648485032310145e-05,
      "loss": 11.9296,
      "step": 22
    },
    {
      "epoch": 0.8942891859052248,
      "grad_norm": 0.024219537153840065,
      "learning_rate": 8.511087728614862e-05,
      "loss": 11.9293,
      "step": 23
    },
    {
      "epoch": 0.9331713244228432,
      "grad_norm": 0.0247565396130085,
      "learning_rate": 8.368407953869104e-05,
      "loss": 11.9295,
      "step": 24
    },
    {
      "epoch": 0.9720534629404617,
      "grad_norm": 0.028375504538416862,
      "learning_rate": 8.220696016880688e-05,
      "loss": 11.9293,
      "step": 25
    },
    {
      "epoch": 0.9720534629404617,
      "eval_loss": 11.929498672485352,
      "eval_runtime": 0.1735,
      "eval_samples_per_second": 288.159,
      "eval_steps_per_second": 74.921,
      "step": 25
    },
    {
      "epoch": 1.0109356014580801,
      "grad_norm": 0.040401361882686615,
      "learning_rate": 8.068211054579944e-05,
      "loss": 15.7665,
      "step": 26
    },
    {
      "epoch": 1.0498177399756987,
      "grad_norm": 0.02929534763097763,
      "learning_rate": 7.911220577405484e-05,
      "loss": 11.5667,
      "step": 27
    },
    {
      "epoch": 1.088699878493317,
      "grad_norm": 0.03485700115561485,
      "learning_rate": 7.75e-05,
      "loss": 11.9189,
      "step": 28
    },
    {
      "epoch": 1.1275820170109356,
      "grad_norm": 0.03388795256614685,
      "learning_rate": 7.58483215803938e-05,
      "loss": 11.949,
      "step": 29
    },
    {
      "epoch": 1.166464155528554,
      "grad_norm": 0.034312646836042404,
      "learning_rate": 7.416006812042828e-05,
      "loss": 11.9847,
      "step": 30
    },
    {
      "epoch": 1.2053462940461726,
      "grad_norm": 0.03601393848657608,
      "learning_rate": 7.243820139034464e-05,
      "loss": 12.0144,
      "step": 31
    },
    {
      "epoch": 1.2442284325637911,
      "grad_norm": 0.036502160131931305,
      "learning_rate": 7.068574212948169e-05,
      "loss": 10.1803,
      "step": 32
    },
    {
      "epoch": 1.2831105710814095,
      "grad_norm": 0.04287666827440262,
      "learning_rate": 6.890576474687263e-05,
      "loss": 13.5795,
      "step": 33
    },
    {
      "epoch": 1.3219927095990278,
      "grad_norm": 0.03922225162386894,
      "learning_rate": 6.710139192768695e-05,
      "loss": 11.8847,
      "step": 34
    },
    {
      "epoch": 1.3608748481166464,
      "grad_norm": 0.04132093861699104,
      "learning_rate": 6.527578915497951e-05,
      "loss": 11.8953,
      "step": 35
    },
    {
      "epoch": 1.399756986634265,
      "grad_norm": 0.04224833473563194,
      "learning_rate": 6.343215915635762e-05,
      "loss": 12.0037,
      "step": 36
    },
    {
      "epoch": 1.4386391251518833,
      "grad_norm": 0.043481286615133286,
      "learning_rate": 6.157373628530852e-05,
      "loss": 12.02,
      "step": 37
    },
    {
      "epoch": 1.4775212636695019,
      "grad_norm": 0.03796209394931793,
      "learning_rate": 5.970378084704441e-05,
      "loss": 10.4265,
      "step": 38
    },
    {
      "epoch": 1.5164034021871204,
      "grad_norm": 0.05169103294610977,
      "learning_rate": 5.782557337881911e-05,
      "loss": 13.3929,
      "step": 39
    },
    {
      "epoch": 1.5552855407047388,
      "grad_norm": 0.05713505670428276,
      "learning_rate": 5.594240889475107e-05,
      "loss": 11.8534,
      "step": 40
    },
    {
      "epoch": 1.5941676792223571,
      "grad_norm": 0.05261213704943657,
      "learning_rate": 5.405759110524894e-05,
      "loss": 11.9753,
      "step": 41
    },
    {
      "epoch": 1.6330498177399757,
      "grad_norm": 0.054083358496427536,
      "learning_rate": 5.2174426621180906e-05,
      "loss": 11.8783,
      "step": 42
    },
    {
      "epoch": 1.6719319562575943,
      "grad_norm": 0.05065353214740753,
      "learning_rate": 5.0296219152955604e-05,
      "loss": 11.9125,
      "step": 43
    },
    {
      "epoch": 1.7108140947752126,
      "grad_norm": 0.051207464188337326,
      "learning_rate": 4.842626371469149e-05,
      "loss": 11.2621,
      "step": 44
    },
    {
      "epoch": 1.749696233292831,
      "grad_norm": 0.056596074253320694,
      "learning_rate": 4.6567840843642384e-05,
      "loss": 12.7356,
      "step": 45
    },
    {
      "epoch": 1.7885783718104495,
      "grad_norm": 0.05199764668941498,
      "learning_rate": 4.47242108450205e-05,
      "loss": 11.803,
      "step": 46
    },
    {
      "epoch": 1.827460510328068,
      "grad_norm": 0.058344073593616486,
      "learning_rate": 4.289860807231305e-05,
      "loss": 11.8826,
      "step": 47
    },
    {
      "epoch": 1.8663426488456865,
      "grad_norm": 0.058403000235557556,
      "learning_rate": 4.109423525312738e-05,
      "loss": 11.9702,
      "step": 48
    },
    {
      "epoch": 1.905224787363305,
      "grad_norm": 0.056455984711647034,
      "learning_rate": 3.9314257870518325e-05,
      "loss": 11.9115,
      "step": 49
    },
    {
      "epoch": 1.9441069258809236,
      "grad_norm": 0.05888408422470093,
      "learning_rate": 3.756179860965538e-05,
      "loss": 12.3033,
      "step": 50
    },
    {
      "epoch": 1.9441069258809236,
      "eval_loss": 11.927024841308594,
      "eval_runtime": 0.1794,
      "eval_samples_per_second": 278.689,
      "eval_steps_per_second": 72.459,
      "step": 50
    },
    {
      "epoch": 1.982989064398542,
      "grad_norm": 0.060653410851955414,
      "learning_rate": 3.583993187957173e-05,
      "loss": 13.7084,
      "step": 51
    },
    {
      "epoch": 2.0218712029161603,
      "grad_norm": 0.06591035425662994,
      "learning_rate": 3.415167841960624e-05,
      "loss": 13.4543,
      "step": 52
    },
    {
      "epoch": 2.0607533414337786,
      "grad_norm": 0.05963635444641113,
      "learning_rate": 3.250000000000001e-05,
      "loss": 11.6557,
      "step": 53
    },
    {
      "epoch": 2.0996354799513974,
      "grad_norm": 0.061763495206832886,
      "learning_rate": 3.088779422594514e-05,
      "loss": 11.864,
      "step": 54
    },
    {
      "epoch": 2.138517618469016,
      "grad_norm": 0.06123707816004753,
      "learning_rate": 2.931788945420058e-05,
      "loss": 11.943,
      "step": 55
    },
    {
      "epoch": 2.177399756986634,
      "grad_norm": 0.058479394763708115,
      "learning_rate": 2.7793039831193136e-05,
      "loss": 11.9007,
      "step": 56
    },
    {
      "epoch": 2.216281895504253,
      "grad_norm": 0.06558443605899811,
      "learning_rate": 2.6315920461308964e-05,
      "loss": 12.1986,
      "step": 57
    },
    {
      "epoch": 2.2551640340218713,
      "grad_norm": 0.05609237775206566,
      "learning_rate": 2.4889122713851394e-05,
      "loss": 10.876,
      "step": 58
    },
    {
      "epoch": 2.2940461725394896,
      "grad_norm": 0.06411944329738617,
      "learning_rate": 2.3515149676898555e-05,
      "loss": 12.7099,
      "step": 59
    },
    {
      "epoch": 2.332928311057108,
      "grad_norm": 0.05990379676222801,
      "learning_rate": 2.219641176603649e-05,
      "loss": 11.9093,
      "step": 60
    },
    {
      "epoch": 2.3718104495747268,
      "grad_norm": 0.0649360865354538,
      "learning_rate": 2.093522249567097e-05,
      "loss": 11.9056,
      "step": 61
    },
    {
      "epoch": 2.410692588092345,
      "grad_norm": 0.05821375548839569,
      "learning_rate": 1.9733794420337214e-05,
      "loss": 12.0291,
      "step": 62
    },
    {
      "epoch": 2.4495747266099634,
      "grad_norm": 0.06164148449897766,
      "learning_rate": 1.8594235253127375e-05,
      "loss": 11.9831,
      "step": 63
    },
    {
      "epoch": 2.4884568651275822,
      "grad_norm": 0.049838095903396606,
      "learning_rate": 1.7518544168045525e-05,
      "loss": 9.6718,
      "step": 64
    },
    {
      "epoch": 2.5273390036452006,
      "grad_norm": 0.07934998720884323,
      "learning_rate": 1.6508608292777204e-05,
      "loss": 14.1674,
      "step": 65
    },
    {
      "epoch": 2.566221142162819,
      "grad_norm": 0.06411939859390259,
      "learning_rate": 1.556619939802615e-05,
      "loss": 11.8682,
      "step": 66
    },
    {
      "epoch": 2.6051032806804373,
      "grad_norm": 0.06908944249153137,
      "learning_rate": 1.469297078922642e-05,
      "loss": 11.9497,
      "step": 67
    },
    {
      "epoch": 2.6439854191980556,
      "grad_norm": 0.06128174439072609,
      "learning_rate": 1.389045440608296e-05,
      "loss": 11.8511,
      "step": 68
    },
    {
      "epoch": 2.6828675577156744,
      "grad_norm": 0.06439146399497986,
      "learning_rate": 1.3160058135028691e-05,
      "loss": 12.0211,
      "step": 69
    },
    {
      "epoch": 2.7217496962332928,
      "grad_norm": 0.04989875480532646,
      "learning_rate": 1.2503063339313356e-05,
      "loss": 10.1137,
      "step": 70
    },
    {
      "epoch": 2.760631834750911,
      "grad_norm": 0.07046696543693542,
      "learning_rate": 1.1920622611056975e-05,
      "loss": 13.7682,
      "step": 71
    },
    {
      "epoch": 2.79951397326853,
      "grad_norm": 0.07342434674501419,
      "learning_rate": 1.1413757749211602e-05,
      "loss": 11.8321,
      "step": 72
    },
    {
      "epoch": 2.8383961117861483,
      "grad_norm": 0.07050646096467972,
      "learning_rate": 1.0983357966978745e-05,
      "loss": 11.8388,
      "step": 73
    },
    {
      "epoch": 2.8772782503037666,
      "grad_norm": 0.06845477968454361,
      "learning_rate": 1.0630178331827282e-05,
      "loss": 11.9369,
      "step": 74
    },
    {
      "epoch": 2.9161603888213854,
      "grad_norm": 0.06277810037136078,
      "learning_rate": 1.0354838440848503e-05,
      "loss": 11.9736,
      "step": 75
    },
    {
      "epoch": 2.9161603888213854,
      "eval_loss": 11.925721168518066,
      "eval_runtime": 0.1689,
      "eval_samples_per_second": 296.041,
      "eval_steps_per_second": 76.971,
      "step": 75
    },
    {
      "epoch": 2.9550425273390037,
      "grad_norm": 0.0674208551645279,
      "learning_rate": 1.0157821333772305e-05,
      "loss": 12.5571,
      "step": 76
    },
    {
      "epoch": 2.993924665856622,
      "grad_norm": 0.07669148594141006,
      "learning_rate": 1.0039472645551373e-05,
      "loss": 14.3253,
      "step": 77
    },
    {
      "epoch": 3.0328068043742404,
      "grad_norm": 0.06346745043992996,
      "learning_rate": 1e-05,
      "loss": 12.3142,
      "step": 78
    }
  ],
  "logging_steps": 1,
  "max_steps": 78,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1626291044352.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}