{
  "best_metric": 0.06366079300642014,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.6688963210702341,
  "eval_steps": 25,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013377926421404682,
      "grad_norm": 3.2827811241149902,
      "learning_rate": 5e-05,
      "loss": 0.9393,
      "step": 1
    },
    {
      "epoch": 0.013377926421404682,
      "eval_loss": 2.232588529586792,
      "eval_runtime": 2.659,
      "eval_samples_per_second": 18.804,
      "eval_steps_per_second": 4.889,
      "step": 1
    },
    {
      "epoch": 0.026755852842809364,
      "grad_norm": 4.340973377227783,
      "learning_rate": 0.0001,
      "loss": 1.186,
      "step": 2
    },
    {
      "epoch": 0.04013377926421405,
      "grad_norm": 4.168990135192871,
      "learning_rate": 9.990365154573717e-05,
      "loss": 0.9909,
      "step": 3
    },
    {
      "epoch": 0.05351170568561873,
      "grad_norm": 4.1799492835998535,
      "learning_rate": 9.961501876182148e-05,
      "loss": 0.3808,
      "step": 4
    },
    {
      "epoch": 0.06688963210702341,
      "grad_norm": 1.316872477531433,
      "learning_rate": 9.913533761814537e-05,
      "loss": 0.1446,
      "step": 5
    },
    {
      "epoch": 0.0802675585284281,
      "grad_norm": 2.9145236015319824,
      "learning_rate": 9.846666218300807e-05,
      "loss": 0.202,
      "step": 6
    },
    {
      "epoch": 0.09364548494983277,
      "grad_norm": 0.9867770075798035,
      "learning_rate": 9.761185582727977e-05,
      "loss": 0.1295,
      "step": 7
    },
    {
      "epoch": 0.10702341137123746,
      "grad_norm": 1.4247565269470215,
      "learning_rate": 9.657457896300791e-05,
      "loss": 0.1564,
      "step": 8
    },
    {
      "epoch": 0.12040133779264214,
      "grad_norm": 1.28689706325531,
      "learning_rate": 9.535927336897098e-05,
      "loss": 0.1519,
      "step": 9
    },
    {
      "epoch": 0.13377926421404682,
      "grad_norm": 1.1656962633132935,
      "learning_rate": 9.397114317029975e-05,
      "loss": 0.1154,
      "step": 10
    },
    {
      "epoch": 0.14715719063545152,
      "grad_norm": 0.8730261921882629,
      "learning_rate": 9.241613255361455e-05,
      "loss": 0.1187,
      "step": 11
    },
    {
      "epoch": 0.1605351170568562,
      "grad_norm": 1.448145866394043,
      "learning_rate": 9.070090031310558e-05,
      "loss": 0.144,
      "step": 12
    },
    {
      "epoch": 0.17391304347826086,
      "grad_norm": 0.7096520662307739,
      "learning_rate": 8.883279133655399e-05,
      "loss": 0.0622,
      "step": 13
    },
    {
      "epoch": 0.18729096989966554,
      "grad_norm": 0.4902406632900238,
      "learning_rate": 8.681980515339464e-05,
      "loss": 0.0473,
      "step": 14
    },
    {
      "epoch": 0.20066889632107024,
      "grad_norm": 0.4023407995700836,
      "learning_rate": 8.467056167950311e-05,
      "loss": 0.0444,
      "step": 15
    },
    {
      "epoch": 0.2140468227424749,
      "grad_norm": 0.3274248540401459,
      "learning_rate": 8.239426430539243e-05,
      "loss": 0.0378,
      "step": 16
    },
    {
      "epoch": 0.22742474916387959,
      "grad_norm": 0.4665308892726898,
      "learning_rate": 8.000066048588211e-05,
      "loss": 0.0428,
      "step": 17
    },
    {
      "epoch": 0.2408026755852843,
      "grad_norm": 0.6276888251304626,
      "learning_rate": 7.75e-05,
      "loss": 0.0729,
      "step": 18
    },
    {
      "epoch": 0.25418060200668896,
      "grad_norm": 0.575313925743103,
      "learning_rate": 7.490299105985507e-05,
      "loss": 0.0597,
      "step": 19
    },
    {
      "epoch": 0.26755852842809363,
      "grad_norm": 0.632771372795105,
      "learning_rate": 7.222075445642904e-05,
      "loss": 0.0821,
      "step": 20
    },
    {
      "epoch": 0.2809364548494983,
      "grad_norm": 0.7341238260269165,
      "learning_rate": 6.946477593864228e-05,
      "loss": 0.0857,
      "step": 21
    },
    {
      "epoch": 0.29431438127090304,
      "grad_norm": 1.0600643157958984,
      "learning_rate": 6.664685702961344e-05,
      "loss": 0.0811,
      "step": 22
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 1.0208423137664795,
      "learning_rate": 6.377906449072578e-05,
      "loss": 0.1188,
      "step": 23
    },
    {
      "epoch": 0.3210702341137124,
      "grad_norm": 2.6420693397521973,
      "learning_rate": 6.087367864990233e-05,
      "loss": 0.1534,
      "step": 24
    },
    {
      "epoch": 0.33444816053511706,
      "grad_norm": 1.3758301734924316,
      "learning_rate": 5.794314081535644e-05,
      "loss": 0.1312,
      "step": 25
    },
    {
      "epoch": 0.33444816053511706,
      "eval_loss": 0.07491393387317657,
      "eval_runtime": 2.0417,
      "eval_samples_per_second": 24.49,
      "eval_steps_per_second": 6.367,
      "step": 25
    },
    {
      "epoch": 0.34782608695652173,
      "grad_norm": 0.2125326544046402,
      "learning_rate": 5.500000000000001e-05,
      "loss": 0.0277,
      "step": 26
    },
    {
      "epoch": 0.3612040133779264,
      "grad_norm": 0.2617689371109009,
      "learning_rate": 5.205685918464356e-05,
      "loss": 0.0363,
      "step": 27
    },
    {
      "epoch": 0.3745819397993311,
      "grad_norm": 0.3152575194835663,
      "learning_rate": 4.912632135009769e-05,
      "loss": 0.0425,
      "step": 28
    },
    {
      "epoch": 0.3879598662207358,
      "grad_norm": 0.3223755359649658,
      "learning_rate": 4.6220935509274235e-05,
      "loss": 0.0452,
      "step": 29
    },
    {
      "epoch": 0.4013377926421405,
      "grad_norm": 0.3094390034675598,
      "learning_rate": 4.3353142970386564e-05,
      "loss": 0.0455,
      "step": 30
    },
    {
      "epoch": 0.41471571906354515,
      "grad_norm": 0.59200119972229,
      "learning_rate": 4.053522406135775e-05,
      "loss": 0.0743,
      "step": 31
    },
    {
      "epoch": 0.4280936454849498,
      "grad_norm": 0.4043537676334381,
      "learning_rate": 3.777924554357096e-05,
      "loss": 0.0678,
      "step": 32
    },
    {
      "epoch": 0.4414715719063545,
      "grad_norm": 0.5670768618583679,
      "learning_rate": 3.509700894014496e-05,
      "loss": 0.0713,
      "step": 33
    },
    {
      "epoch": 0.45484949832775917,
      "grad_norm": 0.5830342769622803,
      "learning_rate": 3.250000000000001e-05,
      "loss": 0.0739,
      "step": 34
    },
    {
      "epoch": 0.4682274247491639,
      "grad_norm": 0.6221596002578735,
      "learning_rate": 2.9999339514117912e-05,
      "loss": 0.0888,
      "step": 35
    },
    {
      "epoch": 0.4816053511705686,
      "grad_norm": 1.2166249752044678,
      "learning_rate": 2.760573569460757e-05,
      "loss": 0.1063,
      "step": 36
    },
    {
      "epoch": 0.49498327759197325,
      "grad_norm": 0.6762146353721619,
      "learning_rate": 2.53294383204969e-05,
      "loss": 0.1332,
      "step": 37
    },
    {
      "epoch": 0.5083612040133779,
      "grad_norm": 0.3584815561771393,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 0.0427,
      "step": 38
    },
    {
      "epoch": 0.5217391304347826,
      "grad_norm": 0.2325064241886139,
      "learning_rate": 2.1167208663446025e-05,
      "loss": 0.0389,
      "step": 39
    },
    {
      "epoch": 0.5351170568561873,
      "grad_norm": 0.35842856764793396,
      "learning_rate": 1.9299099686894423e-05,
      "loss": 0.0469,
      "step": 40
    },
    {
      "epoch": 0.5484949832775919,
      "grad_norm": 0.22800928354263306,
      "learning_rate": 1.758386744638546e-05,
      "loss": 0.0406,
      "step": 41
    },
    {
      "epoch": 0.5618729096989966,
      "grad_norm": 0.3128259479999542,
      "learning_rate": 1.602885682970026e-05,
      "loss": 0.0479,
      "step": 42
    },
    {
      "epoch": 0.5752508361204013,
      "grad_norm": 0.33522772789001465,
      "learning_rate": 1.464072663102903e-05,
      "loss": 0.0537,
      "step": 43
    },
    {
      "epoch": 0.5886287625418061,
      "grad_norm": 0.3280828297138214,
      "learning_rate": 1.3425421036992098e-05,
      "loss": 0.0474,
      "step": 44
    },
    {
      "epoch": 0.6020066889632107,
      "grad_norm": 0.37720221281051636,
      "learning_rate": 1.2388144172720251e-05,
      "loss": 0.0659,
      "step": 45
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.4423535168170929,
      "learning_rate": 1.1533337816991932e-05,
      "loss": 0.0666,
      "step": 46
    },
    {
      "epoch": 0.6287625418060201,
      "grad_norm": 0.470283180475235,
      "learning_rate": 1.0864662381854632e-05,
      "loss": 0.0855,
      "step": 47
    },
    {
      "epoch": 0.6421404682274248,
      "grad_norm": 0.67109215259552,
      "learning_rate": 1.0384981238178534e-05,
      "loss": 0.1084,
      "step": 48
    },
    {
      "epoch": 0.6555183946488294,
      "grad_norm": 0.5484521389007568,
      "learning_rate": 1.0096348454262845e-05,
      "loss": 0.091,
      "step": 49
    },
    {
      "epoch": 0.6688963210702341,
      "grad_norm": 0.7168601751327515,
      "learning_rate": 1e-05,
      "loss": 0.1054,
      "step": 50
    },
    {
      "epoch": 0.6688963210702341,
      "eval_loss": 0.06366079300642014,
      "eval_runtime": 2.0413,
      "eval_samples_per_second": 24.495,
      "eval_steps_per_second": 6.369,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.968083617316864e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}