{
  "best_metric": 2.354668378829956,
  "best_model_checkpoint": "bert_tiny_lda_100_v1_stsb/checkpoint-207",
  "epoch": 14.0,
  "eval_steps": 500,
  "global_step": 322,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 23.892215728759766,
      "learning_rate": 0.00098,
      "loss": 4.3798,
      "step": 23
    },
    {
      "epoch": 1.0,
      "eval_combined_score": NaN,
      "eval_loss": 3.4025566577911377,
      "eval_pearson": NaN,
      "eval_runtime": 0.4491,
      "eval_samples_per_second": 3339.749,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.359,
      "step": 23
    },
    {
      "epoch": 2.0,
      "grad_norm": 5.764803409576416,
      "learning_rate": 0.00096,
      "loss": 2.2683,
      "step": 46
    },
    {
      "epoch": 2.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.737987518310547,
      "eval_pearson": NaN,
      "eval_runtime": 0.4468,
      "eval_samples_per_second": 3357.434,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.43,
      "step": 46
    },
    {
      "epoch": 3.0,
      "grad_norm": 16.960420608520508,
      "learning_rate": 0.00094,
      "loss": 2.2687,
      "step": 69
    },
    {
      "epoch": 3.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.7826263904571533,
      "eval_pearson": NaN,
      "eval_runtime": 0.4471,
      "eval_samples_per_second": 3354.985,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.42,
      "step": 69
    },
    {
      "epoch": 4.0,
      "grad_norm": 4.696272373199463,
      "learning_rate": 0.00092,
      "loss": 2.1923,
      "step": 92
    },
    {
      "epoch": 4.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.6349358558654785,
      "eval_pearson": NaN,
      "eval_runtime": 0.4533,
      "eval_samples_per_second": 3309.076,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.236,
      "step": 92
    },
    {
      "epoch": 5.0,
      "grad_norm": 15.793731689453125,
      "learning_rate": 0.0009000000000000001,
      "loss": 2.2028,
      "step": 115
    },
    {
      "epoch": 5.0,
      "eval_combined_score": -0.011056950325972904,
      "eval_loss": 2.632760524749756,
      "eval_pearson": -0.011258424775794945,
      "eval_runtime": 0.4508,
      "eval_samples_per_second": 3327.54,
      "eval_spearmanr": -0.010855475876150862,
      "eval_steps_per_second": 13.31,
      "step": 115
    },
    {
      "epoch": 6.0,
      "grad_norm": 3.9431076049804688,
      "learning_rate": 0.00088,
      "loss": 2.1848,
      "step": 138
    },
    {
      "epoch": 6.0,
      "eval_combined_score": -0.023699091607435406,
      "eval_loss": 2.380463123321533,
      "eval_pearson": -0.02456100685625376,
      "eval_runtime": 0.447,
      "eval_samples_per_second": 3355.397,
      "eval_spearmanr": -0.02283717635861705,
      "eval_steps_per_second": 13.422,
      "step": 138
    },
    {
      "epoch": 7.0,
      "grad_norm": 18.49576187133789,
      "learning_rate": 0.00086,
      "loss": 2.194,
      "step": 161
    },
    {
      "epoch": 7.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.8532462120056152,
      "eval_pearson": NaN,
      "eval_runtime": 0.4543,
      "eval_samples_per_second": 3301.537,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.206,
      "step": 161
    },
    {
      "epoch": 8.0,
      "grad_norm": 5.551238536834717,
      "learning_rate": 0.00084,
      "loss": 2.1835,
      "step": 184
    },
    {
      "epoch": 8.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.561283588409424,
      "eval_pearson": NaN,
      "eval_runtime": 0.4562,
      "eval_samples_per_second": 3288.233,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.153,
      "step": 184
    },
    {
      "epoch": 9.0,
      "grad_norm": 13.460580825805664,
      "learning_rate": 0.00082,
      "loss": 2.1788,
      "step": 207
    },
    {
      "epoch": 9.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.354668378829956,
      "eval_pearson": NaN,
      "eval_runtime": 0.4458,
      "eval_samples_per_second": 3364.865,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.459,
      "step": 207
    },
    {
      "epoch": 10.0,
      "grad_norm": 7.859861850738525,
      "learning_rate": 0.0008,
      "loss": 2.1688,
      "step": 230
    },
    {
      "epoch": 10.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.424130916595459,
      "eval_pearson": NaN,
      "eval_runtime": 0.4484,
      "eval_samples_per_second": 3345.222,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.381,
      "step": 230
    },
    {
      "epoch": 11.0,
      "grad_norm": 11.691555976867676,
      "learning_rate": 0.0007800000000000001,
      "loss": 2.1963,
      "step": 253
    },
    {
      "epoch": 11.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.674691915512085,
      "eval_pearson": NaN,
      "eval_runtime": 0.4529,
      "eval_samples_per_second": 3311.671,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.247,
      "step": 253
    },
    {
      "epoch": 12.0,
      "grad_norm": 4.0701680183410645,
      "learning_rate": 0.00076,
      "loss": 2.186,
      "step": 276
    },
    {
      "epoch": 12.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.4511916637420654,
      "eval_pearson": NaN,
      "eval_runtime": 0.4443,
      "eval_samples_per_second": 3376.464,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.506,
      "step": 276
    },
    {
      "epoch": 13.0,
      "grad_norm": 3.6423840522766113,
      "learning_rate": 0.00074,
      "loss": 2.186,
      "step": 299
    },
    {
      "epoch": 13.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.465453863143921,
      "eval_pearson": NaN,
      "eval_runtime": 0.4517,
      "eval_samples_per_second": 3320.427,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.282,
      "step": 299
    },
    {
      "epoch": 14.0,
      "grad_norm": 5.533896446228027,
      "learning_rate": 0.0007199999999999999,
      "loss": 2.2089,
      "step": 322
    },
    {
      "epoch": 14.0,
      "eval_combined_score": NaN,
      "eval_loss": 2.737987518310547,
      "eval_pearson": NaN,
      "eval_runtime": 0.4475,
      "eval_samples_per_second": 3352.138,
      "eval_spearmanr": NaN,
      "eval_steps_per_second": 13.409,
      "step": 322
    },
    {
      "epoch": 14.0,
      "step": 322,
      "total_flos": 2110567487529984.0,
      "train_loss": 2.3570685771681505,
      "train_runtime": 58.2449,
      "train_samples_per_second": 4935.193,
      "train_steps_per_second": 19.744
    }
  ],
  "logging_steps": 1,
  "max_steps": 1150,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 5
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2110567487529984.0,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}