{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.9998333611064822, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02, "learning_rate": 1.968e-05, "loss": 0.8156, "step": 50 }, { "epoch": 0.03, "learning_rate": 1.934666666666667e-05, "loss": 0.7572, "step": 100 }, { "epoch": 0.05, "learning_rate": 1.902e-05, "loss": 0.743, "step": 150 }, { "epoch": 0.07, "learning_rate": 1.868666666666667e-05, "loss": 0.647, "step": 200 }, { "epoch": 0.08, "learning_rate": 1.8353333333333333e-05, "loss": 0.5602, "step": 250 }, { "epoch": 0.08, "eval_accuracy": 0.7387820512820513, "eval_loss": 0.5436390042304993, "eval_runtime": 503.4806, "eval_samples_per_second": 1.239, "eval_steps_per_second": 1.239, "step": 250 }, { "epoch": 0.1, "learning_rate": 1.802e-05, "loss": 0.5444, "step": 300 }, { "epoch": 0.12, "learning_rate": 1.7686666666666668e-05, "loss": 0.6125, "step": 350 }, { "epoch": 0.13, "learning_rate": 1.7353333333333335e-05, "loss": 0.6015, "step": 400 }, { "epoch": 0.15, "learning_rate": 1.702e-05, "loss": 0.4994, "step": 450 }, { "epoch": 0.17, "learning_rate": 1.6686666666666667e-05, "loss": 0.6166, "step": 500 }, { "epoch": 0.17, "eval_accuracy": 0.7467948717948718, "eval_loss": 0.5339850187301636, "eval_runtime": 503.4677, "eval_samples_per_second": 1.239, "eval_steps_per_second": 1.239, "step": 500 }, { "epoch": 0.18, "learning_rate": 1.6353333333333335e-05, "loss": 0.4642, "step": 550 }, { "epoch": 0.2, "learning_rate": 1.6020000000000002e-05, "loss": 0.5976, "step": 600 }, { "epoch": 0.22, "learning_rate": 1.5686666666666667e-05, "loss": 0.6385, "step": 650 }, { "epoch": 0.23, "learning_rate": 1.5353333333333334e-05, "loss": 0.5903, "step": 700 }, { "epoch": 0.25, "learning_rate": 1.5020000000000002e-05, "loss": 0.6545, "step": 750 }, { "epoch": 0.25, "eval_accuracy": 0.7644230769230769, "eval_loss": 0.48992109298706055, "eval_runtime": 503.2366, "eval_samples_per_second": 1.24, "eval_steps_per_second": 1.24, "step": 750 }, { "epoch": 0.27, "learning_rate": 1.4686666666666666e-05, "loss": 0.5017, "step": 800 }, { "epoch": 0.28, "learning_rate": 1.4353333333333335e-05, "loss": 0.5559, "step": 850 }, { "epoch": 0.3, "learning_rate": 1.402e-05, "loss": 0.5902, "step": 900 }, { "epoch": 0.32, "learning_rate": 1.3686666666666669e-05, "loss": 0.6273, "step": 950 }, { "epoch": 0.33, "learning_rate": 1.3353333333333333e-05, "loss": 0.5635, "step": 1000 }, { "epoch": 0.33, "eval_accuracy": 0.7532051282051282, "eval_loss": 0.487714022397995, "eval_runtime": 502.9177, "eval_samples_per_second": 1.241, "eval_steps_per_second": 1.241, "step": 1000 }, { "epoch": 0.35, "learning_rate": 1.302e-05, "loss": 0.5657, "step": 1050 }, { "epoch": 0.37, "learning_rate": 1.2686666666666667e-05, "loss": 0.4788, "step": 1100 }, { "epoch": 0.38, "learning_rate": 1.2353333333333334e-05, "loss": 0.6025, "step": 1150 }, { "epoch": 0.4, "learning_rate": 1.202e-05, "loss": 0.5794, "step": 1200 }, { "epoch": 0.42, "learning_rate": 1.1686666666666668e-05, "loss": 0.5933, "step": 1250 }, { "epoch": 0.42, "eval_accuracy": 0.7660256410256411, "eval_loss": 0.49303892254829407, "eval_runtime": 503.4551, "eval_samples_per_second": 1.239, "eval_steps_per_second": 1.239, "step": 1250 }, { "epoch": 0.43, "learning_rate": 1.1353333333333334e-05, "loss": 0.5455, "step": 1300 }, { "epoch": 0.45, "learning_rate": 1.1020000000000001e-05, "loss": 0.6124, "step": 1350 }, { "epoch": 0.47, "learning_rate": 1.0686666666666667e-05, "loss": 0.6029, "step": 1400 }, { "epoch": 0.48, "learning_rate": 1.0353333333333335e-05, "loss": 0.5182, "step": 1450 }, { "epoch": 0.5, "learning_rate": 1.002e-05, "loss": 0.5758, "step": 1500 }, { "epoch": 0.5, "eval_accuracy": 0.7740384615384616, "eval_loss": 0.48509156703948975, "eval_runtime": 503.7874, "eval_samples_per_second": 1.239, "eval_steps_per_second": 1.239, "step": 1500 }, { "epoch": 0.52, "learning_rate": 9.686666666666668e-06, "loss": 0.3444, "step": 1550 }, { "epoch": 0.53, "learning_rate": 9.353333333333334e-06, "loss": 0.5743, "step": 1600 }, { "epoch": 0.55, "learning_rate": 9.020000000000002e-06, "loss": 0.4628, "step": 1650 }, { "epoch": 0.57, "learning_rate": 8.686666666666668e-06, "loss": 0.5054, "step": 1700 }, { "epoch": 0.58, "learning_rate": 8.353333333333335e-06, "loss": 0.5212, "step": 1750 }, { "epoch": 0.58, "eval_accuracy": 0.7788461538461539, "eval_loss": 0.5020816326141357, "eval_runtime": 503.024, "eval_samples_per_second": 1.24, "eval_steps_per_second": 1.24, "step": 1750 }, { "epoch": 0.6, "learning_rate": 8.020000000000001e-06, "loss": 0.4338, "step": 1800 }, { "epoch": 0.62, "learning_rate": 7.686666666666667e-06, "loss": 0.5849, "step": 1850 }, { "epoch": 0.63, "learning_rate": 7.353333333333334e-06, "loss": 0.6726, "step": 1900 }, { "epoch": 0.65, "learning_rate": 7.0200000000000006e-06, "loss": 0.5732, "step": 1950 }, { "epoch": 0.67, "learning_rate": 6.6866666666666665e-06, "loss": 0.5251, "step": 2000 }, { "epoch": 0.67, "eval_accuracy": 0.780448717948718, "eval_loss": 0.4892784655094147, "eval_runtime": 503.278, "eval_samples_per_second": 1.24, "eval_steps_per_second": 1.24, "step": 2000 }, { "epoch": 0.68, "learning_rate": 6.353333333333333e-06, "loss": 0.6144, "step": 2050 }, { "epoch": 0.7, "learning_rate": 6.02e-06, "loss": 0.6247, "step": 2100 }, { "epoch": 0.72, "learning_rate": 5.6933333333333344e-06, "loss": 0.6012, "step": 2150 }, { "epoch": 0.73, "learning_rate": 5.36e-06, "loss": 0.449, "step": 2200 }, { "epoch": 0.75, "learning_rate": 5.026666666666667e-06, "loss": 0.5145, "step": 2250 }, { "epoch": 0.75, "eval_accuracy": 0.7852564102564102, "eval_loss": 0.492367684841156, "eval_runtime": 502.462, "eval_samples_per_second": 1.242, "eval_steps_per_second": 1.242, "step": 2250 }, { "epoch": 0.77, "learning_rate": 4.693333333333334e-06, "loss": 0.4815, "step": 2300 }, { "epoch": 0.78, "learning_rate": 4.366666666666667e-06, "loss": 0.5096, "step": 2350 }, { "epoch": 0.8, "learning_rate": 4.033333333333333e-06, "loss": 0.6567, "step": 2400 }, { "epoch": 0.82, "learning_rate": 3.7e-06, "loss": 0.4821, "step": 2450 }, { "epoch": 0.83, "learning_rate": 3.366666666666667e-06, "loss": 0.5085, "step": 2500 }, { "epoch": 0.83, "eval_accuracy": 0.7852564102564102, "eval_loss": 0.49340590834617615, "eval_runtime": 502.7893, "eval_samples_per_second": 1.241, "eval_steps_per_second": 1.241, "step": 2500 }, { "epoch": 0.85, "learning_rate": 3.0333333333333337e-06, "loss": 0.5839, "step": 2550 }, { "epoch": 0.87, "learning_rate": 2.7000000000000004e-06, "loss": 0.6301, "step": 2600 }, { "epoch": 0.88, "learning_rate": 2.3666666666666667e-06, "loss": 0.5963, "step": 2650 }, { "epoch": 0.9, "learning_rate": 2.0333333333333335e-06, "loss": 0.5734, "step": 2700 }, { "epoch": 0.92, "learning_rate": 1.7000000000000002e-06, "loss": 0.617, "step": 2750 }, { "epoch": 0.92, "eval_accuracy": 0.782051282051282, "eval_loss": 0.48034408688545227, "eval_runtime": 502.6996, "eval_samples_per_second": 1.241, "eval_steps_per_second": 1.241, "step": 2750 }, { "epoch": 0.93, "learning_rate": 1.3666666666666668e-06, "loss": 0.624, "step": 2800 }, { "epoch": 0.95, "learning_rate": 1.0333333333333333e-06, "loss": 0.5594, "step": 2850 }, { "epoch": 0.97, "learning_rate": 7.000000000000001e-07, "loss": 0.527, "step": 2900 }, { "epoch": 0.98, "learning_rate": 3.666666666666667e-07, "loss": 0.4313, "step": 2950 }, { "epoch": 1.0, "learning_rate": 3.333333333333334e-08, "loss": 0.5525, "step": 3000 }, { "epoch": 1.0, "eval_accuracy": 0.7868589743589743, "eval_loss": 0.48102569580078125, "eval_runtime": 502.7831, "eval_samples_per_second": 1.241, "eval_steps_per_second": 1.241, "step": 3000 }, { "epoch": 1.0, "step": 3000, "total_flos": 0.0, "train_loss": 0.5698420314788818, "train_runtime": 30788.306, "train_samples_per_second": 0.39, "train_steps_per_second": 0.097 } ], "max_steps": 3000, "num_train_epochs": 1, "total_flos": 0.0, "trial_name": null, "trial_params": null }