Model save

Browse files

Files changed (5) hide show

README.md +57 -0
adapter_model.safetensors +1 -1
all_results.json +10 -0
train_results.json +10 -0
trainer_state.json +3447 -0

README.md ADDED Viewed

	@@ -0,0 +1,57 @@

+---
+base_model: meta-llama/Llama-3.1-8B-Instruct
+library_name: transformers
+model_name: legis-llama3-1-8b-valid-arandu
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for legis-llama3-1-8b-valid-arandu
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="felipeoes/legis-llama3-1-8b-valid-arandu", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/felipealumni-usp/huggingface/runs/bm7zcvk0)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.12.1
+- Transformers: 4.46.3
+- Pytorch: 2.4.1
+- Datasets: 3.1.0
+- Tokenizers: 0.20.3
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d19ba1fa534d12364c4c4b293afa935c5b3f07c518f21a5dec82873165c4e8bc
 size 2269178776

 version https://git-lfs.github.com/spec/v1
+oid sha256:9568b9eff59730f694dac3f3bf24bcc7dc5e810d21f35eadeb2d3aa7c7150d4a
 size 2269178776

all_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 0.9995600527936648,
+    "eval_samples": 117,
+    "total_flos": 7.211600370336793e+18,
+    "train_loss": 0.039691918463984004,
+    "train_runtime": 9596.3839,
+    "train_samples": 116076,
+    "train_samples_per_second": 1.895,
+    "train_steps_per_second": 0.118
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 0.9995600527936648,
+    "eval_samples": 117,
+    "total_flos": 7.211600370336793e+18,
+    "train_loss": 0.039691918463984004,
+    "train_runtime": 9596.3839,
+    "train_samples": 116076,
+    "train_samples_per_second": 1.895,
+    "train_steps_per_second": 0.118
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3447 @@

+{
+  "best_metric": 0.439,
+  "best_model_checkpoint": "runs/legis-llama3-1-8b-valid-arandu/checkpoint-1120",
+  "epoch": 0.9995600527936648,
+  "eval_steps": 5,
+  "global_step": 1136,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004399472063352398,
+      "grad_norm": 25.937191009521484,
+      "learning_rate": 8.771929824561403e-06,
+      "loss": 1.0992,
+      "step": 5
+    },
+    {
+      "epoch": 0.004399472063352398,
+      "eval_loss": 1.1428982019424438,
+      "eval_runtime": 29.8805,
+      "eval_samples_per_second": 0.569,
+      "eval_steps_per_second": 0.301,
+      "step": 5
+    },
+    {
+      "epoch": 0.008798944126704795,
+      "grad_norm": 32.52676773071289,
+      "learning_rate": 1.7543859649122806e-05,
+      "loss": 1.067,
+      "step": 10
+    },
+    {
+      "epoch": 0.008798944126704795,
+      "eval_loss": 1.0669578313827515,
+      "eval_runtime": 28.5282,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 10
+    },
+    {
+      "epoch": 0.013198416190057193,
+      "grad_norm": 78.51001739501953,
+      "learning_rate": 2.6315789473684212e-05,
+      "loss": 1.0057,
+      "step": 15
+    },
+    {
+      "epoch": 0.013198416190057193,
+      "eval_loss": 1.0462743043899536,
+      "eval_runtime": 28.5697,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 15
+    },
+    {
+      "epoch": 0.01759788825340959,
+      "grad_norm": 21.255964279174805,
+      "learning_rate": 3.508771929824561e-05,
+      "loss": 0.9236,
+      "step": 20
+    },
+    {
+      "epoch": 0.01759788825340959,
+      "eval_loss": 0.9604344367980957,
+      "eval_runtime": 28.6152,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 20
+    },
+    {
+      "epoch": 0.02199736031676199,
+      "grad_norm": 1.3699233531951904,
+      "learning_rate": 4.3859649122807014e-05,
+      "loss": 0.8823,
+      "step": 25
+    },
+    {
+      "epoch": 0.02199736031676199,
+      "eval_loss": 0.9002779126167297,
+      "eval_runtime": 28.579,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 25
+    },
+    {
+      "epoch": 0.026396832380114386,
+      "grad_norm": 2.50810170173645,
+      "learning_rate": 5.2631578947368424e-05,
+      "loss": 0.8144,
+      "step": 30
+    },
+    {
+      "epoch": 0.026396832380114386,
+      "eval_loss": 0.8441588878631592,
+      "eval_runtime": 28.4936,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 30
+    },
+    {
+      "epoch": 0.030796304443466784,
+      "grad_norm": 1.6816316843032837,
+      "learning_rate": 6.140350877192983e-05,
+      "loss": 0.7829,
+      "step": 35
+    },
+    {
+      "epoch": 0.030796304443466784,
+      "eval_loss": 0.7928382754325867,
+      "eval_runtime": 28.5908,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 35
+    },
+    {
+      "epoch": 0.03519577650681918,
+      "grad_norm": 0.5125584006309509,
+      "learning_rate": 7.017543859649122e-05,
+      "loss": 0.7075,
+      "step": 40
+    },
+    {
+      "epoch": 0.03519577650681918,
+      "eval_loss": 0.7538504600524902,
+      "eval_runtime": 28.5816,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 40
+    },
+    {
+      "epoch": 0.039595248570171576,
+      "grad_norm": 0.36081045866012573,
+      "learning_rate": 7.894736842105263e-05,
+      "loss": 0.6776,
+      "step": 45
+    },
+    {
+      "epoch": 0.039595248570171576,
+      "eval_loss": 0.7313268184661865,
+      "eval_runtime": 28.6141,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 45
+    },
+    {
+      "epoch": 0.04399472063352398,
+      "grad_norm": 0.32318177819252014,
+      "learning_rate": 8.771929824561403e-05,
+      "loss": 0.6499,
+      "step": 50
+    },
+    {
+      "epoch": 0.04399472063352398,
+      "eval_loss": 0.71351158618927,
+      "eval_runtime": 28.5766,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 50
+    },
+    {
+      "epoch": 0.04839419269687637,
+      "grad_norm": 0.34377261996269226,
+      "learning_rate": 9.649122807017544e-05,
+      "loss": 0.6487,
+      "step": 55
+    },
+    {
+      "epoch": 0.04839419269687637,
+      "eval_loss": 0.7006722092628479,
+      "eval_runtime": 28.6048,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 55
+    },
+    {
+      "epoch": 0.05279366476022877,
+      "grad_norm": 0.4360629618167877,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.6405,
+      "step": 60
+    },
+    {
+      "epoch": 0.05279366476022877,
+      "eval_loss": 0.6905343532562256,
+      "eval_runtime": 28.5257,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 60
+    },
+    {
+      "epoch": 0.05719313682358117,
+      "grad_norm": 0.28764936327934265,
+      "learning_rate": 0.00011403508771929824,
+      "loss": 0.6352,
+      "step": 65
+    },
+    {
+      "epoch": 0.05719313682358117,
+      "eval_loss": 0.68143630027771,
+      "eval_runtime": 28.6362,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 65
+    },
+    {
+      "epoch": 0.06159260888693357,
+      "grad_norm": 0.34088754653930664,
+      "learning_rate": 0.00012280701754385965,
+      "loss": 0.6064,
+      "step": 70
+    },
+    {
+      "epoch": 0.06159260888693357,
+      "eval_loss": 0.6742813587188721,
+      "eval_runtime": 28.5667,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 70
+    },
+    {
+      "epoch": 0.06599208095028597,
+      "grad_norm": 0.31284183263778687,
+      "learning_rate": 0.00013157894736842108,
+      "loss": 0.5924,
+      "step": 75
+    },
+    {
+      "epoch": 0.06599208095028597,
+      "eval_loss": 0.6679767966270447,
+      "eval_runtime": 28.461,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 75
+    },
+    {
+      "epoch": 0.07039155301363836,
+      "grad_norm": 0.30470508337020874,
+      "learning_rate": 0.00014035087719298245,
+      "loss": 0.5992,
+      "step": 80
+    },
+    {
+      "epoch": 0.07039155301363836,
+      "eval_loss": 0.6631008386611938,
+      "eval_runtime": 28.6891,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 80
+    },
+    {
+      "epoch": 0.07479102507699076,
+      "grad_norm": 0.3255262076854706,
+      "learning_rate": 0.00014912280701754387,
+      "loss": 0.5704,
+      "step": 85
+    },
+    {
+      "epoch": 0.07479102507699076,
+      "eval_loss": 0.658618688583374,
+      "eval_runtime": 28.6094,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 85
+    },
+    {
+      "epoch": 0.07919049714034315,
+      "grad_norm": 0.31922295689582825,
+      "learning_rate": 0.00015789473684210527,
+      "loss": 0.6048,
+      "step": 90
+    },
+    {
+      "epoch": 0.07919049714034315,
+      "eval_loss": 0.6537344455718994,
+      "eval_runtime": 28.532,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 90
+    },
+    {
+      "epoch": 0.08358996920369556,
+      "grad_norm": 0.45636337995529175,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.613,
+      "step": 95
+    },
+    {
+      "epoch": 0.08358996920369556,
+      "eval_loss": 0.6501972079277039,
+      "eval_runtime": 28.6568,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 95
+    },
+    {
+      "epoch": 0.08798944126704795,
+      "grad_norm": 0.29334941506385803,
+      "learning_rate": 0.00017543859649122806,
+      "loss": 0.5799,
+      "step": 100
+    },
+    {
+      "epoch": 0.08798944126704795,
+      "eval_loss": 0.6471393704414368,
+      "eval_runtime": 28.5997,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 100
+    },
+    {
+      "epoch": 0.09238891333040035,
+      "grad_norm": 0.31318825483322144,
+      "learning_rate": 0.00018421052631578948,
+      "loss": 0.5887,
+      "step": 105
+    },
+    {
+      "epoch": 0.09238891333040035,
+      "eval_loss": 0.6440868377685547,
+      "eval_runtime": 28.6275,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 105
+    },
+    {
+      "epoch": 0.09678838539375274,
+      "grad_norm": 0.27908894419670105,
+      "learning_rate": 0.00019298245614035088,
+      "loss": 0.5905,
+      "step": 110
+    },
+    {
+      "epoch": 0.09678838539375274,
+      "eval_loss": 0.6423875689506531,
+      "eval_runtime": 28.5491,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 110
+    },
+    {
+      "epoch": 0.10118785745710515,
+      "grad_norm": 0.2715133726596832,
+      "learning_rate": 0.00019999952753720356,
+      "loss": 0.5902,
+      "step": 115
+    },
+    {
+      "epoch": 0.10118785745710515,
+      "eval_loss": 0.6415910720825195,
+      "eval_runtime": 28.5086,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 115
+    },
+    {
+      "epoch": 0.10558732952045755,
+      "grad_norm": 0.3028790056705475,
+      "learning_rate": 0.000199982991808088,
+      "loss": 0.5773,
+      "step": 120
+    },
+    {
+      "epoch": 0.10558732952045755,
+      "eval_loss": 0.6377425789833069,
+      "eval_runtime": 28.6438,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 120
+    },
+    {
+      "epoch": 0.10998680158380994,
+      "grad_norm": 0.3071883022785187,
+      "learning_rate": 0.00019994283740338306,
+      "loss": 0.5598,
+      "step": 125
+    },
+    {
+      "epoch": 0.10998680158380994,
+      "eval_loss": 0.6367806196212769,
+      "eval_runtime": 28.4852,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 125
+    },
+    {
+      "epoch": 0.11438627364716233,
+      "grad_norm": 0.34842655062675476,
+      "learning_rate": 0.00019987907380864062,
+      "loss": 0.596,
+      "step": 130
+    },
+    {
+      "epoch": 0.11438627364716233,
+      "eval_loss": 0.6347749829292297,
+      "eval_runtime": 28.5908,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 130
+    },
+    {
+      "epoch": 0.11878574571051474,
+      "grad_norm": 0.2854275107383728,
+      "learning_rate": 0.00019979171608653924,
+      "loss": 0.5733,
+      "step": 135
+    },
+    {
+      "epoch": 0.11878574571051474,
+      "eval_loss": 0.6301032900810242,
+      "eval_runtime": 28.5482,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 135
+    },
+    {
+      "epoch": 0.12318521777386714,
+      "grad_norm": 0.27615901827812195,
+      "learning_rate": 0.00019968078487332566,
+      "loss": 0.5875,
+      "step": 140
+    },
+    {
+      "epoch": 0.12318521777386714,
+      "eval_loss": 0.6269793510437012,
+      "eval_runtime": 28.4974,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 140
+    },
+    {
+      "epoch": 0.12758468983721954,
+      "grad_norm": 0.2709368169307709,
+      "learning_rate": 0.00019954630637394029,
+      "loss": 0.5711,
+      "step": 145
+    },
+    {
+      "epoch": 0.12758468983721954,
+      "eval_loss": 0.6240233182907104,
+      "eval_runtime": 28.5264,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 145
+    },
+    {
+      "epoch": 0.13198416190057194,
+      "grad_norm": 0.2877412736415863,
+      "learning_rate": 0.00019938831235582672,
+      "loss": 0.5885,
+      "step": 150
+    },
+    {
+      "epoch": 0.13198416190057194,
+      "eval_loss": 0.6206945776939392,
+      "eval_runtime": 28.5668,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 150
+    },
+    {
+      "epoch": 0.13638363396392433,
+      "grad_norm": 0.2922605574131012,
+      "learning_rate": 0.00019920684014142738,
+      "loss": 0.5485,
+      "step": 155
+    },
+    {
+      "epoch": 0.13638363396392433,
+      "eval_loss": 0.6200662851333618,
+      "eval_runtime": 28.5452,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 155
+    },
+    {
+      "epoch": 0.14078310602727673,
+      "grad_norm": 0.28340834379196167,
+      "learning_rate": 0.00019900193259936704,
+      "loss": 0.5754,
+      "step": 160
+    },
+    {
+      "epoch": 0.14078310602727673,
+      "eval_loss": 0.6187402606010437,
+      "eval_runtime": 28.5939,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 160
+    },
+    {
+      "epoch": 0.14518257809062912,
+      "grad_norm": 0.2796618938446045,
+      "learning_rate": 0.0001987736381343261,
+      "loss": 0.5535,
+      "step": 165
+    },
+    {
+      "epoch": 0.14518257809062912,
+      "eval_loss": 0.6156266331672668,
+      "eval_runtime": 28.5378,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 165
+    },
+    {
+      "epoch": 0.14958205015398152,
+      "grad_norm": 0.25343528389930725,
+      "learning_rate": 0.00019852201067560606,
+      "loss": 0.5697,
+      "step": 170
+    },
+    {
+      "epoch": 0.14958205015398152,
+      "eval_loss": 0.6125033497810364,
+      "eval_runtime": 28.5565,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 170
+    },
+    {
+      "epoch": 0.1539815222173339,
+      "grad_norm": 0.23438464105129242,
+      "learning_rate": 0.00019824710966438996,
+      "loss": 0.5335,
+      "step": 175
+    },
+    {
+      "epoch": 0.1539815222173339,
+      "eval_loss": 0.6096713542938232,
+      "eval_runtime": 28.6017,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 175
+    },
+    {
+      "epoch": 0.1583809942806863,
+      "grad_norm": 0.24729043245315552,
+      "learning_rate": 0.00019794900003970077,
+      "loss": 0.5702,
+      "step": 180
+    },
+    {
+      "epoch": 0.1583809942806863,
+      "eval_loss": 0.6071114540100098,
+      "eval_runtime": 28.5677,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 180
+    },
+    {
+      "epoch": 0.16278046634403873,
+      "grad_norm": 0.257964551448822,
+      "learning_rate": 0.00019762775222306107,
+      "loss": 0.5494,
+      "step": 185
+    },
+    {
+      "epoch": 0.16278046634403873,
+      "eval_loss": 0.6062531471252441,
+      "eval_runtime": 28.5933,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 185
+    },
+    {
+      "epoch": 0.16717993840739112,
+      "grad_norm": 0.2648680806159973,
+      "learning_rate": 0.0001972834421018576,
+      "loss": 0.5379,
+      "step": 190
+    },
+    {
+      "epoch": 0.16717993840739112,
+      "eval_loss": 0.6054437756538391,
+      "eval_runtime": 28.5575,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 190
+    },
+    {
+      "epoch": 0.17157941047074352,
+      "grad_norm": 0.2540712356567383,
+      "learning_rate": 0.00019691615101141455,
+      "loss": 0.5415,
+      "step": 195
+    },
+    {
+      "epoch": 0.17157941047074352,
+      "eval_loss": 0.6023730039596558,
+      "eval_runtime": 28.5419,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 195
+    },
+    {
+      "epoch": 0.1759788825340959,
+      "grad_norm": 0.2424851357936859,
+      "learning_rate": 0.00019652596571578004,
+      "loss": 0.5504,
+      "step": 200
+    },
+    {
+      "epoch": 0.1759788825340959,
+      "eval_loss": 0.5997632145881653,
+      "eval_runtime": 28.6422,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 200
+    },
+    {
+      "epoch": 0.1803783545974483,
+      "grad_norm": 0.2573873698711395,
+      "learning_rate": 0.0001961129783872301,
+      "loss": 0.5418,
+      "step": 205
+    },
+    {
+      "epoch": 0.1803783545974483,
+      "eval_loss": 0.5976300239562988,
+      "eval_runtime": 28.5752,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 205
+    },
+    {
+      "epoch": 0.1847778266608007,
+      "grad_norm": 0.22338183224201202,
+      "learning_rate": 0.00019567728658449504,
+      "loss": 0.54,
+      "step": 210
+    },
+    {
+      "epoch": 0.1847778266608007,
+      "eval_loss": 0.5960862040519714,
+      "eval_runtime": 28.4685,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 210
+    },
+    {
+      "epoch": 0.1891772987241531,
+      "grad_norm": 0.2706097960472107,
+      "learning_rate": 0.00019521899322971352,
+      "loss": 0.5522,
+      "step": 215
+    },
+    {
+      "epoch": 0.1891772987241531,
+      "eval_loss": 0.5958646535873413,
+      "eval_runtime": 28.5678,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 215
+    },
+    {
+      "epoch": 0.1935767707875055,
+      "grad_norm": 0.23476411402225494,
+      "learning_rate": 0.00019473820658411957,
+      "loss": 0.5262,
+      "step": 220
+    },
+    {
+      "epoch": 0.1935767707875055,
+      "eval_loss": 0.5945417284965515,
+      "eval_runtime": 28.5611,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 220
+    },
+    {
+      "epoch": 0.1979762428508579,
+      "grad_norm": 0.23705659806728363,
+      "learning_rate": 0.00019423504022246825,
+      "loss": 0.5439,
+      "step": 225
+    },
+    {
+      "epoch": 0.1979762428508579,
+      "eval_loss": 0.5934200286865234,
+      "eval_runtime": 28.5955,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 225
+    },
+    {
+      "epoch": 0.2023757149142103,
+      "grad_norm": 0.22662319242954254,
+      "learning_rate": 0.00019370961300620637,
+      "loss": 0.5262,
+      "step": 230
+    },
+    {
+      "epoch": 0.2023757149142103,
+      "eval_loss": 0.5928044319152832,
+      "eval_runtime": 28.514,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 230
+    },
+    {
+      "epoch": 0.2067751869775627,
+      "grad_norm": 0.24046145379543304,
+      "learning_rate": 0.00019316204905539425,
+      "loss": 0.5462,
+      "step": 235
+    },
+    {
+      "epoch": 0.2067751869775627,
+      "eval_loss": 0.5904839038848877,
+      "eval_runtime": 28.5557,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 235
+    },
+    {
+      "epoch": 0.2111746590409151,
+      "grad_norm": 0.23923470079898834,
+      "learning_rate": 0.000192592477719385,
+      "loss": 0.5345,
+      "step": 240
+    },
+    {
+      "epoch": 0.2111746590409151,
+      "eval_loss": 0.590508759021759,
+      "eval_runtime": 28.5204,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 240
+    },
+    {
+      "epoch": 0.21557413110426749,
+      "grad_norm": 0.24345721304416656,
+      "learning_rate": 0.00019200103354626892,
+      "loss": 0.5478,
+      "step": 245
+    },
+    {
+      "epoch": 0.21557413110426749,
+      "eval_loss": 0.5882726907730103,
+      "eval_runtime": 28.5722,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 245
+    },
+    {
+      "epoch": 0.21997360316761988,
+      "grad_norm": 0.27501732110977173,
+      "learning_rate": 0.00019138785625108957,
+      "loss": 0.5607,
+      "step": 250
+    },
+    {
+      "epoch": 0.21997360316761988,
+      "eval_loss": 0.5860432982444763,
+      "eval_runtime": 28.503,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 250
+    },
+    {
+      "epoch": 0.22437307523097227,
+      "grad_norm": 0.3151032328605652,
+      "learning_rate": 0.0001907530906828393,
+      "loss": 0.5479,
+      "step": 255
+    },
+    {
+      "epoch": 0.22437307523097227,
+      "eval_loss": 0.5846895575523376,
+      "eval_runtime": 28.6081,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 255
+    },
+    {
+      "epoch": 0.22877254729432467,
+      "grad_norm": 0.2758755385875702,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 0.5767,
+      "step": 260
+    },
+    {
+      "epoch": 0.22877254729432467,
+      "eval_loss": 0.5815722942352295,
+      "eval_runtime": 28.5574,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 260
+    },
+    {
+      "epoch": 0.2331720193576771,
+      "grad_norm": 0.25241315364837646,
+      "learning_rate": 0.000189419399586331,
+      "loss": 0.5568,
+      "step": 265
+    },
+    {
+      "epoch": 0.2331720193576771,
+      "eval_loss": 0.5822274684906006,
+      "eval_runtime": 28.573,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 265
+    },
+    {
+      "epoch": 0.23757149142102948,
+      "grad_norm": 0.316436767578125,
+      "learning_rate": 0.00018872078911183146,
+      "loss": 0.5385,
+      "step": 270
+    },
+    {
+      "epoch": 0.23757149142102948,
+      "eval_loss": 0.5809066891670227,
+      "eval_runtime": 28.5598,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 270
+    },
+    {
+      "epoch": 0.24197096348438188,
+      "grad_norm": 0.27813801169395447,
+      "learning_rate": 0.00018800122039735358,
+      "loss": 0.5348,
+      "step": 275
+    },
+    {
+      "epoch": 0.24197096348438188,
+      "eval_loss": 0.5786107778549194,
+      "eval_runtime": 28.546,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 275
+    },
+    {
+      "epoch": 0.24637043554773427,
+      "grad_norm": 0.2552705407142639,
+      "learning_rate": 0.00018726086342440846,
+      "loss": 0.5207,
+      "step": 280
+    },
+    {
+      "epoch": 0.24637043554773427,
+      "eval_loss": 0.5768923759460449,
+      "eval_runtime": 28.5995,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 280
+    },
+    {
+      "epoch": 0.2507699076110867,
+      "grad_norm": 0.21993091702461243,
+      "learning_rate": 0.00018649989308525372,
+      "loss": 0.5292,
+      "step": 285
+    },
+    {
+      "epoch": 0.2507699076110867,
+      "eval_loss": 0.5762263536453247,
+      "eval_runtime": 28.4816,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 285
+    },
+    {
+      "epoch": 0.2551693796744391,
+      "grad_norm": 0.27086153626441956,
+      "learning_rate": 0.0001857184891415794,
+      "loss": 0.5312,
+      "step": 290
+    },
+    {
+      "epoch": 0.2551693796744391,
+      "eval_loss": 0.5758266448974609,
+      "eval_runtime": 28.5295,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 290
+    },
+    {
+      "epoch": 0.2595688517377915,
+      "grad_norm": 0.21816319227218628,
+      "learning_rate": 0.0001849168361820431,
+      "loss": 0.5223,
+      "step": 295
+    },
+    {
+      "epoch": 0.2595688517377915,
+      "eval_loss": 0.574447751045227,
+      "eval_runtime": 28.5859,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 295
+    },
+    {
+      "epoch": 0.2639683238011439,
+      "grad_norm": 0.24796700477600098,
+      "learning_rate": 0.00018409512357866548,
+      "loss": 0.5485,
+      "step": 300
+    },
+    {
+      "epoch": 0.2639683238011439,
+      "eval_loss": 0.573371410369873,
+      "eval_runtime": 28.6178,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 300
+    },
+    {
+      "epoch": 0.2683677958644963,
+      "grad_norm": 0.2425287663936615,
+      "learning_rate": 0.00018325354544209535,
+      "loss": 0.5217,
+      "step": 305
+    },
+    {
+      "epoch": 0.2683677958644963,
+      "eval_loss": 0.5723298788070679,
+      "eval_runtime": 28.5916,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 305
+    },
+    {
+      "epoch": 0.27276726792784867,
+      "grad_norm": 0.21630050241947174,
+      "learning_rate": 0.00018239230057575542,
+      "loss": 0.5074,
+      "step": 310
+    },
+    {
+      "epoch": 0.27276726792784867,
+      "eval_loss": 0.5725327134132385,
+      "eval_runtime": 28.536,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 310
+    },
+    {
+      "epoch": 0.27716673999120106,
+      "grad_norm": 0.21529468894004822,
+      "learning_rate": 0.0001815115924288798,
+      "loss": 0.5487,
+      "step": 315
+    },
+    {
+      "epoch": 0.27716673999120106,
+      "eval_loss": 0.5721793174743652,
+      "eval_runtime": 28.6852,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 315
+    },
+    {
+      "epoch": 0.28156621205455346,
+      "grad_norm": 0.21623414754867554,
+      "learning_rate": 0.00018061162904845358,
+      "loss": 0.5106,
+      "step": 320
+    },
+    {
+      "epoch": 0.28156621205455346,
+      "eval_loss": 0.5709577202796936,
+      "eval_runtime": 28.4592,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 320
+    },
+    {
+      "epoch": 0.28596568411790585,
+      "grad_norm": 0.2219308316707611,
+      "learning_rate": 0.0001796926230300667,
+      "loss": 0.5218,
+      "step": 325
+    },
+    {
+      "epoch": 0.28596568411790585,
+      "eval_loss": 0.5698617100715637,
+      "eval_runtime": 28.5588,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 325
+    },
+    {
+      "epoch": 0.29036515618125824,
+      "grad_norm": 0.2264701873064041,
+      "learning_rate": 0.00017875479146769305,
+      "loss": 0.5162,
+      "step": 330
+    },
+    {
+      "epoch": 0.29036515618125824,
+      "eval_loss": 0.5689781308174133,
+      "eval_runtime": 28.6221,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 330
+    },
+    {
+      "epoch": 0.29476462824461064,
+      "grad_norm": 0.24004362523555756,
+      "learning_rate": 0.000177798355902407,
+      "loss": 0.539,
+      "step": 335
+    },
+    {
+      "epoch": 0.29476462824461064,
+      "eval_loss": 0.5678241848945618,
+      "eval_runtime": 28.5677,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 335
+    },
+    {
+      "epoch": 0.29916410030796303,
+      "grad_norm": 0.22996000945568085,
+      "learning_rate": 0.00017682354227004963,
+      "loss": 0.5002,
+      "step": 340
+    },
+    {
+      "epoch": 0.29916410030796303,
+      "eval_loss": 0.5670127272605896,
+      "eval_runtime": 28.6425,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 340
+    },
+    {
+      "epoch": 0.3035635723713154,
+      "grad_norm": 0.23163671791553497,
+      "learning_rate": 0.00017583058084785625,
+      "loss": 0.5175,
+      "step": 345
+    },
+    {
+      "epoch": 0.3035635723713154,
+      "eval_loss": 0.5650352239608765,
+      "eval_runtime": 28.5994,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 345
+    },
+    {
+      "epoch": 0.3079630444346678,
+      "grad_norm": 0.20120489597320557,
+      "learning_rate": 0.00017481970620005912,
+      "loss": 0.5269,
+      "step": 350
+    },
+    {
+      "epoch": 0.3079630444346678,
+      "eval_loss": 0.5640237927436829,
+      "eval_runtime": 28.5009,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 350
+    },
+    {
+      "epoch": 0.3123625164980202,
+      "grad_norm": 0.22231583297252655,
+      "learning_rate": 0.00017379115712247675,
+      "loss": 0.5444,
+      "step": 355
+    },
+    {
+      "epoch": 0.3123625164980202,
+      "eval_loss": 0.5634257197380066,
+      "eval_runtime": 28.5722,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 355
+    },
+    {
+      "epoch": 0.3167619885613726,
+      "grad_norm": 0.216331347823143,
+      "learning_rate": 0.00017274517658610398,
+      "loss": 0.5074,
+      "step": 360
+    },
+    {
+      "epoch": 0.3167619885613726,
+      "eval_loss": 0.5618783831596375,
+      "eval_runtime": 28.6759,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 360
+    },
+    {
+      "epoch": 0.32116146062472506,
+      "grad_norm": 0.21976010501384735,
+      "learning_rate": 0.0001716820116797158,
+      "loss": 0.5259,
+      "step": 365
+    },
+    {
+      "epoch": 0.32116146062472506,
+      "eval_loss": 0.5602042078971863,
+      "eval_runtime": 28.6019,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 365
+    },
+    {
+      "epoch": 0.32556093268807745,
+      "grad_norm": 0.22740119695663452,
+      "learning_rate": 0.0001706019135514982,
+      "loss": 0.5158,
+      "step": 370
+    },
+    {
+      "epoch": 0.32556093268807745,
+      "eval_loss": 0.5599080920219421,
+      "eval_runtime": 28.5177,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 370
+    },
+    {
+      "epoch": 0.32996040475142985,
+      "grad_norm": 0.21888501942157745,
+      "learning_rate": 0.0001695051373497202,
+      "loss": 0.527,
+      "step": 375
+    },
+    {
+      "epoch": 0.32996040475142985,
+      "eval_loss": 0.558814525604248,
+      "eval_runtime": 28.661,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 375
+    },
+    {
+      "epoch": 0.33435987681478224,
+      "grad_norm": 0.20402850210666656,
+      "learning_rate": 0.00016839194216246108,
+      "loss": 0.5027,
+      "step": 380
+    },
+    {
+      "epoch": 0.33435987681478224,
+      "eval_loss": 0.5578404664993286,
+      "eval_runtime": 28.5421,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 380
+    },
+    {
+      "epoch": 0.33875934887813464,
+      "grad_norm": 0.20368748903274536,
+      "learning_rate": 0.00016726259095640664,
+      "loss": 0.505,
+      "step": 385
+    },
+    {
+      "epoch": 0.33875934887813464,
+      "eval_loss": 0.5567160844802856,
+      "eval_runtime": 28.6126,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 385
+    },
+    {
+      "epoch": 0.34315882094148703,
+      "grad_norm": 0.2069130390882492,
+      "learning_rate": 0.0001661173505147295,
+      "loss": 0.5086,
+      "step": 390
+    },
+    {
+      "epoch": 0.34315882094148703,
+      "eval_loss": 0.55617755651474,
+      "eval_runtime": 28.4879,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 390
+    },
+    {
+      "epoch": 0.3475582930048394,
+      "grad_norm": 0.23644201457500458,
+      "learning_rate": 0.00016495649137406772,
+      "loss": 0.5412,
+      "step": 395
+    },
+    {
+      "epoch": 0.3475582930048394,
+      "eval_loss": 0.5556927919387817,
+      "eval_runtime": 28.6713,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 395
+    },
+    {
+      "epoch": 0.3519577650681918,
+      "grad_norm": 0.21997737884521484,
+      "learning_rate": 0.00016378028776061667,
+      "loss": 0.4908,
+      "step": 400
+    },
+    {
+      "epoch": 0.3519577650681918,
+      "eval_loss": 0.5555915832519531,
+      "eval_runtime": 28.596,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 400
+    },
+    {
+      "epoch": 0.3563572371315442,
+      "grad_norm": 0.22075805068016052,
+      "learning_rate": 0.00016258901752534948,
+      "loss": 0.5155,
+      "step": 405
+    },
+    {
+      "epoch": 0.3563572371315442,
+      "eval_loss": 0.5552019476890564,
+      "eval_runtime": 28.595,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 405
+    },
+    {
+      "epoch": 0.3607567091948966,
+      "grad_norm": 0.5917304158210754,
+      "learning_rate": 0.00016138296207838127,
+      "loss": 0.4991,
+      "step": 410
+    },
+    {
+      "epoch": 0.3607567091948966,
+      "eval_loss": 0.5550567507743835,
+      "eval_runtime": 28.6222,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 410
+    },
+    {
+      "epoch": 0.365156181258249,
+      "grad_norm": 0.21421152353286743,
+      "learning_rate": 0.00016016240632249224,
+      "loss": 0.4769,
+      "step": 415
+    },
+    {
+      "epoch": 0.365156181258249,
+      "eval_loss": 0.5548796653747559,
+      "eval_runtime": 28.5933,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 415
+    },
+    {
+      "epoch": 0.3695556533216014,
+      "grad_norm": 0.201774463057518,
+      "learning_rate": 0.0001589276385858262,
+      "loss": 0.4914,
+      "step": 420
+    },
+    {
+      "epoch": 0.3695556533216014,
+      "eval_loss": 0.5546624064445496,
+      "eval_runtime": 28.5213,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 420
+    },
+    {
+      "epoch": 0.3739551253849538,
+      "grad_norm": 0.22172759473323822,
+      "learning_rate": 0.0001576789505537795,
+      "loss": 0.4726,
+      "step": 425
+    },
+    {
+      "epoch": 0.3739551253849538,
+      "eval_loss": 0.5535080432891846,
+      "eval_runtime": 28.6645,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 425
+    },
+    {
+      "epoch": 0.3783545974483062,
+      "grad_norm": 0.23269815742969513,
+      "learning_rate": 0.00015641663720009733,
+      "loss": 0.5076,
+      "step": 430
+    },
+    {
+      "epoch": 0.3783545974483062,
+      "eval_loss": 0.5522862076759338,
+      "eval_runtime": 28.5697,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 430
+    },
+    {
+      "epoch": 0.3827540695116586,
+      "grad_norm": 0.23303498327732086,
+      "learning_rate": 0.00015514099671719268,
+      "loss": 0.5064,
+      "step": 435
+    },
+    {
+      "epoch": 0.3827540695116586,
+      "eval_loss": 0.5502522587776184,
+      "eval_runtime": 28.5369,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 435
+    },
+    {
+      "epoch": 0.387153541575011,
+      "grad_norm": 0.24087387323379517,
+      "learning_rate": 0.00015385233044570555,
+      "loss": 0.5361,
+      "step": 440
+    },
+    {
+      "epoch": 0.387153541575011,
+      "eval_loss": 0.5471201539039612,
+      "eval_runtime": 28.5791,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 440
+    },
+    {
+      "epoch": 0.3915530136383634,
+      "grad_norm": 0.20800553262233734,
+      "learning_rate": 0.00015255094280331797,
+      "loss": 0.5169,
+      "step": 445
+    },
+    {
+      "epoch": 0.3915530136383634,
+      "eval_loss": 0.5466722846031189,
+      "eval_runtime": 28.6339,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 445
+    },
+    {
+      "epoch": 0.3959524857017158,
+      "grad_norm": 0.37092360854148865,
+      "learning_rate": 0.0001512371412128424,
+      "loss": 0.5362,
+      "step": 450
+    },
+    {
+      "epoch": 0.3959524857017158,
+      "eval_loss": 0.5455148220062256,
+      "eval_runtime": 28.637,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 450
+    },
+    {
+      "epoch": 0.4003519577650682,
+      "grad_norm": 0.20706337690353394,
+      "learning_rate": 0.00014991123602960018,
+      "loss": 0.4994,
+      "step": 455
+    },
+    {
+      "epoch": 0.4003519577650682,
+      "eval_loss": 0.5440109968185425,
+      "eval_runtime": 28.5672,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 455
+    },
+    {
+      "epoch": 0.4047514298284206,
+      "grad_norm": 0.2135256677865982,
+      "learning_rate": 0.00014857354046810732,
+      "loss": 0.5005,
+      "step": 460
+    },
+    {
+      "epoch": 0.4047514298284206,
+      "eval_loss": 0.5431147813796997,
+      "eval_runtime": 28.4835,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 460
+    },
+    {
+      "epoch": 0.409150901891773,
+      "grad_norm": 0.5737074613571167,
+      "learning_rate": 0.00014722437052808472,
+      "loss": 0.5208,
+      "step": 465
+    },
+    {
+      "epoch": 0.409150901891773,
+      "eval_loss": 0.541969358921051,
+      "eval_runtime": 28.6004,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 465
+    },
+    {
+      "epoch": 0.4135503739551254,
+      "grad_norm": 0.24099959433078766,
+      "learning_rate": 0.00014586404491981052,
+      "loss": 0.5074,
+      "step": 470
+    },
+    {
+      "epoch": 0.4135503739551254,
+      "eval_loss": 0.5449388027191162,
+      "eval_runtime": 28.658,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 470
+    },
+    {
+      "epoch": 0.4179498460184778,
+      "grad_norm": 0.2046642154455185,
+      "learning_rate": 0.0001444928849888321,
+      "loss": 0.5052,
+      "step": 475
+    },
+    {
+      "epoch": 0.4179498460184778,
+      "eval_loss": 0.5407991409301758,
+      "eval_runtime": 28.5688,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 475
+    },
+    {
+      "epoch": 0.4223493180818302,
+      "grad_norm": 0.2824171185493469,
+      "learning_rate": 0.00014311121464005583,
+      "loss": 0.5179,
+      "step": 480
+    },
+    {
+      "epoch": 0.4223493180818302,
+      "eval_loss": 0.54000324010849,
+      "eval_runtime": 28.7144,
+      "eval_samples_per_second": 0.592,
+      "eval_steps_per_second": 0.313,
+      "step": 480
+    },
+    {
+      "epoch": 0.4267487901451826,
+      "grad_norm": 0.2045980840921402,
+      "learning_rate": 0.00014171936026123168,
+      "loss": 0.4634,
+      "step": 485
+    },
+    {
+      "epoch": 0.4267487901451826,
+      "eval_loss": 0.5398800373077393,
+      "eval_runtime": 28.5209,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 485
+    },
+    {
+      "epoch": 0.43114826220853497,
+      "grad_norm": 0.2092169225215912,
+      "learning_rate": 0.00014031765064585197,
+      "loss": 0.4802,
+      "step": 490
+    },
+    {
+      "epoch": 0.43114826220853497,
+      "eval_loss": 0.5395181179046631,
+      "eval_runtime": 28.5086,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 490
+    },
+    {
+      "epoch": 0.43554773427188737,
+      "grad_norm": 0.20700140297412872,
+      "learning_rate": 0.00013890641691548114,
+      "loss": 0.4962,
+      "step": 495
+    },
+    {
+      "epoch": 0.43554773427188737,
+      "eval_loss": 0.5390854477882385,
+      "eval_runtime": 28.5682,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 495
+    },
+    {
+      "epoch": 0.43994720633523976,
+      "grad_norm": 0.19903522729873657,
+      "learning_rate": 0.00013748599244153633,
+      "loss": 0.4841,
+      "step": 500
+    },
+    {
+      "epoch": 0.43994720633523976,
+      "eval_loss": 0.5381758213043213,
+      "eval_runtime": 29.4274,
+      "eval_samples_per_second": 0.578,
+      "eval_steps_per_second": 0.306,
+      "step": 500
+    },
+    {
+      "epoch": 0.44434667839859215,
+      "grad_norm": 0.4766729474067688,
+      "learning_rate": 0.00013605671276653567,
+      "loss": 0.5252,
+      "step": 505
+    },
+    {
+      "epoch": 0.44434667839859215,
+      "eval_loss": 0.5368968844413757,
+      "eval_runtime": 28.6474,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 505
+    },
+    {
+      "epoch": 0.44874615046194455,
+      "grad_norm": 0.21688155829906464,
+      "learning_rate": 0.00013461891552483444,
+      "loss": 0.515,
+      "step": 510
+    },
+    {
+      "epoch": 0.44874615046194455,
+      "eval_loss": 0.5366407036781311,
+      "eval_runtime": 28.5352,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 510
+    },
+    {
+      "epoch": 0.45314562252529694,
+      "grad_norm": 0.20375116169452667,
+      "learning_rate": 0.00013317294036286644,
+      "loss": 0.4887,
+      "step": 515
+    },
+    {
+      "epoch": 0.45314562252529694,
+      "eval_loss": 0.5360764861106873,
+      "eval_runtime": 28.6533,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 515
+    },
+    {
+      "epoch": 0.45754509458864934,
+      "grad_norm": 0.1958196461200714,
+      "learning_rate": 0.00013171912885891063,
+      "loss": 0.4868,
+      "step": 520
+    },
+    {
+      "epoch": 0.45754509458864934,
+      "eval_loss": 0.5356424450874329,
+      "eval_runtime": 28.5027,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 520
+    },
+    {
+      "epoch": 0.4619445666520018,
+      "grad_norm": 0.22040507197380066,
+      "learning_rate": 0.00013025782444240087,
+      "loss": 0.5086,
+      "step": 525
+    },
+    {
+      "epoch": 0.4619445666520018,
+      "eval_loss": 0.5351347327232361,
+      "eval_runtime": 28.6428,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 525
+    },
+    {
+      "epoch": 0.4663440387153542,
+      "grad_norm": 0.19495758414268494,
+      "learning_rate": 0.00012878937231279892,
+      "loss": 0.5113,
+      "step": 530
+    },
+    {
+      "epoch": 0.4663440387153542,
+      "eval_loss": 0.5347647070884705,
+      "eval_runtime": 28.6252,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 530
+    },
+    {
+      "epoch": 0.4707435107787066,
+      "grad_norm": 0.21149738132953644,
+      "learning_rate": 0.0001273141193580488,
+      "loss": 0.483,
+      "step": 535
+    },
+    {
+      "epoch": 0.4707435107787066,
+      "eval_loss": 0.5339221954345703,
+      "eval_runtime": 28.6055,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 535
+    },
+    {
+      "epoch": 0.47514298284205897,
+      "grad_norm": 0.20391018688678741,
+      "learning_rate": 0.0001258324140726326,
+      "loss": 0.4728,
+      "step": 540
+    },
+    {
+      "epoch": 0.47514298284205897,
+      "eval_loss": 0.5337977409362793,
+      "eval_runtime": 28.5842,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 540
+    },
+    {
+      "epoch": 0.47954245490541136,
+      "grad_norm": 0.20913545787334442,
+      "learning_rate": 0.00012434460647524676,
+      "loss": 0.5016,
+      "step": 545
+    },
+    {
+      "epoch": 0.47954245490541136,
+      "eval_loss": 0.532899022102356,
+      "eval_runtime": 28.4759,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 545
+    },
+    {
+      "epoch": 0.48394192696876376,
+      "grad_norm": 0.19410260021686554,
+      "learning_rate": 0.00012285104802611812,
+      "loss": 0.5103,
+      "step": 550
+    },
+    {
+      "epoch": 0.48394192696876376,
+      "eval_loss": 0.5321294665336609,
+      "eval_runtime": 28.5662,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 550
+    },
+    {
+      "epoch": 0.48834139903211615,
+      "grad_norm": 0.2097245752811432,
+      "learning_rate": 0.00012135209154397962,
+      "loss": 0.4954,
+      "step": 555
+    },
+    {
+      "epoch": 0.48834139903211615,
+      "eval_loss": 0.532034695148468,
+      "eval_runtime": 28.652,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 555
+    },
+    {
+      "epoch": 0.49274087109546855,
+      "grad_norm": 0.21518121659755707,
+      "learning_rate": 0.00011984809112272495,
+      "loss": 0.4999,
+      "step": 560
+    },
+    {
+      "epoch": 0.49274087109546855,
+      "eval_loss": 0.5313233733177185,
+      "eval_runtime": 28.5662,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 560
+    },
+    {
+      "epoch": 0.49714034315882094,
+      "grad_norm": 0.19571034610271454,
+      "learning_rate": 0.00011833940204776209,
+      "loss": 0.4931,
+      "step": 565
+    },
+    {
+      "epoch": 0.49714034315882094,
+      "eval_loss": 0.5311394333839417,
+      "eval_runtime": 28.5352,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 565
+    },
+    {
+      "epoch": 0.5015398152221734,
+      "grad_norm": 0.20554794371128082,
+      "learning_rate": 0.00011682638071208533,
+      "loss": 0.4833,
+      "step": 570
+    },
+    {
+      "epoch": 0.5015398152221734,
+      "eval_loss": 0.5300410389900208,
+      "eval_runtime": 28.5679,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 570
+    },
+    {
+      "epoch": 0.5059392872855257,
+      "grad_norm": 0.20373423397541046,
+      "learning_rate": 0.00011530938453208559,
+      "loss": 0.5057,
+      "step": 575
+    },
+    {
+      "epoch": 0.5059392872855257,
+      "eval_loss": 0.5300309658050537,
+      "eval_runtime": 28.5821,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 575
+    },
+    {
+      "epoch": 0.5103387593488782,
+      "grad_norm": 0.1982477903366089,
+      "learning_rate": 0.00011378877186311912,
+      "loss": 0.4754,
+      "step": 580
+    },
+    {
+      "epoch": 0.5103387593488782,
+      "eval_loss": 0.5292160511016846,
+      "eval_runtime": 28.5256,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 580
+    },
+    {
+      "epoch": 0.5147382314122305,
+      "grad_norm": 0.20576219260692596,
+      "learning_rate": 0.00011226490191485421,
+      "loss": 0.4991,
+      "step": 585
+    },
+    {
+      "epoch": 0.5147382314122305,
+      "eval_loss": 0.5280917882919312,
+      "eval_runtime": 28.6835,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 585
+    },
+    {
+      "epoch": 0.519137703475583,
+      "grad_norm": 0.2154638022184372,
+      "learning_rate": 0.00011073813466641632,
+      "loss": 0.4811,
+      "step": 590
+    },
+    {
+      "epoch": 0.519137703475583,
+      "eval_loss": 0.5274674296379089,
+      "eval_runtime": 28.4766,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 590
+    },
+    {
+      "epoch": 0.5235371755389353,
+      "grad_norm": 0.2037007063627243,
+      "learning_rate": 0.00010920883078135117,
+      "loss": 0.4717,
+      "step": 595
+    },
+    {
+      "epoch": 0.5235371755389353,
+      "eval_loss": 0.5270927548408508,
+      "eval_runtime": 28.5377,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 595
+    },
+    {
+      "epoch": 0.5279366476022878,
+      "grad_norm": 0.21386198699474335,
+      "learning_rate": 0.00010767735152242649,
+      "loss": 0.4776,
+      "step": 600
+    },
+    {
+      "epoch": 0.5279366476022878,
+      "eval_loss": 0.526791512966156,
+      "eval_runtime": 28.596,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 600
+    },
+    {
+      "epoch": 0.5323361196656401,
+      "grad_norm": 0.1984720528125763,
+      "learning_rate": 0.0001061440586662917,
+      "loss": 0.4708,
+      "step": 605
+    },
+    {
+      "epoch": 0.5323361196656401,
+      "eval_loss": 0.5266034007072449,
+      "eval_runtime": 28.6491,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 605
+    },
+    {
+      "epoch": 0.5367355917289925,
+      "grad_norm": 0.19453096389770508,
+      "learning_rate": 0.000104609314418017,
+      "loss": 0.4659,
+      "step": 610
+    },
+    {
+      "epoch": 0.5367355917289925,
+      "eval_loss": 0.5267328023910522,
+      "eval_runtime": 28.6358,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 610
+    },
+    {
+      "epoch": 0.5411350637923449,
+      "grad_norm": 0.2048104703426361,
+      "learning_rate": 0.00010307348132553025,
+      "loss": 0.5138,
+      "step": 615
+    },
+    {
+      "epoch": 0.5411350637923449,
+      "eval_loss": 0.5270944833755493,
+      "eval_runtime": 28.5902,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 615
+    },
+    {
+      "epoch": 0.5455345358556973,
+      "grad_norm": 0.1899915337562561,
+      "learning_rate": 0.00010153692219397387,
+      "loss": 0.4797,
+      "step": 620
+    },
+    {
+      "epoch": 0.5455345358556973,
+      "eval_loss": 0.5260502099990845,
+      "eval_runtime": 28.5533,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 620
+    },
+    {
+      "epoch": 0.5499340079190497,
+      "grad_norm": 0.18520919978618622,
+      "learning_rate": 0.0001,
+      "loss": 0.5068,
+      "step": 625
+    },
+    {
+      "epoch": 0.5499340079190497,
+      "eval_loss": 0.5251287817955017,
+      "eval_runtime": 28.4846,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 625
+    },
+    {
+      "epoch": 0.5543334799824021,
+      "grad_norm": 0.21325986087322235,
+      "learning_rate": 9.84630778060262e-05,
+      "loss": 0.4799,
+      "step": 630
+    },
+    {
+      "epoch": 0.5543334799824021,
+      "eval_loss": 0.524385929107666,
+      "eval_runtime": 28.5917,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 630
+    },
+    {
+      "epoch": 0.5587329520457545,
+      "grad_norm": 0.20572926104068756,
+      "learning_rate": 9.692651867446973e-05,
+      "loss": 0.49,
+      "step": 635
+    },
+    {
+      "epoch": 0.5587329520457545,
+      "eval_loss": 0.523975133895874,
+      "eval_runtime": 28.6052,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 635
+    },
+    {
+      "epoch": 0.5631324241091069,
+      "grad_norm": 0.20347937941551208,
+      "learning_rate": 9.539068558198304e-05,
+      "loss": 0.4702,
+      "step": 640
+    },
+    {
+      "epoch": 0.5631324241091069,
+      "eval_loss": 0.5229539275169373,
+      "eval_runtime": 28.6223,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 640
+    },
+    {
+      "epoch": 0.5675318961724594,
+      "grad_norm": 0.21256154775619507,
+      "learning_rate": 9.38559413337083e-05,
+      "loss": 0.4736,
+      "step": 645
+    },
+    {
+      "epoch": 0.5675318961724594,
+      "eval_loss": 0.5221072435379028,
+      "eval_runtime": 28.6189,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 645
+    },
+    {
+      "epoch": 0.5719313682358117,
+      "grad_norm": 0.2260565459728241,
+      "learning_rate": 9.232264847757357e-05,
+      "loss": 0.5065,
+      "step": 650
+    },
+    {
+      "epoch": 0.5719313682358117,
+      "eval_loss": 0.5213314890861511,
+      "eval_runtime": 28.6771,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 650
+    },
+    {
+      "epoch": 0.5763308402991641,
+      "grad_norm": 0.21002529561519623,
+      "learning_rate": 9.079116921864884e-05,
+      "loss": 0.4796,
+      "step": 655
+    },
+    {
+      "epoch": 0.5763308402991641,
+      "eval_loss": 0.5214037299156189,
+      "eval_runtime": 28.6202,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 655
+    },
+    {
+      "epoch": 0.5807303123625165,
+      "grad_norm": 0.19340470433235168,
+      "learning_rate": 8.92618653335837e-05,
+      "loss": 0.4788,
+      "step": 660
+    },
+    {
+      "epoch": 0.5807303123625165,
+      "eval_loss": 0.5211138725280762,
+      "eval_runtime": 28.6313,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 660
+    },
+    {
+      "epoch": 0.5851297844258689,
+      "grad_norm": 0.19035720825195312,
+      "learning_rate": 8.773509808514581e-05,
+      "loss": 0.468,
+      "step": 665
+    },
+    {
+      "epoch": 0.5851297844258689,
+      "eval_loss": 0.5191999077796936,
+      "eval_runtime": 28.0607,
+      "eval_samples_per_second": 0.606,
+      "eval_steps_per_second": 0.321,
+      "step": 665
+    },
+    {
+      "epoch": 0.5895292564892213,
+      "grad_norm": 0.19168096780776978,
+      "learning_rate": 8.62112281368809e-05,
+      "loss": 0.5066,
+      "step": 670
+    },
+    {
+      "epoch": 0.5895292564892213,
+      "eval_loss": 0.5176913142204285,
+      "eval_runtime": 28.5375,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 670
+    },
+    {
+      "epoch": 0.5939287285525737,
+      "grad_norm": 0.19758321344852448,
+      "learning_rate": 8.469061546791442e-05,
+      "loss": 0.51,
+      "step": 675
+    },
+    {
+      "epoch": 0.5939287285525737,
+      "eval_loss": 0.517296314239502,
+      "eval_runtime": 28.5712,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 675
+    },
+    {
+      "epoch": 0.5983282006159261,
+      "grad_norm": 0.19562241435050964,
+      "learning_rate": 8.317361928791469e-05,
+      "loss": 0.4932,
+      "step": 680
+    },
+    {
+      "epoch": 0.5983282006159261,
+      "eval_loss": 0.5170657634735107,
+      "eval_runtime": 28.4877,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 680
+    },
+    {
+      "epoch": 0.6027276726792785,
+      "grad_norm": 0.18590031564235687,
+      "learning_rate": 8.166059795223794e-05,
+      "loss": 0.5055,
+      "step": 685
+    },
+    {
+      "epoch": 0.6027276726792785,
+      "eval_loss": 0.5166193842887878,
+      "eval_runtime": 28.625,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 685
+    },
+    {
+      "epoch": 0.6071271447426309,
+      "grad_norm": 0.2049984484910965,
+      "learning_rate": 8.015190887727509e-05,
+      "loss": 0.4846,
+      "step": 690
+    },
+    {
+      "epoch": 0.6071271447426309,
+      "eval_loss": 0.5160765647888184,
+      "eval_runtime": 28.5582,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 690
+    },
+    {
+      "epoch": 0.6115266168059833,
+      "grad_norm": 0.19373777508735657,
+      "learning_rate": 7.864790845602039e-05,
+      "loss": 0.4862,
+      "step": 695
+    },
+    {
+      "epoch": 0.6115266168059833,
+      "eval_loss": 0.5157306790351868,
+      "eval_runtime": 28.6078,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 695
+    },
+    {
+      "epoch": 0.6159260888693356,
+      "grad_norm": 0.20326727628707886,
+      "learning_rate": 7.714895197388189e-05,
+      "loss": 0.5064,
+      "step": 700
+    },
+    {
+      "epoch": 0.6159260888693356,
+      "eval_loss": 0.5153770446777344,
+      "eval_runtime": 28.6597,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 700
+    },
+    {
+      "epoch": 0.6203255609326881,
+      "grad_norm": 0.19425565004348755,
+      "learning_rate": 7.565539352475326e-05,
+      "loss": 0.5018,
+      "step": 705
+    },
+    {
+      "epoch": 0.6203255609326881,
+      "eval_loss": 0.5147074460983276,
+      "eval_runtime": 28.5261,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 705
+    },
+    {
+      "epoch": 0.6247250329960404,
+      "grad_norm": 0.19491039216518402,
+      "learning_rate": 7.416758592736744e-05,
+      "loss": 0.482,
+      "step": 710
+    },
+    {
+      "epoch": 0.6247250329960404,
+      "eval_loss": 0.5144516229629517,
+      "eval_runtime": 28.533,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 710
+    },
+    {
+      "epoch": 0.6291245050593929,
+      "grad_norm": 0.1957363337278366,
+      "learning_rate": 7.268588064195122e-05,
+      "loss": 0.4883,
+      "step": 715
+    },
+    {
+      "epoch": 0.6291245050593929,
+      "eval_loss": 0.5139791965484619,
+      "eval_runtime": 28.5313,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 715
+    },
+    {
+      "epoch": 0.6335239771227452,
+      "grad_norm": 0.21253836154937744,
+      "learning_rate": 7.12106276872011e-05,
+      "loss": 0.4768,
+      "step": 720
+    },
+    {
+      "epoch": 0.6335239771227452,
+      "eval_loss": 0.5137556195259094,
+      "eval_runtime": 28.6307,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 720
+    },
+    {
+      "epoch": 0.6379234491860977,
+      "grad_norm": 0.1721029132604599,
+      "learning_rate": 6.974217555759915e-05,
+      "loss": 0.4816,
+      "step": 725
+    },
+    {
+      "epoch": 0.6379234491860977,
+      "eval_loss": 0.5133811831474304,
+      "eval_runtime": 28.5925,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 725
+    },
+    {
+      "epoch": 0.6423229212494501,
+      "grad_norm": 0.19211679697036743,
+      "learning_rate": 6.82808711410894e-05,
+      "loss": 0.5035,
+      "step": 730
+    },
+    {
+      "epoch": 0.6423229212494501,
+      "eval_loss": 0.5132091641426086,
+      "eval_runtime": 28.5078,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 730
+    },
+    {
+      "epoch": 0.6467223933128025,
+      "grad_norm": 0.19252945482730865,
+      "learning_rate": 6.682705963713356e-05,
+      "loss": 0.4822,
+      "step": 735
+    },
+    {
+      "epoch": 0.6467223933128025,
+      "eval_loss": 0.5131357908248901,
+      "eval_runtime": 28.6326,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 735
+    },
+    {
+      "epoch": 0.6511218653761549,
+      "grad_norm": 0.1986207813024521,
+      "learning_rate": 6.538108447516558e-05,
+      "loss": 0.4612,
+      "step": 740
+    },
+    {
+      "epoch": 0.6511218653761549,
+      "eval_loss": 0.5128303170204163,
+      "eval_runtime": 28.6066,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 740
+    },
+    {
+      "epoch": 0.6555213374395072,
+      "grad_norm": 0.19202682375907898,
+      "learning_rate": 6.394328723346434e-05,
+      "loss": 0.4578,
+      "step": 745
+    },
+    {
+      "epoch": 0.6555213374395072,
+      "eval_loss": 0.5124692916870117,
+      "eval_runtime": 28.6064,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 745
+    },
+    {
+      "epoch": 0.6599208095028597,
+      "grad_norm": 0.198526531457901,
+      "learning_rate": 6.251400755846372e-05,
+      "loss": 0.5176,
+      "step": 750
+    },
+    {
+      "epoch": 0.6599208095028597,
+      "eval_loss": 0.5121349096298218,
+      "eval_runtime": 28.5313,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 750
+    },
+    {
+      "epoch": 0.664320281566212,
+      "grad_norm": 0.19058994948863983,
+      "learning_rate": 6.109358308451885e-05,
+      "loss": 0.4877,
+      "step": 755
+    },
+    {
+      "epoch": 0.664320281566212,
+      "eval_loss": 0.5118634700775146,
+      "eval_runtime": 28.5287,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 755
+    },
+    {
+      "epoch": 0.6687197536295645,
+      "grad_norm": 0.1798192411661148,
+      "learning_rate": 5.968234935414807e-05,
+      "loss": 0.4805,
+      "step": 760
+    },
+    {
+      "epoch": 0.6687197536295645,
+      "eval_loss": 0.5116167664527893,
+      "eval_runtime": 28.5918,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 760
+    },
+    {
+      "epoch": 0.6731192256929168,
+      "grad_norm": 0.18448549509048462,
+      "learning_rate": 5.828063973876834e-05,
+      "loss": 0.4993,
+      "step": 765
+    },
+    {
+      "epoch": 0.6731192256929168,
+      "eval_loss": 0.5111361742019653,
+      "eval_runtime": 28.5586,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 765
+    },
+    {
+      "epoch": 0.6775186977562693,
+      "grad_norm": 0.18624383211135864,
+      "learning_rate": 5.688878535994421e-05,
+      "loss": 0.4844,
+      "step": 770
+    },
+    {
+      "epoch": 0.6775186977562693,
+      "eval_loss": 0.5107051134109497,
+      "eval_runtime": 28.5748,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 770
+    },
+    {
+      "epoch": 0.6819181698196216,
+      "grad_norm": 0.18364666402339935,
+      "learning_rate": 5.550711501116789e-05,
+      "loss": 0.4674,
+      "step": 775
+    },
+    {
+      "epoch": 0.6819181698196216,
+      "eval_loss": 0.5101103186607361,
+      "eval_runtime": 28.5159,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 775
+    },
+    {
+      "epoch": 0.6863176418829741,
+      "grad_norm": 0.23952247202396393,
+      "learning_rate": 5.413595508018952e-05,
+      "loss": 0.4943,
+      "step": 780
+    },
+    {
+      "epoch": 0.6863176418829741,
+      "eval_loss": 0.5096238255500793,
+      "eval_runtime": 28.516,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 780
+    },
+    {
+      "epoch": 0.6907171139463264,
+      "grad_norm": 0.20105206966400146,
+      "learning_rate": 5.27756294719153e-05,
+      "loss": 0.4924,
+      "step": 785
+    },
+    {
+      "epoch": 0.6907171139463264,
+      "eval_loss": 0.5093135237693787,
+      "eval_runtime": 28.5941,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 785
+    },
+    {
+      "epoch": 0.6951165860096788,
+      "grad_norm": 0.19826586544513702,
+      "learning_rate": 5.1426459531892714e-05,
+      "loss": 0.4986,
+      "step": 790
+    },
+    {
+      "epoch": 0.6951165860096788,
+      "eval_loss": 0.5086015462875366,
+      "eval_runtime": 28.6207,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 790
+    },
+    {
+      "epoch": 0.6995160580730312,
+      "grad_norm": 0.17991924285888672,
+      "learning_rate": 5.008876397039983e-05,
+      "loss": 0.4698,
+      "step": 795
+    },
+    {
+      "epoch": 0.6995160580730312,
+      "eval_loss": 0.5082879662513733,
+      "eval_runtime": 28.6587,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 795
+    },
+    {
+      "epoch": 0.7039155301363836,
+      "grad_norm": 0.19232523441314697,
+      "learning_rate": 4.876285878715764e-05,
+      "loss": 0.4981,
+      "step": 800
+    },
+    {
+      "epoch": 0.7039155301363836,
+      "eval_loss": 0.5078893899917603,
+      "eval_runtime": 28.5038,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 800
+    },
+    {
+      "epoch": 0.708315002199736,
+      "grad_norm": 0.19006720185279846,
+      "learning_rate": 4.744905719668207e-05,
+      "loss": 0.4758,
+      "step": 805
+    },
+    {
+      "epoch": 0.708315002199736,
+      "eval_loss": 0.5076141357421875,
+      "eval_runtime": 28.6324,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 805
+    },
+    {
+      "epoch": 0.7127144742630884,
+      "grad_norm": 0.19002890586853027,
+      "learning_rate": 4.614766955429447e-05,
+      "loss": 0.4642,
+      "step": 810
+    },
+    {
+      "epoch": 0.7127144742630884,
+      "eval_loss": 0.507789671421051,
+      "eval_runtime": 28.6356,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 810
+    },
+    {
+      "epoch": 0.7171139463264409,
+      "grad_norm": 0.2051495909690857,
+      "learning_rate": 4.485900328280731e-05,
+      "loss": 0.4669,
+      "step": 815
+    },
+    {
+      "epoch": 0.7171139463264409,
+      "eval_loss": 0.5073484182357788,
+      "eval_runtime": 28.5748,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 815
+    },
+    {
+      "epoch": 0.7215134183897932,
+      "grad_norm": 0.6378114223480225,
+      "learning_rate": 4.358336279990268e-05,
+      "loss": 0.4711,
+      "step": 820
+    },
+    {
+      "epoch": 0.7215134183897932,
+      "eval_loss": 0.5070581436157227,
+      "eval_runtime": 28.6233,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 820
+    },
+    {
+      "epoch": 0.7259128904531457,
+      "grad_norm": 0.181978240609169,
+      "learning_rate": 4.2321049446220505e-05,
+      "loss": 0.4704,
+      "step": 825
+    },
+    {
+      "epoch": 0.7259128904531457,
+      "eval_loss": 0.5068845748901367,
+      "eval_runtime": 28.5225,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 825
+    },
+    {
+      "epoch": 0.730312362516498,
+      "grad_norm": 0.1777966171503067,
+      "learning_rate": 4.107236141417382e-05,
+      "loss": 0.4752,
+      "step": 830
+    },
+    {
+      "epoch": 0.730312362516498,
+      "eval_loss": 0.5066249966621399,
+      "eval_runtime": 28.5423,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 830
+    },
+    {
+      "epoch": 0.7347118345798505,
+      "grad_norm": 0.18686190247535706,
+      "learning_rate": 3.9837593677507726e-05,
+      "loss": 0.4621,
+      "step": 835
+    },
+    {
+      "epoch": 0.7347118345798505,
+      "eval_loss": 0.5066962242126465,
+      "eval_runtime": 28.428,
+      "eval_samples_per_second": 0.598,
+      "eval_steps_per_second": 0.317,
+      "step": 835
+    },
+    {
+      "epoch": 0.7391113066432028,
+      "grad_norm": 0.18854567408561707,
+      "learning_rate": 3.8617037921618705e-05,
+      "loss": 0.4748,
+      "step": 840
+    },
+    {
+      "epoch": 0.7391113066432028,
+      "eval_loss": 0.50632643699646,
+      "eval_runtime": 28.5075,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 840
+    },
+    {
+      "epoch": 0.7435107787065552,
+      "grad_norm": 0.19204109907150269,
+      "learning_rate": 3.741098247465049e-05,
+      "loss": 0.4948,
+      "step": 845
+    },
+    {
+      "epoch": 0.7435107787065552,
+      "eval_loss": 0.5060507655143738,
+      "eval_runtime": 28.5753,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 845
+    },
+    {
+      "epoch": 0.7479102507699076,
+      "grad_norm": 0.19182614982128143,
+      "learning_rate": 3.621971223938334e-05,
+      "loss": 0.4832,
+      "step": 850
+    },
+    {
+      "epoch": 0.7479102507699076,
+      "eval_loss": 0.5058286190032959,
+      "eval_runtime": 28.5184,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 850
+    },
+    {
+      "epoch": 0.75230972283326,
+      "grad_norm": 0.18205444514751434,
+      "learning_rate": 3.504350862593231e-05,
+      "loss": 0.4642,
+      "step": 855
+    },
+    {
+      "epoch": 0.75230972283326,
+      "eval_loss": 0.505698025226593,
+      "eval_runtime": 28.6382,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 855
+    },
+    {
+      "epoch": 0.7567091948966124,
+      "grad_norm": 0.20196740329265594,
+      "learning_rate": 3.388264948527052e-05,
+      "loss": 0.4877,
+      "step": 860
+    },
+    {
+      "epoch": 0.7567091948966124,
+      "eval_loss": 0.5052359700202942,
+      "eval_runtime": 28.5347,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 860
+    },
+    {
+      "epoch": 0.7611086669599648,
+      "grad_norm": 0.18125030398368835,
+      "learning_rate": 3.2737409043593405e-05,
+      "loss": 0.4727,
+      "step": 865
+    },
+    {
+      "epoch": 0.7611086669599648,
+      "eval_loss": 0.504954993724823,
+      "eval_runtime": 28.5976,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 865
+    },
+    {
+      "epoch": 0.7655081390233172,
+      "grad_norm": 0.18927669525146484,
+      "learning_rate": 3.160805783753897e-05,
+      "loss": 0.4691,
+      "step": 870
+    },
+    {
+      "epoch": 0.7655081390233172,
+      "eval_loss": 0.5047942399978638,
+      "eval_runtime": 28.5051,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 870
+    },
+    {
+      "epoch": 0.7699076110866696,
+      "grad_norm": 0.18508534133434296,
+      "learning_rate": 3.0494862650279822e-05,
+      "loss": 0.5292,
+      "step": 875
+    },
+    {
+      "epoch": 0.7699076110866696,
+      "eval_loss": 0.5046341419219971,
+      "eval_runtime": 28.5445,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 875
+    },
+    {
+      "epoch": 0.774307083150022,
+      "grad_norm": 0.18230414390563965,
+      "learning_rate": 2.939808644850184e-05,
+      "loss": 0.4708,
+      "step": 880
+    },
+    {
+      "epoch": 0.774307083150022,
+      "eval_loss": 0.5046290755271912,
+      "eval_runtime": 28.6138,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 880
+    },
+    {
+      "epoch": 0.7787065552133744,
+      "grad_norm": 0.17352643609046936,
+      "learning_rate": 2.8317988320284228e-05,
+      "loss": 0.4863,
+      "step": 885
+    },
+    {
+      "epoch": 0.7787065552133744,
+      "eval_loss": 0.5044691562652588,
+      "eval_runtime": 28.6321,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 885
+    },
+    {
+      "epoch": 0.7831060272767268,
+      "grad_norm": 0.1845002919435501,
+      "learning_rate": 2.7254823413896058e-05,
+      "loss": 0.5006,
+      "step": 890
+    },
+    {
+      "epoch": 0.7831060272767268,
+      "eval_loss": 0.5042091012001038,
+      "eval_runtime": 28.6132,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 890
+    },
+    {
+      "epoch": 0.7875054993400792,
+      "grad_norm": 0.17883773148059845,
+      "learning_rate": 2.6208842877523278e-05,
+      "loss": 0.4887,
+      "step": 895
+    },
+    {
+      "epoch": 0.7875054993400792,
+      "eval_loss": 0.5039156675338745,
+      "eval_runtime": 28.5693,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 895
+    },
+    {
+      "epoch": 0.7919049714034316,
+      "grad_norm": 0.19202597439289093,
+      "learning_rate": 2.518029379994089e-05,
+      "loss": 0.4867,
+      "step": 900
+    },
+    {
+      "epoch": 0.7919049714034316,
+      "eval_loss": 0.5037320852279663,
+      "eval_runtime": 28.549,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 900
+    },
+    {
+      "epoch": 0.796304443466784,
+      "grad_norm": 0.18246056139469147,
+      "learning_rate": 2.4169419152143768e-05,
+      "loss": 0.4662,
+      "step": 905
+    },
+    {
+      "epoch": 0.796304443466784,
+      "eval_loss": 0.5035374164581299,
+      "eval_runtime": 28.6042,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 905
+    },
+    {
+      "epoch": 0.8007039155301364,
+      "grad_norm": 0.18989378213882446,
+      "learning_rate": 2.317645772995042e-05,
+      "loss": 0.4744,
+      "step": 910
+    },
+    {
+      "epoch": 0.8007039155301364,
+      "eval_loss": 0.5033923387527466,
+      "eval_runtime": 28.4795,
+      "eval_samples_per_second": 0.597,
+      "eval_steps_per_second": 0.316,
+      "step": 910
+    },
+    {
+      "epoch": 0.8051033875934888,
+      "grad_norm": 0.19525018334388733,
+      "learning_rate": 2.220164409759299e-05,
+      "loss": 0.5159,
+      "step": 915
+    },
+    {
+      "epoch": 0.8051033875934888,
+      "eval_loss": 0.503151535987854,
+      "eval_runtime": 28.6198,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 915
+    },
+    {
+      "epoch": 0.8095028596568412,
+      "grad_norm": 0.18840977549552917,
+      "learning_rate": 2.124520853230697e-05,
+      "loss": 0.4848,
+      "step": 920
+    },
+    {
+      "epoch": 0.8095028596568412,
+      "eval_loss": 0.5029481649398804,
+      "eval_runtime": 28.614,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 920
+    },
+    {
+      "epoch": 0.8139023317201936,
+      "grad_norm": 0.18055056035518646,
+      "learning_rate": 2.03073769699333e-05,
+      "loss": 0.4648,
+      "step": 925
+    },
+    {
+      "epoch": 0.8139023317201936,
+      "eval_loss": 0.5028063654899597,
+      "eval_runtime": 28.5662,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 925
+    },
+    {
+      "epoch": 0.818301803783546,
+      "grad_norm": 0.18352611362934113,
+      "learning_rate": 1.9388370951546432e-05,
+      "loss": 0.4733,
+      "step": 930
+    },
+    {
+      "epoch": 0.818301803783546,
+      "eval_loss": 0.5027296543121338,
+      "eval_runtime": 28.5532,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 930
+    },
+    {
+      "epoch": 0.8227012758468983,
+      "grad_norm": 0.18161964416503906,
+      "learning_rate": 1.848840757112019e-05,
+      "loss": 0.4556,
+      "step": 935
+    },
+    {
+      "epoch": 0.8227012758468983,
+      "eval_loss": 0.5025849342346191,
+      "eval_runtime": 28.6672,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 935
+    },
+    {
+      "epoch": 0.8271007479102508,
+      "grad_norm": 0.19485127925872803,
+      "learning_rate": 1.7607699424244585e-05,
+      "loss": 0.4973,
+      "step": 940
+    },
+    {
+      "epoch": 0.8271007479102508,
+      "eval_loss": 0.5023777484893799,
+      "eval_runtime": 28.5856,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 940
+    },
+    {
+      "epoch": 0.8315002199736031,
+      "grad_norm": 0.19218072295188904,
+      "learning_rate": 1.674645455790468e-05,
+      "loss": 0.4708,
+      "step": 945
+    },
+    {
+      "epoch": 0.8315002199736031,
+      "eval_loss": 0.5024308562278748,
+      "eval_runtime": 28.6001,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 945
+    },
+    {
+      "epoch": 0.8358996920369556,
+      "grad_norm": 0.18270643055438995,
+      "learning_rate": 1.5904876421334536e-05,
+      "loss": 0.4547,
+      "step": 950
+    },
+    {
+      "epoch": 0.8358996920369556,
+      "eval_loss": 0.5024178624153137,
+      "eval_runtime": 28.5464,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 950
+    },
+    {
+      "epoch": 0.8402991641003079,
+      "grad_norm": 0.18350371718406677,
+      "learning_rate": 1.5083163817956914e-05,
+      "loss": 0.4663,
+      "step": 955
+    },
+    {
+      "epoch": 0.8402991641003079,
+      "eval_loss": 0.5021481513977051,
+      "eval_runtime": 28.5783,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 955
+    },
+    {
+      "epoch": 0.8446986361636604,
+      "grad_norm": 0.18115630745887756,
+      "learning_rate": 1.4281510858420632e-05,
+      "loss": 0.4857,
+      "step": 960
+    },
+    {
+      "epoch": 0.8446986361636604,
+      "eval_loss": 0.5019457340240479,
+      "eval_runtime": 28.5976,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 960
+    },
+    {
+      "epoch": 0.8490981082270127,
+      "grad_norm": 0.1744571477174759,
+      "learning_rate": 1.350010691474629e-05,
+      "loss": 0.4633,
+      "step": 965
+    },
+    {
+      "epoch": 0.8490981082270127,
+      "eval_loss": 0.5019629597663879,
+      "eval_runtime": 28.5207,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 965
+    },
+    {
+      "epoch": 0.8534975802903652,
+      "grad_norm": 0.18827442824840546,
+      "learning_rate": 1.2739136575591581e-05,
+      "loss": 0.4723,
+      "step": 970
+    },
+    {
+      "epoch": 0.8534975802903652,
+      "eval_loss": 0.5018792748451233,
+      "eval_runtime": 28.4515,
+      "eval_samples_per_second": 0.598,
+      "eval_steps_per_second": 0.316,
+      "step": 970
+    },
+    {
+      "epoch": 0.8578970523537176,
+      "grad_norm": 0.18166576325893402,
+      "learning_rate": 1.1998779602646437e-05,
+      "loss": 0.4691,
+      "step": 975
+    },
+    {
+      "epoch": 0.8578970523537176,
+      "eval_loss": 0.5017500519752502,
+      "eval_runtime": 28.5978,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 975
+    },
+    {
+      "epoch": 0.8622965244170699,
+      "grad_norm": 0.18091408908367157,
+      "learning_rate": 1.1279210888168546e-05,
+      "loss": 0.4874,
+      "step": 980
+    },
+    {
+      "epoch": 0.8622965244170699,
+      "eval_loss": 0.5017052888870239,
+      "eval_runtime": 28.7541,
+      "eval_samples_per_second": 0.591,
+      "eval_steps_per_second": 0.313,
+      "step": 980
+    },
+    {
+      "epoch": 0.8666959964804224,
+      "grad_norm": 0.182442307472229,
+      "learning_rate": 1.0580600413668984e-05,
+      "loss": 0.4773,
+      "step": 985
+    },
+    {
+      "epoch": 0.8666959964804224,
+      "eval_loss": 0.5016083121299744,
+      "eval_runtime": 28.5972,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 985
+    },
+    {
+      "epoch": 0.8710954685437747,
+      "grad_norm": 0.18171900510787964,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 0.4806,
+      "step": 990
+    },
+    {
+      "epoch": 0.8710954685437747,
+      "eval_loss": 0.5015130043029785,
+      "eval_runtime": 28.5707,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 990
+    },
+    {
+      "epoch": 0.8754949406071272,
+      "grad_norm": 0.1896371841430664,
+      "learning_rate": 9.246909317160746e-06,
+      "loss": 0.4512,
+      "step": 995
+    },
+    {
+      "epoch": 0.8754949406071272,
+      "eval_loss": 0.5013110637664795,
+      "eval_runtime": 28.6509,
+      "eval_samples_per_second": 0.593,
+      "eval_steps_per_second": 0.314,
+      "step": 995
+    },
+    {
+      "epoch": 0.8798944126704795,
+      "grad_norm": 0.1779976189136505,
+      "learning_rate": 8.612143748910451e-06,
+      "loss": 0.4561,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8798944126704795,
+      "eval_loss": 0.5013135075569153,
+      "eval_runtime": 28.8047,
+      "eval_samples_per_second": 0.59,
+      "eval_steps_per_second": 0.312,
+      "step": 1000
+    },
+    {
+      "epoch": 0.884293884733832,
+      "grad_norm": 0.17416957020759583,
+      "learning_rate": 7.998966453731094e-06,
+      "loss": 0.4637,
+      "step": 1005
+    },
+    {
+      "epoch": 0.884293884733832,
+      "eval_loss": 0.5013565421104431,
+      "eval_runtime": 28.5911,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1005
+    },
+    {
+      "epoch": 0.8886933567971843,
+      "grad_norm": 0.1769402176141739,
+      "learning_rate": 7.40752228061502e-06,
+      "loss": 0.4527,
+      "step": 1010
+    },
+    {
+      "epoch": 0.8886933567971843,
+      "eval_loss": 0.5010828375816345,
+      "eval_runtime": 28.5203,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 1010
+    },
+    {
+      "epoch": 0.8930928288605368,
+      "grad_norm": 0.17784808576107025,
+      "learning_rate": 6.8379509446057644e-06,
+      "loss": 0.4903,
+      "step": 1015
+    },
+    {
+      "epoch": 0.8930928288605368,
+      "eval_loss": 0.5012202262878418,
+      "eval_runtime": 27.8441,
+      "eval_samples_per_second": 0.611,
+      "eval_steps_per_second": 0.323,
+      "step": 1015
+    },
+    {
+      "epoch": 0.8974923009238891,
+      "grad_norm": 0.18067394196987152,
+      "learning_rate": 6.290386993793618e-06,
+      "loss": 0.4689,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8974923009238891,
+      "eval_loss": 0.5012267231941223,
+      "eval_runtime": 28.517,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9018917729872415,
+      "grad_norm": 0.17478391528129578,
+      "learning_rate": 5.764959777531776e-06,
+      "loss": 0.4589,
+      "step": 1025
+    },
+    {
+      "epoch": 0.9018917729872415,
+      "eval_loss": 0.5011836290359497,
+      "eval_runtime": 28.6023,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1025
+    },
+    {
+      "epoch": 0.9062912450505939,
+      "grad_norm": 0.185857892036438,
+      "learning_rate": 5.261793415880456e-06,
+      "loss": 0.4528,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9062912450505939,
+      "eval_loss": 0.501183807849884,
+      "eval_runtime": 28.5159,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.316,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9106907171139463,
+      "grad_norm": 0.17951223254203796,
+      "learning_rate": 4.781006770286478e-06,
+      "loss": 0.4845,
+      "step": 1035
+    },
+    {
+      "epoch": 0.9106907171139463,
+      "eval_loss": 0.5011433959007263,
+      "eval_runtime": 28.6072,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1035
+    },
+    {
+      "epoch": 0.9150901891772987,
+      "grad_norm": 0.18096089363098145,
+      "learning_rate": 4.322713415504975e-06,
+      "loss": 0.4578,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9150901891772987,
+      "eval_loss": 0.5011703968048096,
+      "eval_runtime": 28.6287,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9194896612406511,
+      "grad_norm": 0.2069099247455597,
+      "learning_rate": 3.887021612769936e-06,
+      "loss": 0.5027,
+      "step": 1045
+    },
+    {
+      "epoch": 0.9194896612406511,
+      "eval_loss": 0.5011240839958191,
+      "eval_runtime": 29.0514,
+      "eval_samples_per_second": 0.585,
+      "eval_steps_per_second": 0.31,
+      "step": 1045
+    },
+    {
+      "epoch": 0.9238891333040036,
+      "grad_norm": 0.18762987852096558,
+      "learning_rate": 3.4740342842199956e-06,
+      "loss": 0.4695,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9238891333040036,
+      "eval_loss": 0.5010772347450256,
+      "eval_runtime": 28.5655,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9282886053673559,
+      "grad_norm": 0.178373321890831,
+      "learning_rate": 3.0838489885854805e-06,
+      "loss": 0.484,
+      "step": 1055
+    },
+    {
+      "epoch": 0.9282886053673559,
+      "eval_loss": 0.5010451674461365,
+      "eval_runtime": 28.6083,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1055
+    },
+    {
+      "epoch": 0.9326880774307084,
+      "grad_norm": 0.1794215440750122,
+      "learning_rate": 2.7165578981424357e-06,
+      "loss": 0.4784,
+      "step": 1060
+    },
+    {
+      "epoch": 0.9326880774307084,
+      "eval_loss": 0.5010905265808105,
+      "eval_runtime": 28.5675,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1060
+    },
+    {
+      "epoch": 0.9370875494940607,
+      "grad_norm": 0.17699354887008667,
+      "learning_rate": 2.3722477769389517e-06,
+      "loss": 0.4698,
+      "step": 1065
+    },
+    {
+      "epoch": 0.9370875494940607,
+      "eval_loss": 0.5010352730751038,
+      "eval_runtime": 28.6041,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1065
+    },
+    {
+      "epoch": 0.9414870215574132,
+      "grad_norm": 0.17208220064640045,
+      "learning_rate": 2.0509999602992493e-06,
+      "loss": 0.4517,
+      "step": 1070
+    },
+    {
+      "epoch": 0.9414870215574132,
+      "eval_loss": 0.5010344982147217,
+      "eval_runtime": 28.5865,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1070
+    },
+    {
+      "epoch": 0.9458864936207655,
+      "grad_norm": 0.1774464249610901,
+      "learning_rate": 1.7528903356100469e-06,
+      "loss": 0.4846,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9458864936207655,
+      "eval_loss": 0.5010223388671875,
+      "eval_runtime": 28.5634,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9502859656841179,
+      "grad_norm": 0.1773741990327835,
+      "learning_rate": 1.4779893243939359e-06,
+      "loss": 0.4402,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9502859656841179,
+      "eval_loss": 0.5009992718696594,
+      "eval_runtime": 28.5952,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9546854377474703,
+      "grad_norm": 0.18979211151599884,
+      "learning_rate": 1.2263618656739084e-06,
+      "loss": 0.5013,
+      "step": 1085
+    },
+    {
+      "epoch": 0.9546854377474703,
+      "eval_loss": 0.501004159450531,
+      "eval_runtime": 28.614,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1085
+    },
+    {
+      "epoch": 0.9590849098108227,
+      "grad_norm": 0.1895236372947693,
+      "learning_rate": 9.98067400632985e-07,
+      "loss": 0.4588,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9590849098108227,
+      "eval_loss": 0.5009981393814087,
+      "eval_runtime": 28.5601,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9634843818741751,
+      "grad_norm": 0.17328618466854095,
+      "learning_rate": 7.931598585726563e-07,
+      "loss": 0.4712,
+      "step": 1095
+    },
+    {
+      "epoch": 0.9634843818741751,
+      "eval_loss": 0.500961184501648,
+      "eval_runtime": 28.574,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1095
+    },
+    {
+      "epoch": 0.9678838539375275,
+      "grad_norm": 0.18122579157352448,
+      "learning_rate": 6.116876441733088e-07,
+      "loss": 0.4534,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9678838539375275,
+      "eval_loss": 0.5009814500808716,
+      "eval_runtime": 28.5934,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9722833260008799,
+      "grad_norm": 0.18148748576641083,
+      "learning_rate": 4.536936260597258e-07,
+      "loss": 0.4587,
+      "step": 1105
+    },
+    {
+      "epoch": 0.9722833260008799,
+      "eval_loss": 0.5009997487068176,
+      "eval_runtime": 28.5275,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 1105
+    },
+    {
+      "epoch": 0.9766827980642323,
+      "grad_norm": 0.18024764955043793,
+      "learning_rate": 3.192151266743548e-07,
+      "loss": 0.4783,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9766827980642323,
+      "eval_loss": 0.5009670853614807,
+      "eval_runtime": 28.5688,
+      "eval_samples_per_second": 0.595,
+      "eval_steps_per_second": 0.315,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9810822701275846,
+      "grad_norm": 0.18152055144309998,
+      "learning_rate": 2.082839134607828e-07,
+      "loss": 0.4623,
+      "step": 1115
+    },
+    {
+      "epoch": 0.9810822701275846,
+      "eval_loss": 0.5009202361106873,
+      "eval_runtime": 28.6066,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1115
+    },
+    {
+      "epoch": 0.9854817421909371,
+      "grad_norm": 0.17324087023735046,
+      "learning_rate": 1.2092619135937177e-07,
+      "loss": 0.439,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9854817421909371,
+      "eval_loss": 0.5010377168655396,
+      "eval_runtime": 28.5308,
+      "eval_samples_per_second": 0.596,
+      "eval_steps_per_second": 0.315,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9898812142542894,
+      "grad_norm": 0.17685554921627045,
+      "learning_rate": 5.716259661695533e-08,
+      "loss": 0.4629,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9898812142542894,
+      "eval_loss": 0.5009082555770874,
+      "eval_runtime": 28.6259,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9942806863176419,
+      "grad_norm": 0.17675389349460602,
+      "learning_rate": 1.7008191912004646e-08,
+      "loss": 0.4716,
+      "step": 1130
+    },
+    {
+      "epoch": 0.9942806863176419,
+      "eval_loss": 0.5009535551071167,
+      "eval_runtime": 28.626,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.314,
+      "step": 1130
+    },
+    {
+      "epoch": 0.9986801583809943,
+      "grad_norm": 0.18398317694664001,
+      "learning_rate": 4.724627964303175e-10,
+      "loss": 0.4832,
+      "step": 1135
+    },
+    {
+      "epoch": 0.9986801583809943,
+      "eval_loss": 0.5010104179382324,
+      "eval_runtime": 28.6106,
+      "eval_samples_per_second": 0.594,
+      "eval_steps_per_second": 0.315,
+      "step": 1135
+    },
+    {
+      "epoch": 0.9995600527936648,
+      "step": 1136,
+      "total_flos": 7.211600370336793e+18,
+      "train_loss": 0.039691918463984004,
+      "train_runtime": 9596.3839,
+      "train_samples_per_second": 1.895,
+      "train_steps_per_second": 0.118
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1136,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 5,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.211600370336793e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}