legis-llama3-1-8b-valid-arandu / trainer_state.json

Model save

d20113e verified about 1 month ago

89.2 kB

	{
	"best_metric": 0.439,
	"best_model_checkpoint": "runs/legis-llama3-1-8b-valid-arandu/checkpoint-1120",
	"epoch": 0.9995600527936648,
	"eval_steps": 5,
	"global_step": 1136,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004399472063352398,
	"grad_norm": 25.937191009521484,
	"learning_rate": 8.771929824561403e-06,
	"loss": 1.0992,
	"step": 5
	},
	{
	"epoch": 0.004399472063352398,
	"eval_loss": 1.1428982019424438,
	"eval_runtime": 29.8805,
	"eval_samples_per_second": 0.569,
	"eval_steps_per_second": 0.301,
	"step": 5
	},
	{
	"epoch": 0.008798944126704795,
	"grad_norm": 32.52676773071289,
	"learning_rate": 1.7543859649122806e-05,
	"loss": 1.067,
	"step": 10
	},
	{
	"epoch": 0.008798944126704795,
	"eval_loss": 1.0669578313827515,
	"eval_runtime": 28.5282,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 10
	},
	{
	"epoch": 0.013198416190057193,
	"grad_norm": 78.51001739501953,
	"learning_rate": 2.6315789473684212e-05,
	"loss": 1.0057,
	"step": 15
	},
	{
	"epoch": 0.013198416190057193,
	"eval_loss": 1.0462743043899536,
	"eval_runtime": 28.5697,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 15
	},
	{
	"epoch": 0.01759788825340959,
	"grad_norm": 21.255964279174805,
	"learning_rate": 3.508771929824561e-05,
	"loss": 0.9236,
	"step": 20
	},
	{
	"epoch": 0.01759788825340959,
	"eval_loss": 0.9604344367980957,
	"eval_runtime": 28.6152,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 20
	},
	{
	"epoch": 0.02199736031676199,
	"grad_norm": 1.3699233531951904,
	"learning_rate": 4.3859649122807014e-05,
	"loss": 0.8823,
	"step": 25
	},
	{
	"epoch": 0.02199736031676199,
	"eval_loss": 0.9002779126167297,
	"eval_runtime": 28.579,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 25
	},
	{
	"epoch": 0.026396832380114386,
	"grad_norm": 2.50810170173645,
	"learning_rate": 5.2631578947368424e-05,
	"loss": 0.8144,
	"step": 30
	},
	{
	"epoch": 0.026396832380114386,
	"eval_loss": 0.8441588878631592,
	"eval_runtime": 28.4936,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 30
	},
	{
	"epoch": 0.030796304443466784,
	"grad_norm": 1.6816316843032837,
	"learning_rate": 6.140350877192983e-05,
	"loss": 0.7829,
	"step": 35
	},
	{
	"epoch": 0.030796304443466784,
	"eval_loss": 0.7928382754325867,
	"eval_runtime": 28.5908,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 35
	},
	{
	"epoch": 0.03519577650681918,
	"grad_norm": 0.5125584006309509,
	"learning_rate": 7.017543859649122e-05,
	"loss": 0.7075,
	"step": 40
	},
	{
	"epoch": 0.03519577650681918,
	"eval_loss": 0.7538504600524902,
	"eval_runtime": 28.5816,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 40
	},
	{
	"epoch": 0.039595248570171576,
	"grad_norm": 0.36081045866012573,
	"learning_rate": 7.894736842105263e-05,
	"loss": 0.6776,
	"step": 45
	},
	{
	"epoch": 0.039595248570171576,
	"eval_loss": 0.7313268184661865,
	"eval_runtime": 28.6141,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 45
	},
	{
	"epoch": 0.04399472063352398,
	"grad_norm": 0.32318177819252014,
	"learning_rate": 8.771929824561403e-05,
	"loss": 0.6499,
	"step": 50
	},
	{
	"epoch": 0.04399472063352398,
	"eval_loss": 0.71351158618927,
	"eval_runtime": 28.5766,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 50
	},
	{
	"epoch": 0.04839419269687637,
	"grad_norm": 0.34377261996269226,
	"learning_rate": 9.649122807017544e-05,
	"loss": 0.6487,
	"step": 55
	},
	{
	"epoch": 0.04839419269687637,
	"eval_loss": 0.7006722092628479,
	"eval_runtime": 28.6048,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 55
	},
	{
	"epoch": 0.05279366476022877,
	"grad_norm": 0.4360629618167877,
	"learning_rate": 0.00010526315789473685,
	"loss": 0.6405,
	"step": 60
	},
	{
	"epoch": 0.05279366476022877,
	"eval_loss": 0.6905343532562256,
	"eval_runtime": 28.5257,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 60
	},
	{
	"epoch": 0.05719313682358117,
	"grad_norm": 0.28764936327934265,
	"learning_rate": 0.00011403508771929824,
	"loss": 0.6352,
	"step": 65
	},
	{
	"epoch": 0.05719313682358117,
	"eval_loss": 0.68143630027771,
	"eval_runtime": 28.6362,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 65
	},
	{
	"epoch": 0.06159260888693357,
	"grad_norm": 0.34088754653930664,
	"learning_rate": 0.00012280701754385965,
	"loss": 0.6064,
	"step": 70
	},
	{
	"epoch": 0.06159260888693357,
	"eval_loss": 0.6742813587188721,
	"eval_runtime": 28.5667,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 70
	},
	{
	"epoch": 0.06599208095028597,
	"grad_norm": 0.31284183263778687,
	"learning_rate": 0.00013157894736842108,
	"loss": 0.5924,
	"step": 75
	},
	{
	"epoch": 0.06599208095028597,
	"eval_loss": 0.6679767966270447,
	"eval_runtime": 28.461,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 75
	},
	{
	"epoch": 0.07039155301363836,
	"grad_norm": 0.30470508337020874,
	"learning_rate": 0.00014035087719298245,
	"loss": 0.5992,
	"step": 80
	},
	{
	"epoch": 0.07039155301363836,
	"eval_loss": 0.6631008386611938,
	"eval_runtime": 28.6891,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 80
	},
	{
	"epoch": 0.07479102507699076,
	"grad_norm": 0.3255262076854706,
	"learning_rate": 0.00014912280701754387,
	"loss": 0.5704,
	"step": 85
	},
	{
	"epoch": 0.07479102507699076,
	"eval_loss": 0.658618688583374,
	"eval_runtime": 28.6094,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 85
	},
	{
	"epoch": 0.07919049714034315,
	"grad_norm": 0.31922295689582825,
	"learning_rate": 0.00015789473684210527,
	"loss": 0.6048,
	"step": 90
	},
	{
	"epoch": 0.07919049714034315,
	"eval_loss": 0.6537344455718994,
	"eval_runtime": 28.532,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 90
	},
	{
	"epoch": 0.08358996920369556,
	"grad_norm": 0.45636337995529175,
	"learning_rate": 0.0001666666666666667,
	"loss": 0.613,
	"step": 95
	},
	{
	"epoch": 0.08358996920369556,
	"eval_loss": 0.6501972079277039,
	"eval_runtime": 28.6568,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 95
	},
	{
	"epoch": 0.08798944126704795,
	"grad_norm": 0.29334941506385803,
	"learning_rate": 0.00017543859649122806,
	"loss": 0.5799,
	"step": 100
	},
	{
	"epoch": 0.08798944126704795,
	"eval_loss": 0.6471393704414368,
	"eval_runtime": 28.5997,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 100
	},
	{
	"epoch": 0.09238891333040035,
	"grad_norm": 0.31318825483322144,
	"learning_rate": 0.00018421052631578948,
	"loss": 0.5887,
	"step": 105
	},
	{
	"epoch": 0.09238891333040035,
	"eval_loss": 0.6440868377685547,
	"eval_runtime": 28.6275,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 105
	},
	{
	"epoch": 0.09678838539375274,
	"grad_norm": 0.27908894419670105,
	"learning_rate": 0.00019298245614035088,
	"loss": 0.5905,
	"step": 110
	},
	{
	"epoch": 0.09678838539375274,
	"eval_loss": 0.6423875689506531,
	"eval_runtime": 28.5491,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 110
	},
	{
	"epoch": 0.10118785745710515,
	"grad_norm": 0.2715133726596832,
	"learning_rate": 0.00019999952753720356,
	"loss": 0.5902,
	"step": 115
	},
	{
	"epoch": 0.10118785745710515,
	"eval_loss": 0.6415910720825195,
	"eval_runtime": 28.5086,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 115
	},
	{
	"epoch": 0.10558732952045755,
	"grad_norm": 0.3028790056705475,
	"learning_rate": 0.000199982991808088,
	"loss": 0.5773,
	"step": 120
	},
	{
	"epoch": 0.10558732952045755,
	"eval_loss": 0.6377425789833069,
	"eval_runtime": 28.6438,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 120
	},
	{
	"epoch": 0.10998680158380994,
	"grad_norm": 0.3071883022785187,
	"learning_rate": 0.00019994283740338306,
	"loss": 0.5598,
	"step": 125
	},
	{
	"epoch": 0.10998680158380994,
	"eval_loss": 0.6367806196212769,
	"eval_runtime": 28.4852,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 125
	},
	{
	"epoch": 0.11438627364716233,
	"grad_norm": 0.34842655062675476,
	"learning_rate": 0.00019987907380864062,
	"loss": 0.596,
	"step": 130
	},
	{
	"epoch": 0.11438627364716233,
	"eval_loss": 0.6347749829292297,
	"eval_runtime": 28.5908,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 130
	},
	{
	"epoch": 0.11878574571051474,
	"grad_norm": 0.2854275107383728,
	"learning_rate": 0.00019979171608653924,
	"loss": 0.5733,
	"step": 135
	},
	{
	"epoch": 0.11878574571051474,
	"eval_loss": 0.6301032900810242,
	"eval_runtime": 28.5482,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 135
	},
	{
	"epoch": 0.12318521777386714,
	"grad_norm": 0.27615901827812195,
	"learning_rate": 0.00019968078487332566,
	"loss": 0.5875,
	"step": 140
	},
	{
	"epoch": 0.12318521777386714,
	"eval_loss": 0.6269793510437012,
	"eval_runtime": 28.4974,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 140
	},
	{
	"epoch": 0.12758468983721954,
	"grad_norm": 0.2709368169307709,
	"learning_rate": 0.00019954630637394029,
	"loss": 0.5711,
	"step": 145
	},
	{
	"epoch": 0.12758468983721954,
	"eval_loss": 0.6240233182907104,
	"eval_runtime": 28.5264,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 145
	},
	{
	"epoch": 0.13198416190057194,
	"grad_norm": 0.2877412736415863,
	"learning_rate": 0.00019938831235582672,
	"loss": 0.5885,
	"step": 150
	},
	{
	"epoch": 0.13198416190057194,
	"eval_loss": 0.6206945776939392,
	"eval_runtime": 28.5668,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 150
	},
	{
	"epoch": 0.13638363396392433,
	"grad_norm": 0.2922605574131012,
	"learning_rate": 0.00019920684014142738,
	"loss": 0.5485,
	"step": 155
	},
	{
	"epoch": 0.13638363396392433,
	"eval_loss": 0.6200662851333618,
	"eval_runtime": 28.5452,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 155
	},
	{
	"epoch": 0.14078310602727673,
	"grad_norm": 0.28340834379196167,
	"learning_rate": 0.00019900193259936704,
	"loss": 0.5754,
	"step": 160
	},
	{
	"epoch": 0.14078310602727673,
	"eval_loss": 0.6187402606010437,
	"eval_runtime": 28.5939,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 160
	},
	{
	"epoch": 0.14518257809062912,
	"grad_norm": 0.2796618938446045,
	"learning_rate": 0.0001987736381343261,
	"loss": 0.5535,
	"step": 165
	},
	{
	"epoch": 0.14518257809062912,
	"eval_loss": 0.6156266331672668,
	"eval_runtime": 28.5378,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 165
	},
	{
	"epoch": 0.14958205015398152,
	"grad_norm": 0.25343528389930725,
	"learning_rate": 0.00019852201067560606,
	"loss": 0.5697,
	"step": 170
	},
	{
	"epoch": 0.14958205015398152,
	"eval_loss": 0.6125033497810364,
	"eval_runtime": 28.5565,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 170
	},
	{
	"epoch": 0.1539815222173339,
	"grad_norm": 0.23438464105129242,
	"learning_rate": 0.00019824710966438996,
	"loss": 0.5335,
	"step": 175
	},
	{
	"epoch": 0.1539815222173339,
	"eval_loss": 0.6096713542938232,
	"eval_runtime": 28.6017,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 175
	},
	{
	"epoch": 0.1583809942806863,
	"grad_norm": 0.24729043245315552,
	"learning_rate": 0.00019794900003970077,
	"loss": 0.5702,
	"step": 180
	},
	{
	"epoch": 0.1583809942806863,
	"eval_loss": 0.6071114540100098,
	"eval_runtime": 28.5677,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 180
	},
	{
	"epoch": 0.16278046634403873,
	"grad_norm": 0.257964551448822,
	"learning_rate": 0.00019762775222306107,
	"loss": 0.5494,
	"step": 185
	},
	{
	"epoch": 0.16278046634403873,
	"eval_loss": 0.6062531471252441,
	"eval_runtime": 28.5933,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 185
	},
	{
	"epoch": 0.16717993840739112,
	"grad_norm": 0.2648680806159973,
	"learning_rate": 0.0001972834421018576,
	"loss": 0.5379,
	"step": 190
	},
	{
	"epoch": 0.16717993840739112,
	"eval_loss": 0.6054437756538391,
	"eval_runtime": 28.5575,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 190
	},
	{
	"epoch": 0.17157941047074352,
	"grad_norm": 0.2540712356567383,
	"learning_rate": 0.00019691615101141455,
	"loss": 0.5415,
	"step": 195
	},
	{
	"epoch": 0.17157941047074352,
	"eval_loss": 0.6023730039596558,
	"eval_runtime": 28.5419,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 195
	},
	{
	"epoch": 0.1759788825340959,
	"grad_norm": 0.2424851357936859,
	"learning_rate": 0.00019652596571578004,
	"loss": 0.5504,
	"step": 200
	},
	{
	"epoch": 0.1759788825340959,
	"eval_loss": 0.5997632145881653,
	"eval_runtime": 28.6422,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 200
	},
	{
	"epoch": 0.1803783545974483,
	"grad_norm": 0.2573873698711395,
	"learning_rate": 0.0001961129783872301,
	"loss": 0.5418,
	"step": 205
	},
	{
	"epoch": 0.1803783545974483,
	"eval_loss": 0.5976300239562988,
	"eval_runtime": 28.5752,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 205
	},
	{
	"epoch": 0.1847778266608007,
	"grad_norm": 0.22338183224201202,
	"learning_rate": 0.00019567728658449504,
	"loss": 0.54,
	"step": 210
	},
	{
	"epoch": 0.1847778266608007,
	"eval_loss": 0.5960862040519714,
	"eval_runtime": 28.4685,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 210
	},
	{
	"epoch": 0.1891772987241531,
	"grad_norm": 0.2706097960472107,
	"learning_rate": 0.00019521899322971352,
	"loss": 0.5522,
	"step": 215
	},
	{
	"epoch": 0.1891772987241531,
	"eval_loss": 0.5958646535873413,
	"eval_runtime": 28.5678,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 215
	},
	{
	"epoch": 0.1935767707875055,
	"grad_norm": 0.23476411402225494,
	"learning_rate": 0.00019473820658411957,
	"loss": 0.5262,
	"step": 220
	},
	{
	"epoch": 0.1935767707875055,
	"eval_loss": 0.5945417284965515,
	"eval_runtime": 28.5611,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 220
	},
	{
	"epoch": 0.1979762428508579,
	"grad_norm": 0.23705659806728363,
	"learning_rate": 0.00019423504022246825,
	"loss": 0.5439,
	"step": 225
	},
	{
	"epoch": 0.1979762428508579,
	"eval_loss": 0.5934200286865234,
	"eval_runtime": 28.5955,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 225
	},
	{
	"epoch": 0.2023757149142103,
	"grad_norm": 0.22662319242954254,
	"learning_rate": 0.00019370961300620637,
	"loss": 0.5262,
	"step": 230
	},
	{
	"epoch": 0.2023757149142103,
	"eval_loss": 0.5928044319152832,
	"eval_runtime": 28.514,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 230
	},
	{
	"epoch": 0.2067751869775627,
	"grad_norm": 0.24046145379543304,
	"learning_rate": 0.00019316204905539425,
	"loss": 0.5462,
	"step": 235
	},
	{
	"epoch": 0.2067751869775627,
	"eval_loss": 0.5904839038848877,
	"eval_runtime": 28.5557,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 235
	},
	{
	"epoch": 0.2111746590409151,
	"grad_norm": 0.23923470079898834,
	"learning_rate": 0.000192592477719385,
	"loss": 0.5345,
	"step": 240
	},
	{
	"epoch": 0.2111746590409151,
	"eval_loss": 0.590508759021759,
	"eval_runtime": 28.5204,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 240
	},
	{
	"epoch": 0.21557413110426749,
	"grad_norm": 0.24345721304416656,
	"learning_rate": 0.00019200103354626892,
	"loss": 0.5478,
	"step": 245
	},
	{
	"epoch": 0.21557413110426749,
	"eval_loss": 0.5882726907730103,
	"eval_runtime": 28.5722,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 245
	},
	{
	"epoch": 0.21997360316761988,
	"grad_norm": 0.27501732110977173,
	"learning_rate": 0.00019138785625108957,
	"loss": 0.5607,
	"step": 250
	},
	{
	"epoch": 0.21997360316761988,
	"eval_loss": 0.5860432982444763,
	"eval_runtime": 28.503,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 250
	},
	{
	"epoch": 0.22437307523097227,
	"grad_norm": 0.3151032328605652,
	"learning_rate": 0.0001907530906828393,
	"loss": 0.5479,
	"step": 255
	},
	{
	"epoch": 0.22437307523097227,
	"eval_loss": 0.5846895575523376,
	"eval_runtime": 28.6081,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 255
	},
	{
	"epoch": 0.22877254729432467,
	"grad_norm": 0.2758755385875702,
	"learning_rate": 0.0001900968867902419,
	"loss": 0.5767,
	"step": 260
	},
	{
	"epoch": 0.22877254729432467,
	"eval_loss": 0.5815722942352295,
	"eval_runtime": 28.5574,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 260
	},
	{
	"epoch": 0.2331720193576771,
	"grad_norm": 0.25241315364837646,
	"learning_rate": 0.000189419399586331,
	"loss": 0.5568,
	"step": 265
	},
	{
	"epoch": 0.2331720193576771,
	"eval_loss": 0.5822274684906006,
	"eval_runtime": 28.573,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 265
	},
	{
	"epoch": 0.23757149142102948,
	"grad_norm": 0.316436767578125,
	"learning_rate": 0.00018872078911183146,
	"loss": 0.5385,
	"step": 270
	},
	{
	"epoch": 0.23757149142102948,
	"eval_loss": 0.5809066891670227,
	"eval_runtime": 28.5598,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 270
	},
	{
	"epoch": 0.24197096348438188,
	"grad_norm": 0.27813801169395447,
	"learning_rate": 0.00018800122039735358,
	"loss": 0.5348,
	"step": 275
	},
	{
	"epoch": 0.24197096348438188,
	"eval_loss": 0.5786107778549194,
	"eval_runtime": 28.546,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 275
	},
	{
	"epoch": 0.24637043554773427,
	"grad_norm": 0.2552705407142639,
	"learning_rate": 0.00018726086342440846,
	"loss": 0.5207,
	"step": 280
	},
	{
	"epoch": 0.24637043554773427,
	"eval_loss": 0.5768923759460449,
	"eval_runtime": 28.5995,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 280
	},
	{
	"epoch": 0.2507699076110867,
	"grad_norm": 0.21993091702461243,
	"learning_rate": 0.00018649989308525372,
	"loss": 0.5292,
	"step": 285
	},
	{
	"epoch": 0.2507699076110867,
	"eval_loss": 0.5762263536453247,
	"eval_runtime": 28.4816,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 285
	},
	{
	"epoch": 0.2551693796744391,
	"grad_norm": 0.27086153626441956,
	"learning_rate": 0.0001857184891415794,
	"loss": 0.5312,
	"step": 290
	},
	{
	"epoch": 0.2551693796744391,
	"eval_loss": 0.5758266448974609,
	"eval_runtime": 28.5295,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 290
	},
	{
	"epoch": 0.2595688517377915,
	"grad_norm": 0.21816319227218628,
	"learning_rate": 0.0001849168361820431,
	"loss": 0.5223,
	"step": 295
	},
	{
	"epoch": 0.2595688517377915,
	"eval_loss": 0.574447751045227,
	"eval_runtime": 28.5859,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 295
	},
	{
	"epoch": 0.2639683238011439,
	"grad_norm": 0.24796700477600098,
	"learning_rate": 0.00018409512357866548,
	"loss": 0.5485,
	"step": 300
	},
	{
	"epoch": 0.2639683238011439,
	"eval_loss": 0.573371410369873,
	"eval_runtime": 28.6178,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 300
	},
	{
	"epoch": 0.2683677958644963,
	"grad_norm": 0.2425287663936615,
	"learning_rate": 0.00018325354544209535,
	"loss": 0.5217,
	"step": 305
	},
	{
	"epoch": 0.2683677958644963,
	"eval_loss": 0.5723298788070679,
	"eval_runtime": 28.5916,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 305
	},
	{
	"epoch": 0.27276726792784867,
	"grad_norm": 0.21630050241947174,
	"learning_rate": 0.00018239230057575542,
	"loss": 0.5074,
	"step": 310
	},
	{
	"epoch": 0.27276726792784867,
	"eval_loss": 0.5725327134132385,
	"eval_runtime": 28.536,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 310
	},
	{
	"epoch": 0.27716673999120106,
	"grad_norm": 0.21529468894004822,
	"learning_rate": 0.0001815115924288798,
	"loss": 0.5487,
	"step": 315
	},
	{
	"epoch": 0.27716673999120106,
	"eval_loss": 0.5721793174743652,
	"eval_runtime": 28.6852,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 315
	},
	{
	"epoch": 0.28156621205455346,
	"grad_norm": 0.21623414754867554,
	"learning_rate": 0.00018061162904845358,
	"loss": 0.5106,
	"step": 320
	},
	{
	"epoch": 0.28156621205455346,
	"eval_loss": 0.5709577202796936,
	"eval_runtime": 28.4592,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 320
	},
	{
	"epoch": 0.28596568411790585,
	"grad_norm": 0.2219308316707611,
	"learning_rate": 0.0001796926230300667,
	"loss": 0.5218,
	"step": 325
	},
	{
	"epoch": 0.28596568411790585,
	"eval_loss": 0.5698617100715637,
	"eval_runtime": 28.5588,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 325
	},
	{
	"epoch": 0.29036515618125824,
	"grad_norm": 0.2264701873064041,
	"learning_rate": 0.00017875479146769305,
	"loss": 0.5162,
	"step": 330
	},
	{
	"epoch": 0.29036515618125824,
	"eval_loss": 0.5689781308174133,
	"eval_runtime": 28.6221,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 330
	},
	{
	"epoch": 0.29476462824461064,
	"grad_norm": 0.24004362523555756,
	"learning_rate": 0.000177798355902407,
	"loss": 0.539,
	"step": 335
	},
	{
	"epoch": 0.29476462824461064,
	"eval_loss": 0.5678241848945618,
	"eval_runtime": 28.5677,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 335
	},
	{
	"epoch": 0.29916410030796303,
	"grad_norm": 0.22996000945568085,
	"learning_rate": 0.00017682354227004963,
	"loss": 0.5002,
	"step": 340
	},
	{
	"epoch": 0.29916410030796303,
	"eval_loss": 0.5670127272605896,
	"eval_runtime": 28.6425,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 340
	},
	{
	"epoch": 0.3035635723713154,
	"grad_norm": 0.23163671791553497,
	"learning_rate": 0.00017583058084785625,
	"loss": 0.5175,
	"step": 345
	},
	{
	"epoch": 0.3035635723713154,
	"eval_loss": 0.5650352239608765,
	"eval_runtime": 28.5994,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 345
	},
	{
	"epoch": 0.3079630444346678,
	"grad_norm": 0.20120489597320557,
	"learning_rate": 0.00017481970620005912,
	"loss": 0.5269,
	"step": 350
	},
	{
	"epoch": 0.3079630444346678,
	"eval_loss": 0.5640237927436829,
	"eval_runtime": 28.5009,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 350
	},
	{
	"epoch": 0.3123625164980202,
	"grad_norm": 0.22231583297252655,
	"learning_rate": 0.00017379115712247675,
	"loss": 0.5444,
	"step": 355
	},
	{
	"epoch": 0.3123625164980202,
	"eval_loss": 0.5634257197380066,
	"eval_runtime": 28.5722,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 355
	},
	{
	"epoch": 0.3167619885613726,
	"grad_norm": 0.216331347823143,
	"learning_rate": 0.00017274517658610398,
	"loss": 0.5074,
	"step": 360
	},
	{
	"epoch": 0.3167619885613726,
	"eval_loss": 0.5618783831596375,
	"eval_runtime": 28.6759,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 360
	},
	{
	"epoch": 0.32116146062472506,
	"grad_norm": 0.21976010501384735,
	"learning_rate": 0.0001716820116797158,
	"loss": 0.5259,
	"step": 365
	},
	{
	"epoch": 0.32116146062472506,
	"eval_loss": 0.5602042078971863,
	"eval_runtime": 28.6019,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 365
	},
	{
	"epoch": 0.32556093268807745,
	"grad_norm": 0.22740119695663452,
	"learning_rate": 0.0001706019135514982,
	"loss": 0.5158,
	"step": 370
	},
	{
	"epoch": 0.32556093268807745,
	"eval_loss": 0.5599080920219421,
	"eval_runtime": 28.5177,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 370
	},
	{
	"epoch": 0.32996040475142985,
	"grad_norm": 0.21888501942157745,
	"learning_rate": 0.0001695051373497202,
	"loss": 0.527,
	"step": 375
	},
	{
	"epoch": 0.32996040475142985,
	"eval_loss": 0.558814525604248,
	"eval_runtime": 28.661,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 375
	},
	{
	"epoch": 0.33435987681478224,
	"grad_norm": 0.20402850210666656,
	"learning_rate": 0.00016839194216246108,
	"loss": 0.5027,
	"step": 380
	},
	{
	"epoch": 0.33435987681478224,
	"eval_loss": 0.5578404664993286,
	"eval_runtime": 28.5421,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 380
	},
	{
	"epoch": 0.33875934887813464,
	"grad_norm": 0.20368748903274536,
	"learning_rate": 0.00016726259095640664,
	"loss": 0.505,
	"step": 385
	},
	{
	"epoch": 0.33875934887813464,
	"eval_loss": 0.5567160844802856,
	"eval_runtime": 28.6126,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 385
	},
	{
	"epoch": 0.34315882094148703,
	"grad_norm": 0.2069130390882492,
	"learning_rate": 0.0001661173505147295,
	"loss": 0.5086,
	"step": 390
	},
	{
	"epoch": 0.34315882094148703,
	"eval_loss": 0.55617755651474,
	"eval_runtime": 28.4879,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 390
	},
	{
	"epoch": 0.3475582930048394,
	"grad_norm": 0.23644201457500458,
	"learning_rate": 0.00016495649137406772,
	"loss": 0.5412,
	"step": 395
	},
	{
	"epoch": 0.3475582930048394,
	"eval_loss": 0.5556927919387817,
	"eval_runtime": 28.6713,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 395
	},
	{
	"epoch": 0.3519577650681918,
	"grad_norm": 0.21997737884521484,
	"learning_rate": 0.00016378028776061667,
	"loss": 0.4908,
	"step": 400
	},
	{
	"epoch": 0.3519577650681918,
	"eval_loss": 0.5555915832519531,
	"eval_runtime": 28.596,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 400
	},
	{
	"epoch": 0.3563572371315442,
	"grad_norm": 0.22075805068016052,
	"learning_rate": 0.00016258901752534948,
	"loss": 0.5155,
	"step": 405
	},
	{
	"epoch": 0.3563572371315442,
	"eval_loss": 0.5552019476890564,
	"eval_runtime": 28.595,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 405
	},
	{
	"epoch": 0.3607567091948966,
	"grad_norm": 0.5917304158210754,
	"learning_rate": 0.00016138296207838127,
	"loss": 0.4991,
	"step": 410
	},
	{
	"epoch": 0.3607567091948966,
	"eval_loss": 0.5550567507743835,
	"eval_runtime": 28.6222,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 410
	},
	{
	"epoch": 0.365156181258249,
	"grad_norm": 0.21421152353286743,
	"learning_rate": 0.00016016240632249224,
	"loss": 0.4769,
	"step": 415
	},
	{
	"epoch": 0.365156181258249,
	"eval_loss": 0.5548796653747559,
	"eval_runtime": 28.5933,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 415
	},
	{
	"epoch": 0.3695556533216014,
	"grad_norm": 0.201774463057518,
	"learning_rate": 0.0001589276385858262,
	"loss": 0.4914,
	"step": 420
	},
	{
	"epoch": 0.3695556533216014,
	"eval_loss": 0.5546624064445496,
	"eval_runtime": 28.5213,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 420
	},
	{
	"epoch": 0.3739551253849538,
	"grad_norm": 0.22172759473323822,
	"learning_rate": 0.0001576789505537795,
	"loss": 0.4726,
	"step": 425
	},
	{
	"epoch": 0.3739551253849538,
	"eval_loss": 0.5535080432891846,
	"eval_runtime": 28.6645,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 425
	},
	{
	"epoch": 0.3783545974483062,
	"grad_norm": 0.23269815742969513,
	"learning_rate": 0.00015641663720009733,
	"loss": 0.5076,
	"step": 430
	},
	{
	"epoch": 0.3783545974483062,
	"eval_loss": 0.5522862076759338,
	"eval_runtime": 28.5697,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 430
	},
	{
	"epoch": 0.3827540695116586,
	"grad_norm": 0.23303498327732086,
	"learning_rate": 0.00015514099671719268,
	"loss": 0.5064,
	"step": 435
	},
	{
	"epoch": 0.3827540695116586,
	"eval_loss": 0.5502522587776184,
	"eval_runtime": 28.5369,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 435
	},
	{
	"epoch": 0.387153541575011,
	"grad_norm": 0.24087387323379517,
	"learning_rate": 0.00015385233044570555,
	"loss": 0.5361,
	"step": 440
	},
	{
	"epoch": 0.387153541575011,
	"eval_loss": 0.5471201539039612,
	"eval_runtime": 28.5791,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 440
	},
	{
	"epoch": 0.3915530136383634,
	"grad_norm": 0.20800553262233734,
	"learning_rate": 0.00015255094280331797,
	"loss": 0.5169,
	"step": 445
	},
	{
	"epoch": 0.3915530136383634,
	"eval_loss": 0.5466722846031189,
	"eval_runtime": 28.6339,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 445
	},
	{
	"epoch": 0.3959524857017158,
	"grad_norm": 0.37092360854148865,
	"learning_rate": 0.0001512371412128424,
	"loss": 0.5362,
	"step": 450
	},
	{
	"epoch": 0.3959524857017158,
	"eval_loss": 0.5455148220062256,
	"eval_runtime": 28.637,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 450
	},
	{
	"epoch": 0.4003519577650682,
	"grad_norm": 0.20706337690353394,
	"learning_rate": 0.00014991123602960018,
	"loss": 0.4994,
	"step": 455
	},
	{
	"epoch": 0.4003519577650682,
	"eval_loss": 0.5440109968185425,
	"eval_runtime": 28.5672,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 455
	},
	{
	"epoch": 0.4047514298284206,
	"grad_norm": 0.2135256677865982,
	"learning_rate": 0.00014857354046810732,
	"loss": 0.5005,
	"step": 460
	},
	{
	"epoch": 0.4047514298284206,
	"eval_loss": 0.5431147813796997,
	"eval_runtime": 28.4835,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 460
	},
	{
	"epoch": 0.409150901891773,
	"grad_norm": 0.5737074613571167,
	"learning_rate": 0.00014722437052808472,
	"loss": 0.5208,
	"step": 465
	},
	{
	"epoch": 0.409150901891773,
	"eval_loss": 0.541969358921051,
	"eval_runtime": 28.6004,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 465
	},
	{
	"epoch": 0.4135503739551254,
	"grad_norm": 0.24099959433078766,
	"learning_rate": 0.00014586404491981052,
	"loss": 0.5074,
	"step": 470
	},
	{
	"epoch": 0.4135503739551254,
	"eval_loss": 0.5449388027191162,
	"eval_runtime": 28.658,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 470
	},
	{
	"epoch": 0.4179498460184778,
	"grad_norm": 0.2046642154455185,
	"learning_rate": 0.0001444928849888321,
	"loss": 0.5052,
	"step": 475
	},
	{
	"epoch": 0.4179498460184778,
	"eval_loss": 0.5407991409301758,
	"eval_runtime": 28.5688,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 475
	},
	{
	"epoch": 0.4223493180818302,
	"grad_norm": 0.2824171185493469,
	"learning_rate": 0.00014311121464005583,
	"loss": 0.5179,
	"step": 480
	},
	{
	"epoch": 0.4223493180818302,
	"eval_loss": 0.54000324010849,
	"eval_runtime": 28.7144,
	"eval_samples_per_second": 0.592,
	"eval_steps_per_second": 0.313,
	"step": 480
	},
	{
	"epoch": 0.4267487901451826,
	"grad_norm": 0.2045980840921402,
	"learning_rate": 0.00014171936026123168,
	"loss": 0.4634,
	"step": 485
	},
	{
	"epoch": 0.4267487901451826,
	"eval_loss": 0.5398800373077393,
	"eval_runtime": 28.5209,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 485
	},
	{
	"epoch": 0.43114826220853497,
	"grad_norm": 0.2092169225215912,
	"learning_rate": 0.00014031765064585197,
	"loss": 0.4802,
	"step": 490
	},
	{
	"epoch": 0.43114826220853497,
	"eval_loss": 0.5395181179046631,
	"eval_runtime": 28.5086,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 490
	},
	{
	"epoch": 0.43554773427188737,
	"grad_norm": 0.20700140297412872,
	"learning_rate": 0.00013890641691548114,
	"loss": 0.4962,
	"step": 495
	},
	{
	"epoch": 0.43554773427188737,
	"eval_loss": 0.5390854477882385,
	"eval_runtime": 28.5682,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 495
	},
	{
	"epoch": 0.43994720633523976,
	"grad_norm": 0.19903522729873657,
	"learning_rate": 0.00013748599244153633,
	"loss": 0.4841,
	"step": 500
	},
	{
	"epoch": 0.43994720633523976,
	"eval_loss": 0.5381758213043213,
	"eval_runtime": 29.4274,
	"eval_samples_per_second": 0.578,
	"eval_steps_per_second": 0.306,
	"step": 500
	},
	{
	"epoch": 0.44434667839859215,
	"grad_norm": 0.4766729474067688,
	"learning_rate": 0.00013605671276653567,
	"loss": 0.5252,
	"step": 505
	},
	{
	"epoch": 0.44434667839859215,
	"eval_loss": 0.5368968844413757,
	"eval_runtime": 28.6474,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 505
	},
	{
	"epoch": 0.44874615046194455,
	"grad_norm": 0.21688155829906464,
	"learning_rate": 0.00013461891552483444,
	"loss": 0.515,
	"step": 510
	},
	{
	"epoch": 0.44874615046194455,
	"eval_loss": 0.5366407036781311,
	"eval_runtime": 28.5352,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 510
	},
	{
	"epoch": 0.45314562252529694,
	"grad_norm": 0.20375116169452667,
	"learning_rate": 0.00013317294036286644,
	"loss": 0.4887,
	"step": 515
	},
	{
	"epoch": 0.45314562252529694,
	"eval_loss": 0.5360764861106873,
	"eval_runtime": 28.6533,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 515
	},
	{
	"epoch": 0.45754509458864934,
	"grad_norm": 0.1958196461200714,
	"learning_rate": 0.00013171912885891063,
	"loss": 0.4868,
	"step": 520
	},
	{
	"epoch": 0.45754509458864934,
	"eval_loss": 0.5356424450874329,
	"eval_runtime": 28.5027,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 520
	},
	{
	"epoch": 0.4619445666520018,
	"grad_norm": 0.22040507197380066,
	"learning_rate": 0.00013025782444240087,
	"loss": 0.5086,
	"step": 525
	},
	{
	"epoch": 0.4619445666520018,
	"eval_loss": 0.5351347327232361,
	"eval_runtime": 28.6428,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 525
	},
	{
	"epoch": 0.4663440387153542,
	"grad_norm": 0.19495758414268494,
	"learning_rate": 0.00012878937231279892,
	"loss": 0.5113,
	"step": 530
	},
	{
	"epoch": 0.4663440387153542,
	"eval_loss": 0.5347647070884705,
	"eval_runtime": 28.6252,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 530
	},
	{
	"epoch": 0.4707435107787066,
	"grad_norm": 0.21149738132953644,
	"learning_rate": 0.0001273141193580488,
	"loss": 0.483,
	"step": 535
	},
	{
	"epoch": 0.4707435107787066,
	"eval_loss": 0.5339221954345703,
	"eval_runtime": 28.6055,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 535
	},
	{
	"epoch": 0.47514298284205897,
	"grad_norm": 0.20391018688678741,
	"learning_rate": 0.0001258324140726326,
	"loss": 0.4728,
	"step": 540
	},
	{
	"epoch": 0.47514298284205897,
	"eval_loss": 0.5337977409362793,
	"eval_runtime": 28.5842,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 540
	},
	{
	"epoch": 0.47954245490541136,
	"grad_norm": 0.20913545787334442,
	"learning_rate": 0.00012434460647524676,
	"loss": 0.5016,
	"step": 545
	},
	{
	"epoch": 0.47954245490541136,
	"eval_loss": 0.532899022102356,
	"eval_runtime": 28.4759,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 545
	},
	{
	"epoch": 0.48394192696876376,
	"grad_norm": 0.19410260021686554,
	"learning_rate": 0.00012285104802611812,
	"loss": 0.5103,
	"step": 550
	},
	{
	"epoch": 0.48394192696876376,
	"eval_loss": 0.5321294665336609,
	"eval_runtime": 28.5662,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 550
	},
	{
	"epoch": 0.48834139903211615,
	"grad_norm": 0.2097245752811432,
	"learning_rate": 0.00012135209154397962,
	"loss": 0.4954,
	"step": 555
	},
	{
	"epoch": 0.48834139903211615,
	"eval_loss": 0.532034695148468,
	"eval_runtime": 28.652,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 555
	},
	{
	"epoch": 0.49274087109546855,
	"grad_norm": 0.21518121659755707,
	"learning_rate": 0.00011984809112272495,
	"loss": 0.4999,
	"step": 560
	},
	{
	"epoch": 0.49274087109546855,
	"eval_loss": 0.5313233733177185,
	"eval_runtime": 28.5662,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 560
	},
	{
	"epoch": 0.49714034315882094,
	"grad_norm": 0.19571034610271454,
	"learning_rate": 0.00011833940204776209,
	"loss": 0.4931,
	"step": 565
	},
	{
	"epoch": 0.49714034315882094,
	"eval_loss": 0.5311394333839417,
	"eval_runtime": 28.5352,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 565
	},
	{
	"epoch": 0.5015398152221734,
	"grad_norm": 0.20554794371128082,
	"learning_rate": 0.00011682638071208533,
	"loss": 0.4833,
	"step": 570
	},
	{
	"epoch": 0.5015398152221734,
	"eval_loss": 0.5300410389900208,
	"eval_runtime": 28.5679,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 570
	},
	{
	"epoch": 0.5059392872855257,
	"grad_norm": 0.20373423397541046,
	"learning_rate": 0.00011530938453208559,
	"loss": 0.5057,
	"step": 575
	},
	{
	"epoch": 0.5059392872855257,
	"eval_loss": 0.5300309658050537,
	"eval_runtime": 28.5821,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 575
	},
	{
	"epoch": 0.5103387593488782,
	"grad_norm": 0.1982477903366089,
	"learning_rate": 0.00011378877186311912,
	"loss": 0.4754,
	"step": 580
	},
	{
	"epoch": 0.5103387593488782,
	"eval_loss": 0.5292160511016846,
	"eval_runtime": 28.5256,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 580
	},
	{
	"epoch": 0.5147382314122305,
	"grad_norm": 0.20576219260692596,
	"learning_rate": 0.00011226490191485421,
	"loss": 0.4991,
	"step": 585
	},
	{
	"epoch": 0.5147382314122305,
	"eval_loss": 0.5280917882919312,
	"eval_runtime": 28.6835,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 585
	},
	{
	"epoch": 0.519137703475583,
	"grad_norm": 0.2154638022184372,
	"learning_rate": 0.00011073813466641632,
	"loss": 0.4811,
	"step": 590
	},
	{
	"epoch": 0.519137703475583,
	"eval_loss": 0.5274674296379089,
	"eval_runtime": 28.4766,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 590
	},
	{
	"epoch": 0.5235371755389353,
	"grad_norm": 0.2037007063627243,
	"learning_rate": 0.00010920883078135117,
	"loss": 0.4717,
	"step": 595
	},
	{
	"epoch": 0.5235371755389353,
	"eval_loss": 0.5270927548408508,
	"eval_runtime": 28.5377,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 595
	},
	{
	"epoch": 0.5279366476022878,
	"grad_norm": 0.21386198699474335,
	"learning_rate": 0.00010767735152242649,
	"loss": 0.4776,
	"step": 600
	},
	{
	"epoch": 0.5279366476022878,
	"eval_loss": 0.526791512966156,
	"eval_runtime": 28.596,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 600
	},
	{
	"epoch": 0.5323361196656401,
	"grad_norm": 0.1984720528125763,
	"learning_rate": 0.0001061440586662917,
	"loss": 0.4708,
	"step": 605
	},
	{
	"epoch": 0.5323361196656401,
	"eval_loss": 0.5266034007072449,
	"eval_runtime": 28.6491,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 605
	},
	{
	"epoch": 0.5367355917289925,
	"grad_norm": 0.19453096389770508,
	"learning_rate": 0.000104609314418017,
	"loss": 0.4659,
	"step": 610
	},
	{
	"epoch": 0.5367355917289925,
	"eval_loss": 0.5267328023910522,
	"eval_runtime": 28.6358,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 610
	},
	{
	"epoch": 0.5411350637923449,
	"grad_norm": 0.2048104703426361,
	"learning_rate": 0.00010307348132553025,
	"loss": 0.5138,
	"step": 615
	},
	{
	"epoch": 0.5411350637923449,
	"eval_loss": 0.5270944833755493,
	"eval_runtime": 28.5902,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 615
	},
	{
	"epoch": 0.5455345358556973,
	"grad_norm": 0.1899915337562561,
	"learning_rate": 0.00010153692219397387,
	"loss": 0.4797,
	"step": 620
	},
	{
	"epoch": 0.5455345358556973,
	"eval_loss": 0.5260502099990845,
	"eval_runtime": 28.5533,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 620
	},
	{
	"epoch": 0.5499340079190497,
	"grad_norm": 0.18520919978618622,
	"learning_rate": 0.0001,
	"loss": 0.5068,
	"step": 625
	},
	{
	"epoch": 0.5499340079190497,
	"eval_loss": 0.5251287817955017,
	"eval_runtime": 28.4846,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 625
	},
	{
	"epoch": 0.5543334799824021,
	"grad_norm": 0.21325986087322235,
	"learning_rate": 9.84630778060262e-05,
	"loss": 0.4799,
	"step": 630
	},
	{
	"epoch": 0.5543334799824021,
	"eval_loss": 0.524385929107666,
	"eval_runtime": 28.5917,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 630
	},
	{
	"epoch": 0.5587329520457545,
	"grad_norm": 0.20572926104068756,
	"learning_rate": 9.692651867446973e-05,
	"loss": 0.49,
	"step": 635
	},
	{
	"epoch": 0.5587329520457545,
	"eval_loss": 0.523975133895874,
	"eval_runtime": 28.6052,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 635
	},
	{
	"epoch": 0.5631324241091069,
	"grad_norm": 0.20347937941551208,
	"learning_rate": 9.539068558198304e-05,
	"loss": 0.4702,
	"step": 640
	},
	{
	"epoch": 0.5631324241091069,
	"eval_loss": 0.5229539275169373,
	"eval_runtime": 28.6223,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 640
	},
	{
	"epoch": 0.5675318961724594,
	"grad_norm": 0.21256154775619507,
	"learning_rate": 9.38559413337083e-05,
	"loss": 0.4736,
	"step": 645
	},
	{
	"epoch": 0.5675318961724594,
	"eval_loss": 0.5221072435379028,
	"eval_runtime": 28.6189,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 645
	},
	{
	"epoch": 0.5719313682358117,
	"grad_norm": 0.2260565459728241,
	"learning_rate": 9.232264847757357e-05,
	"loss": 0.5065,
	"step": 650
	},
	{
	"epoch": 0.5719313682358117,
	"eval_loss": 0.5213314890861511,
	"eval_runtime": 28.6771,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 650
	},
	{
	"epoch": 0.5763308402991641,
	"grad_norm": 0.21002529561519623,
	"learning_rate": 9.079116921864884e-05,
	"loss": 0.4796,
	"step": 655
	},
	{
	"epoch": 0.5763308402991641,
	"eval_loss": 0.5214037299156189,
	"eval_runtime": 28.6202,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 655
	},
	{
	"epoch": 0.5807303123625165,
	"grad_norm": 0.19340470433235168,
	"learning_rate": 8.92618653335837e-05,
	"loss": 0.4788,
	"step": 660
	},
	{
	"epoch": 0.5807303123625165,
	"eval_loss": 0.5211138725280762,
	"eval_runtime": 28.6313,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 660
	},
	{
	"epoch": 0.5851297844258689,
	"grad_norm": 0.19035720825195312,
	"learning_rate": 8.773509808514581e-05,
	"loss": 0.468,
	"step": 665
	},
	{
	"epoch": 0.5851297844258689,
	"eval_loss": 0.5191999077796936,
	"eval_runtime": 28.0607,
	"eval_samples_per_second": 0.606,
	"eval_steps_per_second": 0.321,
	"step": 665
	},
	{
	"epoch": 0.5895292564892213,
	"grad_norm": 0.19168096780776978,
	"learning_rate": 8.62112281368809e-05,
	"loss": 0.5066,
	"step": 670
	},
	{
	"epoch": 0.5895292564892213,
	"eval_loss": 0.5176913142204285,
	"eval_runtime": 28.5375,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 670
	},
	{
	"epoch": 0.5939287285525737,
	"grad_norm": 0.19758321344852448,
	"learning_rate": 8.469061546791442e-05,
	"loss": 0.51,
	"step": 675
	},
	{
	"epoch": 0.5939287285525737,
	"eval_loss": 0.517296314239502,
	"eval_runtime": 28.5712,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 675
	},
	{
	"epoch": 0.5983282006159261,
	"grad_norm": 0.19562241435050964,
	"learning_rate": 8.317361928791469e-05,
	"loss": 0.4932,
	"step": 680
	},
	{
	"epoch": 0.5983282006159261,
	"eval_loss": 0.5170657634735107,
	"eval_runtime": 28.4877,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 680
	},
	{
	"epoch": 0.6027276726792785,
	"grad_norm": 0.18590031564235687,
	"learning_rate": 8.166059795223794e-05,
	"loss": 0.5055,
	"step": 685
	},
	{
	"epoch": 0.6027276726792785,
	"eval_loss": 0.5166193842887878,
	"eval_runtime": 28.625,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 685
	},
	{
	"epoch": 0.6071271447426309,
	"grad_norm": 0.2049984484910965,
	"learning_rate": 8.015190887727509e-05,
	"loss": 0.4846,
	"step": 690
	},
	{
	"epoch": 0.6071271447426309,
	"eval_loss": 0.5160765647888184,
	"eval_runtime": 28.5582,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 690
	},
	{
	"epoch": 0.6115266168059833,
	"grad_norm": 0.19373777508735657,
	"learning_rate": 7.864790845602039e-05,
	"loss": 0.4862,
	"step": 695
	},
	{
	"epoch": 0.6115266168059833,
	"eval_loss": 0.5157306790351868,
	"eval_runtime": 28.6078,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 695
	},
	{
	"epoch": 0.6159260888693356,
	"grad_norm": 0.20326727628707886,
	"learning_rate": 7.714895197388189e-05,
	"loss": 0.5064,
	"step": 700
	},
	{
	"epoch": 0.6159260888693356,
	"eval_loss": 0.5153770446777344,
	"eval_runtime": 28.6597,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 700
	},
	{
	"epoch": 0.6203255609326881,
	"grad_norm": 0.19425565004348755,
	"learning_rate": 7.565539352475326e-05,
	"loss": 0.5018,
	"step": 705
	},
	{
	"epoch": 0.6203255609326881,
	"eval_loss": 0.5147074460983276,
	"eval_runtime": 28.5261,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 705
	},
	{
	"epoch": 0.6247250329960404,
	"grad_norm": 0.19491039216518402,
	"learning_rate": 7.416758592736744e-05,
	"loss": 0.482,
	"step": 710
	},
	{
	"epoch": 0.6247250329960404,
	"eval_loss": 0.5144516229629517,
	"eval_runtime": 28.533,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 710
	},
	{
	"epoch": 0.6291245050593929,
	"grad_norm": 0.1957363337278366,
	"learning_rate": 7.268588064195122e-05,
	"loss": 0.4883,
	"step": 715
	},
	{
	"epoch": 0.6291245050593929,
	"eval_loss": 0.5139791965484619,
	"eval_runtime": 28.5313,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 715
	},
	{
	"epoch": 0.6335239771227452,
	"grad_norm": 0.21253836154937744,
	"learning_rate": 7.12106276872011e-05,
	"loss": 0.4768,
	"step": 720
	},
	{
	"epoch": 0.6335239771227452,
	"eval_loss": 0.5137556195259094,
	"eval_runtime": 28.6307,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 720
	},
	{
	"epoch": 0.6379234491860977,
	"grad_norm": 0.1721029132604599,
	"learning_rate": 6.974217555759915e-05,
	"loss": 0.4816,
	"step": 725
	},
	{
	"epoch": 0.6379234491860977,
	"eval_loss": 0.5133811831474304,
	"eval_runtime": 28.5925,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 725
	},
	{
	"epoch": 0.6423229212494501,
	"grad_norm": 0.19211679697036743,
	"learning_rate": 6.82808711410894e-05,
	"loss": 0.5035,
	"step": 730
	},
	{
	"epoch": 0.6423229212494501,
	"eval_loss": 0.5132091641426086,
	"eval_runtime": 28.5078,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 730
	},
	{
	"epoch": 0.6467223933128025,
	"grad_norm": 0.19252945482730865,
	"learning_rate": 6.682705963713356e-05,
	"loss": 0.4822,
	"step": 735
	},
	{
	"epoch": 0.6467223933128025,
	"eval_loss": 0.5131357908248901,
	"eval_runtime": 28.6326,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 735
	},
	{
	"epoch": 0.6511218653761549,
	"grad_norm": 0.1986207813024521,
	"learning_rate": 6.538108447516558e-05,
	"loss": 0.4612,
	"step": 740
	},
	{
	"epoch": 0.6511218653761549,
	"eval_loss": 0.5128303170204163,
	"eval_runtime": 28.6066,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 740
	},
	{
	"epoch": 0.6555213374395072,
	"grad_norm": 0.19202682375907898,
	"learning_rate": 6.394328723346434e-05,
	"loss": 0.4578,
	"step": 745
	},
	{
	"epoch": 0.6555213374395072,
	"eval_loss": 0.5124692916870117,
	"eval_runtime": 28.6064,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 745
	},
	{
	"epoch": 0.6599208095028597,
	"grad_norm": 0.198526531457901,
	"learning_rate": 6.251400755846372e-05,
	"loss": 0.5176,
	"step": 750
	},
	{
	"epoch": 0.6599208095028597,
	"eval_loss": 0.5121349096298218,
	"eval_runtime": 28.5313,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 750
	},
	{
	"epoch": 0.664320281566212,
	"grad_norm": 0.19058994948863983,
	"learning_rate": 6.109358308451885e-05,
	"loss": 0.4877,
	"step": 755
	},
	{
	"epoch": 0.664320281566212,
	"eval_loss": 0.5118634700775146,
	"eval_runtime": 28.5287,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 755
	},
	{
	"epoch": 0.6687197536295645,
	"grad_norm": 0.1798192411661148,
	"learning_rate": 5.968234935414807e-05,
	"loss": 0.4805,
	"step": 760
	},
	{
	"epoch": 0.6687197536295645,
	"eval_loss": 0.5116167664527893,
	"eval_runtime": 28.5918,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 760
	},
	{
	"epoch": 0.6731192256929168,
	"grad_norm": 0.18448549509048462,
	"learning_rate": 5.828063973876834e-05,
	"loss": 0.4993,
	"step": 765
	},
	{
	"epoch": 0.6731192256929168,
	"eval_loss": 0.5111361742019653,
	"eval_runtime": 28.5586,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 765
	},
	{
	"epoch": 0.6775186977562693,
	"grad_norm": 0.18624383211135864,
	"learning_rate": 5.688878535994421e-05,
	"loss": 0.4844,
	"step": 770
	},
	{
	"epoch": 0.6775186977562693,
	"eval_loss": 0.5107051134109497,
	"eval_runtime": 28.5748,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 770
	},
	{
	"epoch": 0.6819181698196216,
	"grad_norm": 0.18364666402339935,
	"learning_rate": 5.550711501116789e-05,
	"loss": 0.4674,
	"step": 775
	},
	{
	"epoch": 0.6819181698196216,
	"eval_loss": 0.5101103186607361,
	"eval_runtime": 28.5159,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 775
	},
	{
	"epoch": 0.6863176418829741,
	"grad_norm": 0.23952247202396393,
	"learning_rate": 5.413595508018952e-05,
	"loss": 0.4943,
	"step": 780
	},
	{
	"epoch": 0.6863176418829741,
	"eval_loss": 0.5096238255500793,
	"eval_runtime": 28.516,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 780
	},
	{
	"epoch": 0.6907171139463264,
	"grad_norm": 0.20105206966400146,
	"learning_rate": 5.27756294719153e-05,
	"loss": 0.4924,
	"step": 785
	},
	{
	"epoch": 0.6907171139463264,
	"eval_loss": 0.5093135237693787,
	"eval_runtime": 28.5941,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 785
	},
	{
	"epoch": 0.6951165860096788,
	"grad_norm": 0.19826586544513702,
	"learning_rate": 5.1426459531892714e-05,
	"loss": 0.4986,
	"step": 790
	},
	{
	"epoch": 0.6951165860096788,
	"eval_loss": 0.5086015462875366,
	"eval_runtime": 28.6207,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 790
	},
	{
	"epoch": 0.6995160580730312,
	"grad_norm": 0.17991924285888672,
	"learning_rate": 5.008876397039983e-05,
	"loss": 0.4698,
	"step": 795
	},
	{
	"epoch": 0.6995160580730312,
	"eval_loss": 0.5082879662513733,
	"eval_runtime": 28.6587,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 795
	},
	{
	"epoch": 0.7039155301363836,
	"grad_norm": 0.19232523441314697,
	"learning_rate": 4.876285878715764e-05,
	"loss": 0.4981,
	"step": 800
	},
	{
	"epoch": 0.7039155301363836,
	"eval_loss": 0.5078893899917603,
	"eval_runtime": 28.5038,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 800
	},
	{
	"epoch": 0.708315002199736,
	"grad_norm": 0.19006720185279846,
	"learning_rate": 4.744905719668207e-05,
	"loss": 0.4758,
	"step": 805
	},
	{
	"epoch": 0.708315002199736,
	"eval_loss": 0.5076141357421875,
	"eval_runtime": 28.6324,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 805
	},
	{
	"epoch": 0.7127144742630884,
	"grad_norm": 0.19002890586853027,
	"learning_rate": 4.614766955429447e-05,
	"loss": 0.4642,
	"step": 810
	},
	{
	"epoch": 0.7127144742630884,
	"eval_loss": 0.507789671421051,
	"eval_runtime": 28.6356,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 810
	},
	{
	"epoch": 0.7171139463264409,
	"grad_norm": 0.2051495909690857,
	"learning_rate": 4.485900328280731e-05,
	"loss": 0.4669,
	"step": 815
	},
	{
	"epoch": 0.7171139463264409,
	"eval_loss": 0.5073484182357788,
	"eval_runtime": 28.5748,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 815
	},
	{
	"epoch": 0.7215134183897932,
	"grad_norm": 0.6378114223480225,
	"learning_rate": 4.358336279990268e-05,
	"loss": 0.4711,
	"step": 820
	},
	{
	"epoch": 0.7215134183897932,
	"eval_loss": 0.5070581436157227,
	"eval_runtime": 28.6233,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 820
	},
	{
	"epoch": 0.7259128904531457,
	"grad_norm": 0.181978240609169,
	"learning_rate": 4.2321049446220505e-05,
	"loss": 0.4704,
	"step": 825
	},
	{
	"epoch": 0.7259128904531457,
	"eval_loss": 0.5068845748901367,
	"eval_runtime": 28.5225,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 825
	},
	{
	"epoch": 0.730312362516498,
	"grad_norm": 0.1777966171503067,
	"learning_rate": 4.107236141417382e-05,
	"loss": 0.4752,
	"step": 830
	},
	{
	"epoch": 0.730312362516498,
	"eval_loss": 0.5066249966621399,
	"eval_runtime": 28.5423,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 830
	},
	{
	"epoch": 0.7347118345798505,
	"grad_norm": 0.18686190247535706,
	"learning_rate": 3.9837593677507726e-05,
	"loss": 0.4621,
	"step": 835
	},
	{
	"epoch": 0.7347118345798505,
	"eval_loss": 0.5066962242126465,
	"eval_runtime": 28.428,
	"eval_samples_per_second": 0.598,
	"eval_steps_per_second": 0.317,
	"step": 835
	},
	{
	"epoch": 0.7391113066432028,
	"grad_norm": 0.18854567408561707,
	"learning_rate": 3.8617037921618705e-05,
	"loss": 0.4748,
	"step": 840
	},
	{
	"epoch": 0.7391113066432028,
	"eval_loss": 0.50632643699646,
	"eval_runtime": 28.5075,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 840
	},
	{
	"epoch": 0.7435107787065552,
	"grad_norm": 0.19204109907150269,
	"learning_rate": 3.741098247465049e-05,
	"loss": 0.4948,
	"step": 845
	},
	{
	"epoch": 0.7435107787065552,
	"eval_loss": 0.5060507655143738,
	"eval_runtime": 28.5753,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 845
	},
	{
	"epoch": 0.7479102507699076,
	"grad_norm": 0.19182614982128143,
	"learning_rate": 3.621971223938334e-05,
	"loss": 0.4832,
	"step": 850
	},
	{
	"epoch": 0.7479102507699076,
	"eval_loss": 0.5058286190032959,
	"eval_runtime": 28.5184,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 850
	},
	{
	"epoch": 0.75230972283326,
	"grad_norm": 0.18205444514751434,
	"learning_rate": 3.504350862593231e-05,
	"loss": 0.4642,
	"step": 855
	},
	{
	"epoch": 0.75230972283326,
	"eval_loss": 0.505698025226593,
	"eval_runtime": 28.6382,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 855
	},
	{
	"epoch": 0.7567091948966124,
	"grad_norm": 0.20196740329265594,
	"learning_rate": 3.388264948527052e-05,
	"loss": 0.4877,
	"step": 860
	},
	{
	"epoch": 0.7567091948966124,
	"eval_loss": 0.5052359700202942,
	"eval_runtime": 28.5347,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 860
	},
	{
	"epoch": 0.7611086669599648,
	"grad_norm": 0.18125030398368835,
	"learning_rate": 3.2737409043593405e-05,
	"loss": 0.4727,
	"step": 865
	},
	{
	"epoch": 0.7611086669599648,
	"eval_loss": 0.504954993724823,
	"eval_runtime": 28.5976,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 865
	},
	{
	"epoch": 0.7655081390233172,
	"grad_norm": 0.18927669525146484,
	"learning_rate": 3.160805783753897e-05,
	"loss": 0.4691,
	"step": 870
	},
	{
	"epoch": 0.7655081390233172,
	"eval_loss": 0.5047942399978638,
	"eval_runtime": 28.5051,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 870
	},
	{
	"epoch": 0.7699076110866696,
	"grad_norm": 0.18508534133434296,
	"learning_rate": 3.0494862650279822e-05,
	"loss": 0.5292,
	"step": 875
	},
	{
	"epoch": 0.7699076110866696,
	"eval_loss": 0.5046341419219971,
	"eval_runtime": 28.5445,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 875
	},
	{
	"epoch": 0.774307083150022,
	"grad_norm": 0.18230414390563965,
	"learning_rate": 2.939808644850184e-05,
	"loss": 0.4708,
	"step": 880
	},
	{
	"epoch": 0.774307083150022,
	"eval_loss": 0.5046290755271912,
	"eval_runtime": 28.6138,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 880
	},
	{
	"epoch": 0.7787065552133744,
	"grad_norm": 0.17352643609046936,
	"learning_rate": 2.8317988320284228e-05,
	"loss": 0.4863,
	"step": 885
	},
	{
	"epoch": 0.7787065552133744,
	"eval_loss": 0.5044691562652588,
	"eval_runtime": 28.6321,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 885
	},
	{
	"epoch": 0.7831060272767268,
	"grad_norm": 0.1845002919435501,
	"learning_rate": 2.7254823413896058e-05,
	"loss": 0.5006,
	"step": 890
	},
	{
	"epoch": 0.7831060272767268,
	"eval_loss": 0.5042091012001038,
	"eval_runtime": 28.6132,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 890
	},
	{
	"epoch": 0.7875054993400792,
	"grad_norm": 0.17883773148059845,
	"learning_rate": 2.6208842877523278e-05,
	"loss": 0.4887,
	"step": 895
	},
	{
	"epoch": 0.7875054993400792,
	"eval_loss": 0.5039156675338745,
	"eval_runtime": 28.5693,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 895
	},
	{
	"epoch": 0.7919049714034316,
	"grad_norm": 0.19202597439289093,
	"learning_rate": 2.518029379994089e-05,
	"loss": 0.4867,
	"step": 900
	},
	{
	"epoch": 0.7919049714034316,
	"eval_loss": 0.5037320852279663,
	"eval_runtime": 28.549,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 900
	},
	{
	"epoch": 0.796304443466784,
	"grad_norm": 0.18246056139469147,
	"learning_rate": 2.4169419152143768e-05,
	"loss": 0.4662,
	"step": 905
	},
	{
	"epoch": 0.796304443466784,
	"eval_loss": 0.5035374164581299,
	"eval_runtime": 28.6042,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 905
	},
	{
	"epoch": 0.8007039155301364,
	"grad_norm": 0.18989378213882446,
	"learning_rate": 2.317645772995042e-05,
	"loss": 0.4744,
	"step": 910
	},
	{
	"epoch": 0.8007039155301364,
	"eval_loss": 0.5033923387527466,
	"eval_runtime": 28.4795,
	"eval_samples_per_second": 0.597,
	"eval_steps_per_second": 0.316,
	"step": 910
	},
	{
	"epoch": 0.8051033875934888,
	"grad_norm": 0.19525018334388733,
	"learning_rate": 2.220164409759299e-05,
	"loss": 0.5159,
	"step": 915
	},
	{
	"epoch": 0.8051033875934888,
	"eval_loss": 0.503151535987854,
	"eval_runtime": 28.6198,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 915
	},
	{
	"epoch": 0.8095028596568412,
	"grad_norm": 0.18840977549552917,
	"learning_rate": 2.124520853230697e-05,
	"loss": 0.4848,
	"step": 920
	},
	{
	"epoch": 0.8095028596568412,
	"eval_loss": 0.5029481649398804,
	"eval_runtime": 28.614,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 920
	},
	{
	"epoch": 0.8139023317201936,
	"grad_norm": 0.18055056035518646,
	"learning_rate": 2.03073769699333e-05,
	"loss": 0.4648,
	"step": 925
	},
	{
	"epoch": 0.8139023317201936,
	"eval_loss": 0.5028063654899597,
	"eval_runtime": 28.5662,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 925
	},
	{
	"epoch": 0.818301803783546,
	"grad_norm": 0.18352611362934113,
	"learning_rate": 1.9388370951546432e-05,
	"loss": 0.4733,
	"step": 930
	},
	{
	"epoch": 0.818301803783546,
	"eval_loss": 0.5027296543121338,
	"eval_runtime": 28.5532,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 930
	},
	{
	"epoch": 0.8227012758468983,
	"grad_norm": 0.18161964416503906,
	"learning_rate": 1.848840757112019e-05,
	"loss": 0.4556,
	"step": 935
	},
	{
	"epoch": 0.8227012758468983,
	"eval_loss": 0.5025849342346191,
	"eval_runtime": 28.6672,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 935
	},
	{
	"epoch": 0.8271007479102508,
	"grad_norm": 0.19485127925872803,
	"learning_rate": 1.7607699424244585e-05,
	"loss": 0.4973,
	"step": 940
	},
	{
	"epoch": 0.8271007479102508,
	"eval_loss": 0.5023777484893799,
	"eval_runtime": 28.5856,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 940
	},
	{
	"epoch": 0.8315002199736031,
	"grad_norm": 0.19218072295188904,
	"learning_rate": 1.674645455790468e-05,
	"loss": 0.4708,
	"step": 945
	},
	{
	"epoch": 0.8315002199736031,
	"eval_loss": 0.5024308562278748,
	"eval_runtime": 28.6001,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 945
	},
	{
	"epoch": 0.8358996920369556,
	"grad_norm": 0.18270643055438995,
	"learning_rate": 1.5904876421334536e-05,
	"loss": 0.4547,
	"step": 950
	},
	{
	"epoch": 0.8358996920369556,
	"eval_loss": 0.5024178624153137,
	"eval_runtime": 28.5464,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 950
	},
	{
	"epoch": 0.8402991641003079,
	"grad_norm": 0.18350371718406677,
	"learning_rate": 1.5083163817956914e-05,
	"loss": 0.4663,
	"step": 955
	},
	{
	"epoch": 0.8402991641003079,
	"eval_loss": 0.5021481513977051,
	"eval_runtime": 28.5783,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 955
	},
	{
	"epoch": 0.8446986361636604,
	"grad_norm": 0.18115630745887756,
	"learning_rate": 1.4281510858420632e-05,
	"loss": 0.4857,
	"step": 960
	},
	{
	"epoch": 0.8446986361636604,
	"eval_loss": 0.5019457340240479,
	"eval_runtime": 28.5976,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 960
	},
	{
	"epoch": 0.8490981082270127,
	"grad_norm": 0.1744571477174759,
	"learning_rate": 1.350010691474629e-05,
	"loss": 0.4633,
	"step": 965
	},
	{
	"epoch": 0.8490981082270127,
	"eval_loss": 0.5019629597663879,
	"eval_runtime": 28.5207,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 965
	},
	{
	"epoch": 0.8534975802903652,
	"grad_norm": 0.18827442824840546,
	"learning_rate": 1.2739136575591581e-05,
	"loss": 0.4723,
	"step": 970
	},
	{
	"epoch": 0.8534975802903652,
	"eval_loss": 0.5018792748451233,
	"eval_runtime": 28.4515,
	"eval_samples_per_second": 0.598,
	"eval_steps_per_second": 0.316,
	"step": 970
	},
	{
	"epoch": 0.8578970523537176,
	"grad_norm": 0.18166576325893402,
	"learning_rate": 1.1998779602646437e-05,
	"loss": 0.4691,
	"step": 975
	},
	{
	"epoch": 0.8578970523537176,
	"eval_loss": 0.5017500519752502,
	"eval_runtime": 28.5978,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 975
	},
	{
	"epoch": 0.8622965244170699,
	"grad_norm": 0.18091408908367157,
	"learning_rate": 1.1279210888168546e-05,
	"loss": 0.4874,
	"step": 980
	},
	{
	"epoch": 0.8622965244170699,
	"eval_loss": 0.5017052888870239,
	"eval_runtime": 28.7541,
	"eval_samples_per_second": 0.591,
	"eval_steps_per_second": 0.313,
	"step": 980
	},
	{
	"epoch": 0.8666959964804224,
	"grad_norm": 0.182442307472229,
	"learning_rate": 1.0580600413668984e-05,
	"loss": 0.4773,
	"step": 985
	},
	{
	"epoch": 0.8666959964804224,
	"eval_loss": 0.5016083121299744,
	"eval_runtime": 28.5972,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 985
	},
	{
	"epoch": 0.8710954685437747,
	"grad_norm": 0.18171900510787964,
	"learning_rate": 9.903113209758096e-06,
	"loss": 0.4806,
	"step": 990
	},
	{
	"epoch": 0.8710954685437747,
	"eval_loss": 0.5015130043029785,
	"eval_runtime": 28.5707,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 990
	},
	{
	"epoch": 0.8754949406071272,
	"grad_norm": 0.1896371841430664,
	"learning_rate": 9.246909317160746e-06,
	"loss": 0.4512,
	"step": 995
	},
	{
	"epoch": 0.8754949406071272,
	"eval_loss": 0.5013110637664795,
	"eval_runtime": 28.6509,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.314,
	"step": 995
	},
	{
	"epoch": 0.8798944126704795,
	"grad_norm": 0.1779976189136505,
	"learning_rate": 8.612143748910451e-06,
	"loss": 0.4561,
	"step": 1000
	},
	{
	"epoch": 0.8798944126704795,
	"eval_loss": 0.5013135075569153,
	"eval_runtime": 28.8047,
	"eval_samples_per_second": 0.59,
	"eval_steps_per_second": 0.312,
	"step": 1000
	},
	{
	"epoch": 0.884293884733832,
	"grad_norm": 0.17416957020759583,
	"learning_rate": 7.998966453731094e-06,
	"loss": 0.4637,
	"step": 1005
	},
	{
	"epoch": 0.884293884733832,
	"eval_loss": 0.5013565421104431,
	"eval_runtime": 28.5911,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1005
	},
	{
	"epoch": 0.8886933567971843,
	"grad_norm": 0.1769402176141739,
	"learning_rate": 7.40752228061502e-06,
	"loss": 0.4527,
	"step": 1010
	},
	{
	"epoch": 0.8886933567971843,
	"eval_loss": 0.5010828375816345,
	"eval_runtime": 28.5203,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 1010
	},
	{
	"epoch": 0.8930928288605368,
	"grad_norm": 0.17784808576107025,
	"learning_rate": 6.8379509446057644e-06,
	"loss": 0.4903,
	"step": 1015
	},
	{
	"epoch": 0.8930928288605368,
	"eval_loss": 0.5012202262878418,
	"eval_runtime": 27.8441,
	"eval_samples_per_second": 0.611,
	"eval_steps_per_second": 0.323,
	"step": 1015
	},
	{
	"epoch": 0.8974923009238891,
	"grad_norm": 0.18067394196987152,
	"learning_rate": 6.290386993793618e-06,
	"loss": 0.4689,
	"step": 1020
	},
	{
	"epoch": 0.8974923009238891,
	"eval_loss": 0.5012267231941223,
	"eval_runtime": 28.517,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 1020
	},
	{
	"epoch": 0.9018917729872415,
	"grad_norm": 0.17478391528129578,
	"learning_rate": 5.764959777531776e-06,
	"loss": 0.4589,
	"step": 1025
	},
	{
	"epoch": 0.9018917729872415,
	"eval_loss": 0.5011836290359497,
	"eval_runtime": 28.6023,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1025
	},
	{
	"epoch": 0.9062912450505939,
	"grad_norm": 0.185857892036438,
	"learning_rate": 5.261793415880456e-06,
	"loss": 0.4528,
	"step": 1030
	},
	{
	"epoch": 0.9062912450505939,
	"eval_loss": 0.501183807849884,
	"eval_runtime": 28.5159,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.316,
	"step": 1030
	},
	{
	"epoch": 0.9106907171139463,
	"grad_norm": 0.17951223254203796,
	"learning_rate": 4.781006770286478e-06,
	"loss": 0.4845,
	"step": 1035
	},
	{
	"epoch": 0.9106907171139463,
	"eval_loss": 0.5011433959007263,
	"eval_runtime": 28.6072,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1035
	},
	{
	"epoch": 0.9150901891772987,
	"grad_norm": 0.18096089363098145,
	"learning_rate": 4.322713415504975e-06,
	"loss": 0.4578,
	"step": 1040
	},
	{
	"epoch": 0.9150901891772987,
	"eval_loss": 0.5011703968048096,
	"eval_runtime": 28.6287,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 1040
	},
	{
	"epoch": 0.9194896612406511,
	"grad_norm": 0.2069099247455597,
	"learning_rate": 3.887021612769936e-06,
	"loss": 0.5027,
	"step": 1045
	},
	{
	"epoch": 0.9194896612406511,
	"eval_loss": 0.5011240839958191,
	"eval_runtime": 29.0514,
	"eval_samples_per_second": 0.585,
	"eval_steps_per_second": 0.31,
	"step": 1045
	},
	{
	"epoch": 0.9238891333040036,
	"grad_norm": 0.18762987852096558,
	"learning_rate": 3.4740342842199956e-06,
	"loss": 0.4695,
	"step": 1050
	},
	{
	"epoch": 0.9238891333040036,
	"eval_loss": 0.5010772347450256,
	"eval_runtime": 28.5655,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1050
	},
	{
	"epoch": 0.9282886053673559,
	"grad_norm": 0.178373321890831,
	"learning_rate": 3.0838489885854805e-06,
	"loss": 0.484,
	"step": 1055
	},
	{
	"epoch": 0.9282886053673559,
	"eval_loss": 0.5010451674461365,
	"eval_runtime": 28.6083,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1055
	},
	{
	"epoch": 0.9326880774307084,
	"grad_norm": 0.1794215440750122,
	"learning_rate": 2.7165578981424357e-06,
	"loss": 0.4784,
	"step": 1060
	},
	{
	"epoch": 0.9326880774307084,
	"eval_loss": 0.5010905265808105,
	"eval_runtime": 28.5675,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1060
	},
	{
	"epoch": 0.9370875494940607,
	"grad_norm": 0.17699354887008667,
	"learning_rate": 2.3722477769389517e-06,
	"loss": 0.4698,
	"step": 1065
	},
	{
	"epoch": 0.9370875494940607,
	"eval_loss": 0.5010352730751038,
	"eval_runtime": 28.6041,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1065
	},
	{
	"epoch": 0.9414870215574132,
	"grad_norm": 0.17208220064640045,
	"learning_rate": 2.0509999602992493e-06,
	"loss": 0.4517,
	"step": 1070
	},
	{
	"epoch": 0.9414870215574132,
	"eval_loss": 0.5010344982147217,
	"eval_runtime": 28.5865,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1070
	},
	{
	"epoch": 0.9458864936207655,
	"grad_norm": 0.1774464249610901,
	"learning_rate": 1.7528903356100469e-06,
	"loss": 0.4846,
	"step": 1075
	},
	{
	"epoch": 0.9458864936207655,
	"eval_loss": 0.5010223388671875,
	"eval_runtime": 28.5634,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1075
	},
	{
	"epoch": 0.9502859656841179,
	"grad_norm": 0.1773741990327835,
	"learning_rate": 1.4779893243939359e-06,
	"loss": 0.4402,
	"step": 1080
	},
	{
	"epoch": 0.9502859656841179,
	"eval_loss": 0.5009992718696594,
	"eval_runtime": 28.5952,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1080
	},
	{
	"epoch": 0.9546854377474703,
	"grad_norm": 0.18979211151599884,
	"learning_rate": 1.2263618656739084e-06,
	"loss": 0.5013,
	"step": 1085
	},
	{
	"epoch": 0.9546854377474703,
	"eval_loss": 0.501004159450531,
	"eval_runtime": 28.614,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1085
	},
	{
	"epoch": 0.9590849098108227,
	"grad_norm": 0.1895236372947693,
	"learning_rate": 9.98067400632985e-07,
	"loss": 0.4588,
	"step": 1090
	},
	{
	"epoch": 0.9590849098108227,
	"eval_loss": 0.5009981393814087,
	"eval_runtime": 28.5601,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1090
	},
	{
	"epoch": 0.9634843818741751,
	"grad_norm": 0.17328618466854095,
	"learning_rate": 7.931598585726563e-07,
	"loss": 0.4712,
	"step": 1095
	},
	{
	"epoch": 0.9634843818741751,
	"eval_loss": 0.500961184501648,
	"eval_runtime": 28.574,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1095
	},
	{
	"epoch": 0.9678838539375275,
	"grad_norm": 0.18122579157352448,
	"learning_rate": 6.116876441733088e-07,
	"loss": 0.4534,
	"step": 1100
	},
	{
	"epoch": 0.9678838539375275,
	"eval_loss": 0.5009814500808716,
	"eval_runtime": 28.5934,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1100
	},
	{
	"epoch": 0.9722833260008799,
	"grad_norm": 0.18148748576641083,
	"learning_rate": 4.536936260597258e-07,
	"loss": 0.4587,
	"step": 1105
	},
	{
	"epoch": 0.9722833260008799,
	"eval_loss": 0.5009997487068176,
	"eval_runtime": 28.5275,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 1105
	},
	{
	"epoch": 0.9766827980642323,
	"grad_norm": 0.18024764955043793,
	"learning_rate": 3.192151266743548e-07,
	"loss": 0.4783,
	"step": 1110
	},
	{
	"epoch": 0.9766827980642323,
	"eval_loss": 0.5009670853614807,
	"eval_runtime": 28.5688,
	"eval_samples_per_second": 0.595,
	"eval_steps_per_second": 0.315,
	"step": 1110
	},
	{
	"epoch": 0.9810822701275846,
	"grad_norm": 0.18152055144309998,
	"learning_rate": 2.082839134607828e-07,
	"loss": 0.4623,
	"step": 1115
	},
	{
	"epoch": 0.9810822701275846,
	"eval_loss": 0.5009202361106873,
	"eval_runtime": 28.6066,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1115
	},
	{
	"epoch": 0.9854817421909371,
	"grad_norm": 0.17324087023735046,
	"learning_rate": 1.2092619135937177e-07,
	"loss": 0.439,
	"step": 1120
	},
	{
	"epoch": 0.9854817421909371,
	"eval_loss": 0.5010377168655396,
	"eval_runtime": 28.5308,
	"eval_samples_per_second": 0.596,
	"eval_steps_per_second": 0.315,
	"step": 1120
	},
	{
	"epoch": 0.9898812142542894,
	"grad_norm": 0.17685554921627045,
	"learning_rate": 5.716259661695533e-08,
	"loss": 0.4629,
	"step": 1125
	},
	{
	"epoch": 0.9898812142542894,
	"eval_loss": 0.5009082555770874,
	"eval_runtime": 28.6259,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 1125
	},
	{
	"epoch": 0.9942806863176419,
	"grad_norm": 0.17675389349460602,
	"learning_rate": 1.7008191912004646e-08,
	"loss": 0.4716,
	"step": 1130
	},
	{
	"epoch": 0.9942806863176419,
	"eval_loss": 0.5009535551071167,
	"eval_runtime": 28.626,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.314,
	"step": 1130
	},
	{
	"epoch": 0.9986801583809943,
	"grad_norm": 0.18398317694664001,
	"learning_rate": 4.724627964303175e-10,
	"loss": 0.4832,
	"step": 1135
	},
	{
	"epoch": 0.9986801583809943,
	"eval_loss": 0.5010104179382324,
	"eval_runtime": 28.6106,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.315,
	"step": 1135
	},
	{
	"epoch": 0.9995600527936648,
	"step": 1136,
	"total_flos": 7.211600370336793e+18,
	"train_loss": 0.039691918463984004,
	"train_runtime": 9596.3839,
	"train_samples_per_second": 1.895,
	"train_steps_per_second": 0.118
	}
	],
	"logging_steps": 5,
	"max_steps": 1136,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.211600370336793e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}