End of training

e5f8476 verified about 1 month ago

103 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9983193277310924,
	"eval_steps": 500,
	"global_step": 594,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005042016806722689,
	"grad_norm": 9.45597365399993,
	"learning_rate": 0.0,
	"loss": 1.7242,
	"step": 1
	},
	{
	"epoch": 0.010084033613445379,
	"grad_norm": 9.218921810032594,
	"learning_rate": 1.6666666666666668e-07,
	"loss": 1.9603,
	"step": 2
	},
	{
	"epoch": 0.015126050420168067,
	"grad_norm": 9.19364568473009,
	"learning_rate": 3.3333333333333335e-07,
	"loss": 1.7815,
	"step": 3
	},
	{
	"epoch": 0.020168067226890758,
	"grad_norm": 9.753359655679406,
	"learning_rate": 5.000000000000001e-07,
	"loss": 1.8671,
	"step": 4
	},
	{
	"epoch": 0.025210084033613446,
	"grad_norm": 10.188684139684757,
	"learning_rate": 6.666666666666667e-07,
	"loss": 1.8868,
	"step": 5
	},
	{
	"epoch": 0.030252100840336135,
	"grad_norm": 9.253535763532076,
	"learning_rate": 8.333333333333333e-07,
	"loss": 1.8821,
	"step": 6
	},
	{
	"epoch": 0.03529411764705882,
	"grad_norm": 9.452472463389428,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.8398,
	"step": 7
	},
	{
	"epoch": 0.040336134453781515,
	"grad_norm": 8.338459992866273,
	"learning_rate": 1.1666666666666668e-06,
	"loss": 1.7522,
	"step": 8
	},
	{
	"epoch": 0.0453781512605042,
	"grad_norm": 8.599040436901118,
	"learning_rate": 1.3333333333333334e-06,
	"loss": 1.7879,
	"step": 9
	},
	{
	"epoch": 0.05042016806722689,
	"grad_norm": 9.204139051227466,
	"learning_rate": 1.5e-06,
	"loss": 1.8949,
	"step": 10
	},
	{
	"epoch": 0.05546218487394958,
	"grad_norm": 8.383986517840034,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 1.7568,
	"step": 11
	},
	{
	"epoch": 0.06050420168067227,
	"grad_norm": 6.14215523192106,
	"learning_rate": 1.8333333333333333e-06,
	"loss": 1.6243,
	"step": 12
	},
	{
	"epoch": 0.06554621848739496,
	"grad_norm": 5.998914335428499,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.5973,
	"step": 13
	},
	{
	"epoch": 0.07058823529411765,
	"grad_norm": 5.047474738743573,
	"learning_rate": 2.166666666666667e-06,
	"loss": 1.3774,
	"step": 14
	},
	{
	"epoch": 0.07563025210084033,
	"grad_norm": 5.330740621399064,
	"learning_rate": 2.3333333333333336e-06,
	"loss": 1.5953,
	"step": 15
	},
	{
	"epoch": 0.08067226890756303,
	"grad_norm": 3.3659526026887012,
	"learning_rate": 2.5e-06,
	"loss": 1.3746,
	"step": 16
	},
	{
	"epoch": 0.08571428571428572,
	"grad_norm": 3.639732034816691,
	"learning_rate": 2.666666666666667e-06,
	"loss": 1.4698,
	"step": 17
	},
	{
	"epoch": 0.0907563025210084,
	"grad_norm": 3.461514147091586,
	"learning_rate": 2.8333333333333335e-06,
	"loss": 1.4229,
	"step": 18
	},
	{
	"epoch": 0.0957983193277311,
	"grad_norm": 3.765309579932919,
	"learning_rate": 3e-06,
	"loss": 1.3948,
	"step": 19
	},
	{
	"epoch": 0.10084033613445378,
	"grad_norm": 2.825230202760748,
	"learning_rate": 3.1666666666666667e-06,
	"loss": 1.3286,
	"step": 20
	},
	{
	"epoch": 0.10588235294117647,
	"grad_norm": 2.387015147619193,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.2574,
	"step": 21
	},
	{
	"epoch": 0.11092436974789915,
	"grad_norm": 2.6592293064240176,
	"learning_rate": 3.5e-06,
	"loss": 1.2994,
	"step": 22
	},
	{
	"epoch": 0.11596638655462185,
	"grad_norm": 2.9338685422018163,
	"learning_rate": 3.6666666666666666e-06,
	"loss": 1.271,
	"step": 23
	},
	{
	"epoch": 0.12100840336134454,
	"grad_norm": 2.8053283243940923,
	"learning_rate": 3.833333333333334e-06,
	"loss": 1.239,
	"step": 24
	},
	{
	"epoch": 0.12605042016806722,
	"grad_norm": 2.4764651014882673,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.2632,
	"step": 25
	},
	{
	"epoch": 0.13109243697478992,
	"grad_norm": 4.193230652323676,
	"learning_rate": 4.166666666666667e-06,
	"loss": 1.2494,
	"step": 26
	},
	{
	"epoch": 0.1361344537815126,
	"grad_norm": 2.166632601601999,
	"learning_rate": 4.333333333333334e-06,
	"loss": 1.1772,
	"step": 27
	},
	{
	"epoch": 0.1411764705882353,
	"grad_norm": 2.0456983888545133,
	"learning_rate": 4.5e-06,
	"loss": 1.3323,
	"step": 28
	},
	{
	"epoch": 0.146218487394958,
	"grad_norm": 1.9041534025850353,
	"learning_rate": 4.666666666666667e-06,
	"loss": 1.123,
	"step": 29
	},
	{
	"epoch": 0.15126050420168066,
	"grad_norm": 1.7473372136225975,
	"learning_rate": 4.833333333333333e-06,
	"loss": 1.1116,
	"step": 30
	},
	{
	"epoch": 0.15630252100840336,
	"grad_norm": 1.9237786068741898,
	"learning_rate": 5e-06,
	"loss": 1.2038,
	"step": 31
	},
	{
	"epoch": 0.16134453781512606,
	"grad_norm": 1.9862371515679214,
	"learning_rate": 5.1666666666666675e-06,
	"loss": 1.2171,
	"step": 32
	},
	{
	"epoch": 0.16638655462184873,
	"grad_norm": 1.5922593116941988,
	"learning_rate": 5.333333333333334e-06,
	"loss": 1.0193,
	"step": 33
	},
	{
	"epoch": 0.17142857142857143,
	"grad_norm": 1.6830455258736572,
	"learning_rate": 5.500000000000001e-06,
	"loss": 1.0761,
	"step": 34
	},
	{
	"epoch": 0.17647058823529413,
	"grad_norm": 1.594143028453368,
	"learning_rate": 5.666666666666667e-06,
	"loss": 1.1126,
	"step": 35
	},
	{
	"epoch": 0.1815126050420168,
	"grad_norm": 1.9420003685481775,
	"learning_rate": 5.833333333333334e-06,
	"loss": 1.1203,
	"step": 36
	},
	{
	"epoch": 0.1865546218487395,
	"grad_norm": 1.5815112240806883,
	"learning_rate": 6e-06,
	"loss": 1.0293,
	"step": 37
	},
	{
	"epoch": 0.1915966386554622,
	"grad_norm": 1.4697006996217221,
	"learning_rate": 6.166666666666667e-06,
	"loss": 0.995,
	"step": 38
	},
	{
	"epoch": 0.19663865546218487,
	"grad_norm": 1.5886739084366435,
	"learning_rate": 6.333333333333333e-06,
	"loss": 1.1051,
	"step": 39
	},
	{
	"epoch": 0.20168067226890757,
	"grad_norm": 1.3717225438634324,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 1.0817,
	"step": 40
	},
	{
	"epoch": 0.20672268907563024,
	"grad_norm": 1.4586233032739204,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.9949,
	"step": 41
	},
	{
	"epoch": 0.21176470588235294,
	"grad_norm": 1.4404526895251804,
	"learning_rate": 6.833333333333334e-06,
	"loss": 1.0369,
	"step": 42
	},
	{
	"epoch": 0.21680672268907564,
	"grad_norm": 1.5011071614715905,
	"learning_rate": 7e-06,
	"loss": 1.0126,
	"step": 43
	},
	{
	"epoch": 0.2218487394957983,
	"grad_norm": 1.446801500279163,
	"learning_rate": 7.166666666666667e-06,
	"loss": 0.9829,
	"step": 44
	},
	{
	"epoch": 0.226890756302521,
	"grad_norm": 1.3157845464395648,
	"learning_rate": 7.333333333333333e-06,
	"loss": 0.9432,
	"step": 45
	},
	{
	"epoch": 0.2319327731092437,
	"grad_norm": 1.3291092123967403,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.9518,
	"step": 46
	},
	{
	"epoch": 0.23697478991596638,
	"grad_norm": 1.5105509029003468,
	"learning_rate": 7.666666666666667e-06,
	"loss": 1.0235,
	"step": 47
	},
	{
	"epoch": 0.24201680672268908,
	"grad_norm": 1.420355667391472,
	"learning_rate": 7.833333333333333e-06,
	"loss": 0.9567,
	"step": 48
	},
	{
	"epoch": 0.24705882352941178,
	"grad_norm": 1.463732709856337,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.0417,
	"step": 49
	},
	{
	"epoch": 0.25210084033613445,
	"grad_norm": 1.4275241446789713,
	"learning_rate": 8.166666666666668e-06,
	"loss": 1.0347,
	"step": 50
	},
	{
	"epoch": 0.2571428571428571,
	"grad_norm": 1.309592587931707,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.9524,
	"step": 51
	},
	{
	"epoch": 0.26218487394957984,
	"grad_norm": 1.3344872488030621,
	"learning_rate": 8.5e-06,
	"loss": 1.0684,
	"step": 52
	},
	{
	"epoch": 0.2672268907563025,
	"grad_norm": 1.3533956797177575,
	"learning_rate": 8.666666666666668e-06,
	"loss": 0.9501,
	"step": 53
	},
	{
	"epoch": 0.2722689075630252,
	"grad_norm": 1.4422509166091777,
	"learning_rate": 8.833333333333334e-06,
	"loss": 0.9452,
	"step": 54
	},
	{
	"epoch": 0.2773109243697479,
	"grad_norm": 1.3534627088209181,
	"learning_rate": 9e-06,
	"loss": 0.9243,
	"step": 55
	},
	{
	"epoch": 0.2823529411764706,
	"grad_norm": 1.370929089587996,
	"learning_rate": 9.166666666666666e-06,
	"loss": 0.9577,
	"step": 56
	},
	{
	"epoch": 0.28739495798319326,
	"grad_norm": 1.34141912977082,
	"learning_rate": 9.333333333333334e-06,
	"loss": 0.9216,
	"step": 57
	},
	{
	"epoch": 0.292436974789916,
	"grad_norm": 1.437190020022949,
	"learning_rate": 9.5e-06,
	"loss": 0.986,
	"step": 58
	},
	{
	"epoch": 0.29747899159663865,
	"grad_norm": 1.3190591357074484,
	"learning_rate": 9.666666666666667e-06,
	"loss": 1.0163,
	"step": 59
	},
	{
	"epoch": 0.3025210084033613,
	"grad_norm": 1.3230400720636633,
	"learning_rate": 9.833333333333333e-06,
	"loss": 0.9071,
	"step": 60
	},
	{
	"epoch": 0.30756302521008405,
	"grad_norm": 1.570821042981294,
	"learning_rate": 1e-05,
	"loss": 1.0532,
	"step": 61
	},
	{
	"epoch": 0.3126050420168067,
	"grad_norm": 1.3817712282096664,
	"learning_rate": 9.999913472135126e-06,
	"loss": 0.9497,
	"step": 62
	},
	{
	"epoch": 0.3176470588235294,
	"grad_norm": 1.3461235016869455,
	"learning_rate": 9.99965389153533e-06,
	"loss": 0.9656,
	"step": 63
	},
	{
	"epoch": 0.3226890756302521,
	"grad_norm": 1.2703045215015534,
	"learning_rate": 9.999221267184993e-06,
	"loss": 0.8563,
	"step": 64
	},
	{
	"epoch": 0.3277310924369748,
	"grad_norm": 1.4463044763025328,
	"learning_rate": 9.998615614057743e-06,
	"loss": 0.9743,
	"step": 65
	},
	{
	"epoch": 0.33277310924369746,
	"grad_norm": 1.2126520135581191,
	"learning_rate": 9.997836953115927e-06,
	"loss": 0.8256,
	"step": 66
	},
	{
	"epoch": 0.3378151260504202,
	"grad_norm": 1.465456256707118,
	"learning_rate": 9.996885311309892e-06,
	"loss": 0.9112,
	"step": 67
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 1.3774012861831768,
	"learning_rate": 9.995760721577053e-06,
	"loss": 1.0031,
	"step": 68
	},
	{
	"epoch": 0.34789915966386553,
	"grad_norm": 1.214727510886685,
	"learning_rate": 9.994463222840748e-06,
	"loss": 0.8777,
	"step": 69
	},
	{
	"epoch": 0.35294117647058826,
	"grad_norm": 1.3372556283226344,
	"learning_rate": 9.992992860008893e-06,
	"loss": 0.9503,
	"step": 70
	},
	{
	"epoch": 0.35798319327731093,
	"grad_norm": 1.2629663699758409,
	"learning_rate": 9.991349683972435e-06,
	"loss": 0.9707,
	"step": 71
	},
	{
	"epoch": 0.3630252100840336,
	"grad_norm": 1.2961666438854509,
	"learning_rate": 9.989533751603578e-06,
	"loss": 0.8987,
	"step": 72
	},
	{
	"epoch": 0.3680672268907563,
	"grad_norm": 1.3451690514655665,
	"learning_rate": 9.987545125753818e-06,
	"loss": 0.9614,
	"step": 73
	},
	{
	"epoch": 0.373109243697479,
	"grad_norm": 1.3824819884360038,
	"learning_rate": 9.985383875251783e-06,
	"loss": 0.9101,
	"step": 74
	},
	{
	"epoch": 0.37815126050420167,
	"grad_norm": 1.290324816657544,
	"learning_rate": 9.983050074900824e-06,
	"loss": 0.8901,
	"step": 75
	},
	{
	"epoch": 0.3831932773109244,
	"grad_norm": 1.3785449206810632,
	"learning_rate": 9.980543805476447e-06,
	"loss": 0.9305,
	"step": 76
	},
	{
	"epoch": 0.38823529411764707,
	"grad_norm": 1.2723741333137952,
	"learning_rate": 9.977865153723508e-06,
	"loss": 0.9145,
	"step": 77
	},
	{
	"epoch": 0.39327731092436974,
	"grad_norm": 1.3277787150964286,
	"learning_rate": 9.975014212353212e-06,
	"loss": 0.9386,
	"step": 78
	},
	{
	"epoch": 0.3983193277310924,
	"grad_norm": 1.300378629259356,
	"learning_rate": 9.971991080039912e-06,
	"loss": 0.9072,
	"step": 79
	},
	{
	"epoch": 0.40336134453781514,
	"grad_norm": 1.3180887220440103,
	"learning_rate": 9.968795861417676e-06,
	"loss": 0.8538,
	"step": 80
	},
	{
	"epoch": 0.4084033613445378,
	"grad_norm": 1.2852565908527667,
	"learning_rate": 9.965428667076687e-06,
	"loss": 0.8625,
	"step": 81
	},
	{
	"epoch": 0.4134453781512605,
	"grad_norm": 1.22082061679436,
	"learning_rate": 9.961889613559396e-06,
	"loss": 0.8002,
	"step": 82
	},
	{
	"epoch": 0.4184873949579832,
	"grad_norm": 1.3948047447367582,
	"learning_rate": 9.958178823356503e-06,
	"loss": 0.9563,
	"step": 83
	},
	{
	"epoch": 0.4235294117647059,
	"grad_norm": 1.32125427246041,
	"learning_rate": 9.954296424902709e-06,
	"loss": 0.9009,
	"step": 84
	},
	{
	"epoch": 0.42857142857142855,
	"grad_norm": 1.2664915782700163,
	"learning_rate": 9.950242552572272e-06,
	"loss": 0.8489,
	"step": 85
	},
	{
	"epoch": 0.4336134453781513,
	"grad_norm": 1.273298827077617,
	"learning_rate": 9.946017346674362e-06,
	"loss": 0.847,
	"step": 86
	},
	{
	"epoch": 0.43865546218487395,
	"grad_norm": 1.328680054216705,
	"learning_rate": 9.941620953448195e-06,
	"loss": 0.9382,
	"step": 87
	},
	{
	"epoch": 0.4436974789915966,
	"grad_norm": 1.263646905073375,
	"learning_rate": 9.937053525057977e-06,
	"loss": 0.8991,
	"step": 88
	},
	{
	"epoch": 0.44873949579831934,
	"grad_norm": 1.209796673070386,
	"learning_rate": 9.932315219587641e-06,
	"loss": 0.8611,
	"step": 89
	},
	{
	"epoch": 0.453781512605042,
	"grad_norm": 1.1317133515894529,
	"learning_rate": 9.927406201035368e-06,
	"loss": 0.8254,
	"step": 90
	},
	{
	"epoch": 0.4588235294117647,
	"grad_norm": 1.2581352252268798,
	"learning_rate": 9.922326639307918e-06,
	"loss": 0.8186,
	"step": 91
	},
	{
	"epoch": 0.4638655462184874,
	"grad_norm": 1.1615726675287243,
	"learning_rate": 9.917076710214739e-06,
	"loss": 0.8217,
	"step": 92
	},
	{
	"epoch": 0.4689075630252101,
	"grad_norm": 1.3906544125113194,
	"learning_rate": 9.911656595461899e-06,
	"loss": 0.9606,
	"step": 93
	},
	{
	"epoch": 0.47394957983193275,
	"grad_norm": 1.3491688269700184,
	"learning_rate": 9.906066482645774e-06,
	"loss": 0.8865,
	"step": 94
	},
	{
	"epoch": 0.4789915966386555,
	"grad_norm": 1.2884319333617182,
	"learning_rate": 9.900306565246579e-06,
	"loss": 0.8608,
	"step": 95
	},
	{
	"epoch": 0.48403361344537815,
	"grad_norm": 1.332999472417029,
	"learning_rate": 9.894377042621654e-06,
	"loss": 0.8476,
	"step": 96
	},
	{
	"epoch": 0.4890756302521008,
	"grad_norm": 1.3206768360556793,
	"learning_rate": 9.888278119998573e-06,
	"loss": 0.898,
	"step": 97
	},
	{
	"epoch": 0.49411764705882355,
	"grad_norm": 1.3732673184556148,
	"learning_rate": 9.882010008468038e-06,
	"loss": 0.9482,
	"step": 98
	},
	{
	"epoch": 0.4991596638655462,
	"grad_norm": 1.4284063475101123,
	"learning_rate": 9.875572924976568e-06,
	"loss": 0.8932,
	"step": 99
	},
	{
	"epoch": 0.5042016806722689,
	"grad_norm": 1.249757410129038,
	"learning_rate": 9.868967092319003e-06,
	"loss": 0.9113,
	"step": 100
	},
	{
	"epoch": 0.5092436974789916,
	"grad_norm": 1.2033755235104269,
	"learning_rate": 9.86219273913078e-06,
	"loss": 0.8373,
	"step": 101
	},
	{
	"epoch": 0.5142857142857142,
	"grad_norm": 1.3285676372655046,
	"learning_rate": 9.855250099880026e-06,
	"loss": 0.82,
	"step": 102
	},
	{
	"epoch": 0.519327731092437,
	"grad_norm": 1.280372963776325,
	"learning_rate": 9.848139414859441e-06,
	"loss": 0.9269,
	"step": 103
	},
	{
	"epoch": 0.5243697478991597,
	"grad_norm": 1.3597201294098022,
	"learning_rate": 9.840860930177984e-06,
	"loss": 0.8917,
	"step": 104
	},
	{
	"epoch": 0.5294117647058824,
	"grad_norm": 1.3044841757394627,
	"learning_rate": 9.833414897752346e-06,
	"loss": 0.8242,
	"step": 105
	},
	{
	"epoch": 0.534453781512605,
	"grad_norm": 1.2237707733265701,
	"learning_rate": 9.825801575298248e-06,
	"loss": 0.8369,
	"step": 106
	},
	{
	"epoch": 0.5394957983193277,
	"grad_norm": 1.2984723776565605,
	"learning_rate": 9.818021226321502e-06,
	"loss": 0.8687,
	"step": 107
	},
	{
	"epoch": 0.5445378151260504,
	"grad_norm": 1.3966505679016854,
	"learning_rate": 9.8100741201089e-06,
	"loss": 0.8698,
	"step": 108
	},
	{
	"epoch": 0.5495798319327732,
	"grad_norm": 1.3695596995593027,
	"learning_rate": 9.801960531718898e-06,
	"loss": 0.9224,
	"step": 109
	},
	{
	"epoch": 0.5546218487394958,
	"grad_norm": 1.2219956732497297,
	"learning_rate": 9.793680741972084e-06,
	"loss": 0.7909,
	"step": 110
	},
	{
	"epoch": 0.5596638655462185,
	"grad_norm": 1.1958717679101365,
	"learning_rate": 9.785235037441473e-06,
	"loss": 0.8222,
	"step": 111
	},
	{
	"epoch": 0.5647058823529412,
	"grad_norm": 1.3284406137942217,
	"learning_rate": 9.77662371044258e-06,
	"loss": 0.9698,
	"step": 112
	},
	{
	"epoch": 0.5697478991596638,
	"grad_norm": 1.4005342916908725,
	"learning_rate": 9.767847059023292e-06,
	"loss": 0.8141,
	"step": 113
	},
	{
	"epoch": 0.5747899159663865,
	"grad_norm": 1.3280058867861344,
	"learning_rate": 9.75890538695358e-06,
	"loss": 0.8281,
	"step": 114
	},
	{
	"epoch": 0.5798319327731093,
	"grad_norm": 1.348332178712391,
	"learning_rate": 9.749799003714954e-06,
	"loss": 0.8174,
	"step": 115
	},
	{
	"epoch": 0.584873949579832,
	"grad_norm": 1.345901958116435,
	"learning_rate": 9.74052822448978e-06,
	"loss": 0.8662,
	"step": 116
	},
	{
	"epoch": 0.5899159663865546,
	"grad_norm": 1.4938772005815362,
	"learning_rate": 9.731093370150349e-06,
	"loss": 0.9227,
	"step": 117
	},
	{
	"epoch": 0.5949579831932773,
	"grad_norm": 1.5782055001938107,
	"learning_rate": 9.721494767247779e-06,
	"loss": 0.9292,
	"step": 118
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.2813061736782214,
	"learning_rate": 9.71173274800072e-06,
	"loss": 0.808,
	"step": 119
	},
	{
	"epoch": 0.6050420168067226,
	"grad_norm": 1.3387521092808896,
	"learning_rate": 9.70180765028384e-06,
	"loss": 0.8052,
	"step": 120
	},
	{
	"epoch": 0.6100840336134454,
	"grad_norm": 1.1971567112258479,
	"learning_rate": 9.691719817616148e-06,
	"loss": 0.8321,
	"step": 121
	},
	{
	"epoch": 0.6151260504201681,
	"grad_norm": 1.4022847044925355,
	"learning_rate": 9.681469599149093e-06,
	"loss": 0.8362,
	"step": 122
	},
	{
	"epoch": 0.6201680672268908,
	"grad_norm": 1.4458562904255674,
	"learning_rate": 9.671057349654481e-06,
	"loss": 0.8753,
	"step": 123
	},
	{
	"epoch": 0.6252100840336134,
	"grad_norm": 1.3489812277335955,
	"learning_rate": 9.660483429512198e-06,
	"loss": 0.8406,
	"step": 124
	},
	{
	"epoch": 0.6302521008403361,
	"grad_norm": 1.2541520148654464,
	"learning_rate": 9.649748204697741e-06,
	"loss": 0.8096,
	"step": 125
	},
	{
	"epoch": 0.6352941176470588,
	"grad_norm": 1.4166136476450861,
	"learning_rate": 9.63885204676954e-06,
	"loss": 0.9279,
	"step": 126
	},
	{
	"epoch": 0.6403361344537815,
	"grad_norm": 1.2096305649684784,
	"learning_rate": 9.627795332856107e-06,
	"loss": 0.8668,
	"step": 127
	},
	{
	"epoch": 0.6453781512605042,
	"grad_norm": 1.0817129947497557,
	"learning_rate": 9.616578445642982e-06,
	"loss": 0.8021,
	"step": 128
	},
	{
	"epoch": 0.6504201680672269,
	"grad_norm": 1.2857282530529068,
	"learning_rate": 9.605201773359485e-06,
	"loss": 0.9031,
	"step": 129
	},
	{
	"epoch": 0.6554621848739496,
	"grad_norm": 1.2909981390159206,
	"learning_rate": 9.59366570976528e-06,
	"loss": 0.9028,
	"step": 130
	},
	{
	"epoch": 0.6605042016806723,
	"grad_norm": 1.277642300275485,
	"learning_rate": 9.581970654136752e-06,
	"loss": 0.8206,
	"step": 131
	},
	{
	"epoch": 0.6655462184873949,
	"grad_norm": 1.2618202348884826,
	"learning_rate": 9.570117011253173e-06,
	"loss": 0.8038,
	"step": 132
	},
	{
	"epoch": 0.6705882352941176,
	"grad_norm": 1.3158796346136465,
	"learning_rate": 9.55810519138271e-06,
	"loss": 0.8594,
	"step": 133
	},
	{
	"epoch": 0.6756302521008404,
	"grad_norm": 1.464049668724664,
	"learning_rate": 9.545935610268213e-06,
	"loss": 0.8946,
	"step": 134
	},
	{
	"epoch": 0.680672268907563,
	"grad_norm": 1.3568598282729065,
	"learning_rate": 9.533608689112827e-06,
	"loss": 0.8747,
	"step": 135
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 1.459842199207566,
	"learning_rate": 9.521124854565425e-06,
	"loss": 0.8665,
	"step": 136
	},
	{
	"epoch": 0.6907563025210084,
	"grad_norm": 1.2651754016717647,
	"learning_rate": 9.508484538705823e-06,
	"loss": 0.8172,
	"step": 137
	},
	{
	"epoch": 0.6957983193277311,
	"grad_norm": 1.3148283789857567,
	"learning_rate": 9.495688179029838e-06,
	"loss": 0.8159,
	"step": 138
	},
	{
	"epoch": 0.7008403361344537,
	"grad_norm": 1.3062514406684878,
	"learning_rate": 9.482736218434144e-06,
	"loss": 0.772,
	"step": 139
	},
	{
	"epoch": 0.7058823529411765,
	"grad_norm": 1.233357901449911,
	"learning_rate": 9.469629105200937e-06,
	"loss": 0.812,
	"step": 140
	},
	{
	"epoch": 0.7109243697478992,
	"grad_norm": 1.4036092051385856,
	"learning_rate": 9.45636729298243e-06,
	"loss": 0.9176,
	"step": 141
	},
	{
	"epoch": 0.7159663865546219,
	"grad_norm": 1.2475986918890871,
	"learning_rate": 9.442951240785135e-06,
	"loss": 0.9227,
	"step": 142
	},
	{
	"epoch": 0.7210084033613445,
	"grad_norm": 1.33327258291273,
	"learning_rate": 9.429381412954e-06,
	"loss": 0.8406,
	"step": 143
	},
	{
	"epoch": 0.7260504201680672,
	"grad_norm": 1.2457766641422836,
	"learning_rate": 9.415658279156312e-06,
	"loss": 0.7944,
	"step": 144
	},
	{
	"epoch": 0.7310924369747899,
	"grad_norm": 1.214604972950531,
	"learning_rate": 9.401782314365458e-06,
	"loss": 0.7889,
	"step": 145
	},
	{
	"epoch": 0.7361344537815127,
	"grad_norm": 1.4091496584822034,
	"learning_rate": 9.387753998844482e-06,
	"loss": 0.8542,
	"step": 146
	},
	{
	"epoch": 0.7411764705882353,
	"grad_norm": 1.336371637577696,
	"learning_rate": 9.37357381812946e-06,
	"loss": 0.8713,
	"step": 147
	},
	{
	"epoch": 0.746218487394958,
	"grad_norm": 1.2559095107113698,
	"learning_rate": 9.359242263012693e-06,
	"loss": 0.8405,
	"step": 148
	},
	{
	"epoch": 0.7512605042016807,
	"grad_norm": 1.371982879040437,
	"learning_rate": 9.344759829525734e-06,
	"loss": 0.8666,
	"step": 149
	},
	{
	"epoch": 0.7563025210084033,
	"grad_norm": 1.23974913873784,
	"learning_rate": 9.330127018922195e-06,
	"loss": 0.7429,
	"step": 150
	},
	{
	"epoch": 0.761344537815126,
	"grad_norm": 1.3741045518217379,
	"learning_rate": 9.315344337660422e-06,
	"loss": 0.8649,
	"step": 151
	},
	{
	"epoch": 0.7663865546218488,
	"grad_norm": 1.348659089360585,
	"learning_rate": 9.300412297385954e-06,
	"loss": 0.8614,
	"step": 152
	},
	{
	"epoch": 0.7714285714285715,
	"grad_norm": 1.199362811459465,
	"learning_rate": 9.285331414913816e-06,
	"loss": 0.837,
	"step": 153
	},
	{
	"epoch": 0.7764705882352941,
	"grad_norm": 1.2184218309322916,
	"learning_rate": 9.270102212210632e-06,
	"loss": 0.8404,
	"step": 154
	},
	{
	"epoch": 0.7815126050420168,
	"grad_norm": 1.386612554465055,
	"learning_rate": 9.254725216376562e-06,
	"loss": 0.9221,
	"step": 155
	},
	{
	"epoch": 0.7865546218487395,
	"grad_norm": 1.3380478699356555,
	"learning_rate": 9.239200959627048e-06,
	"loss": 0.8627,
	"step": 156
	},
	{
	"epoch": 0.7915966386554621,
	"grad_norm": 1.4014570562834296,
	"learning_rate": 9.223529979274411e-06,
	"loss": 0.8525,
	"step": 157
	},
	{
	"epoch": 0.7966386554621848,
	"grad_norm": 1.3172489244042282,
	"learning_rate": 9.207712817709237e-06,
	"loss": 0.7901,
	"step": 158
	},
	{
	"epoch": 0.8016806722689076,
	"grad_norm": 1.354483035270781,
	"learning_rate": 9.191750022381613e-06,
	"loss": 0.865,
	"step": 159
	},
	{
	"epoch": 0.8067226890756303,
	"grad_norm": 1.2415343975219086,
	"learning_rate": 9.175642145782179e-06,
	"loss": 0.7898,
	"step": 160
	},
	{
	"epoch": 0.8117647058823529,
	"grad_norm": 1.2532359973917484,
	"learning_rate": 9.159389745423003e-06,
	"loss": 0.8372,
	"step": 161
	},
	{
	"epoch": 0.8168067226890756,
	"grad_norm": 1.2390725118364732,
	"learning_rate": 9.142993383818284e-06,
	"loss": 0.8383,
	"step": 162
	},
	{
	"epoch": 0.8218487394957983,
	"grad_norm": 1.3766117307822159,
	"learning_rate": 9.126453628464889e-06,
	"loss": 0.8151,
	"step": 163
	},
	{
	"epoch": 0.826890756302521,
	"grad_norm": 1.3256804846243377,
	"learning_rate": 9.109771051822702e-06,
	"loss": 0.8444,
	"step": 164
	},
	{
	"epoch": 0.8319327731092437,
	"grad_norm": 1.3520618668694473,
	"learning_rate": 9.09294623129482e-06,
	"loss": 0.8672,
	"step": 165
	},
	{
	"epoch": 0.8369747899159664,
	"grad_norm": 1.329653882039925,
	"learning_rate": 9.07597974920756e-06,
	"loss": 0.8168,
	"step": 166
	},
	{
	"epoch": 0.8420168067226891,
	"grad_norm": 1.3543281390803807,
	"learning_rate": 9.058872192790314e-06,
	"loss": 0.9118,
	"step": 167
	},
	{
	"epoch": 0.8470588235294118,
	"grad_norm": 1.3456977881970305,
	"learning_rate": 9.041624154155208e-06,
	"loss": 0.8515,
	"step": 168
	},
	{
	"epoch": 0.8521008403361344,
	"grad_norm": 1.297767613562501,
	"learning_rate": 9.02423623027663e-06,
	"loss": 0.7417,
	"step": 169
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 1.2894576740180352,
	"learning_rate": 9.006709022970547e-06,
	"loss": 0.8408,
	"step": 170
	},
	{
	"epoch": 0.8621848739495799,
	"grad_norm": 1.2240598626483896,
	"learning_rate": 8.98904313887369e-06,
	"loss": 0.7358,
	"step": 171
	},
	{
	"epoch": 0.8672268907563025,
	"grad_norm": 1.1890744366393113,
	"learning_rate": 8.971239189422555e-06,
	"loss": 0.8322,
	"step": 172
	},
	{
	"epoch": 0.8722689075630252,
	"grad_norm": 1.3386067991043302,
	"learning_rate": 8.953297790832231e-06,
	"loss": 0.8411,
	"step": 173
	},
	{
	"epoch": 0.8773109243697479,
	"grad_norm": 1.408000314117784,
	"learning_rate": 8.935219564075087e-06,
	"loss": 0.8036,
	"step": 174
	},
	{
	"epoch": 0.8823529411764706,
	"grad_norm": 1.3426412490545896,
	"learning_rate": 8.917005134859263e-06,
	"loss": 0.8035,
	"step": 175
	},
	{
	"epoch": 0.8873949579831932,
	"grad_norm": 1.4645291848377162,
	"learning_rate": 8.89865513360703e-06,
	"loss": 0.8392,
	"step": 176
	},
	{
	"epoch": 0.892436974789916,
	"grad_norm": 1.2117719390717796,
	"learning_rate": 8.88017019543296e-06,
	"loss": 0.8328,
	"step": 177
	},
	{
	"epoch": 0.8974789915966387,
	"grad_norm": 1.3344830085574295,
	"learning_rate": 8.861550960121946e-06,
	"loss": 0.8543,
	"step": 178
	},
	{
	"epoch": 0.9025210084033614,
	"grad_norm": 1.4853304361578643,
	"learning_rate": 8.842798072107055e-06,
	"loss": 0.8512,
	"step": 179
	},
	{
	"epoch": 0.907563025210084,
	"grad_norm": 1.2284352653979531,
	"learning_rate": 8.823912180447237e-06,
	"loss": 0.8598,
	"step": 180
	},
	{
	"epoch": 0.9126050420168067,
	"grad_norm": 1.37221802812512,
	"learning_rate": 8.804893938804839e-06,
	"loss": 0.8613,
	"step": 181
	},
	{
	"epoch": 0.9176470588235294,
	"grad_norm": 1.4397712752139291,
	"learning_rate": 8.785744005423003e-06,
	"loss": 0.8192,
	"step": 182
	},
	{
	"epoch": 0.9226890756302522,
	"grad_norm": 1.4307484306743805,
	"learning_rate": 8.766463043102864e-06,
	"loss": 0.8114,
	"step": 183
	},
	{
	"epoch": 0.9277310924369748,
	"grad_norm": 1.4036453214728524,
	"learning_rate": 8.747051719180626e-06,
	"loss": 0.8922,
	"step": 184
	},
	{
	"epoch": 0.9327731092436975,
	"grad_norm": 1.4752551479904314,
	"learning_rate": 8.727510705504453e-06,
	"loss": 0.8932,
	"step": 185
	},
	{
	"epoch": 0.9378151260504202,
	"grad_norm": 1.322337640774981,
	"learning_rate": 8.707840678411223e-06,
	"loss": 0.7998,
	"step": 186
	},
	{
	"epoch": 0.9428571428571428,
	"grad_norm": 1.2136277321616975,
	"learning_rate": 8.688042318703111e-06,
	"loss": 0.7416,
	"step": 187
	},
	{
	"epoch": 0.9478991596638655,
	"grad_norm": 1.342849040104635,
	"learning_rate": 8.66811631162404e-06,
	"loss": 0.8685,
	"step": 188
	},
	{
	"epoch": 0.9529411764705882,
	"grad_norm": 1.5250386207067939,
	"learning_rate": 8.648063346835943e-06,
	"loss": 0.8485,
	"step": 189
	},
	{
	"epoch": 0.957983193277311,
	"grad_norm": 1.3173191874193797,
	"learning_rate": 8.627884118394913e-06,
	"loss": 0.8286,
	"step": 190
	},
	{
	"epoch": 0.9630252100840336,
	"grad_norm": 1.32796081599915,
	"learning_rate": 8.607579324727175e-06,
	"loss": 0.8544,
	"step": 191
	},
	{
	"epoch": 0.9680672268907563,
	"grad_norm": 1.350363153783161,
	"learning_rate": 8.5871496686049e-06,
	"loss": 0.8102,
	"step": 192
	},
	{
	"epoch": 0.973109243697479,
	"grad_norm": 1.3655669107662696,
	"learning_rate": 8.566595857121902e-06,
	"loss": 0.8122,
	"step": 193
	},
	{
	"epoch": 0.9781512605042016,
	"grad_norm": 1.3452211499259599,
	"learning_rate": 8.545918601669147e-06,
	"loss": 0.8834,
	"step": 194
	},
	{
	"epoch": 0.9831932773109243,
	"grad_norm": 1.3376410418915317,
	"learning_rate": 8.525118617910144e-06,
	"loss": 0.8148,
	"step": 195
	},
	{
	"epoch": 0.9882352941176471,
	"grad_norm": 1.2489273918302621,
	"learning_rate": 8.504196625756166e-06,
	"loss": 0.8271,
	"step": 196
	},
	{
	"epoch": 0.9932773109243698,
	"grad_norm": 1.4139088289405872,
	"learning_rate": 8.483153349341336e-06,
	"loss": 0.845,
	"step": 197
	},
	{
	"epoch": 0.9983193277310924,
	"grad_norm": 1.384588034693747,
	"learning_rate": 8.461989516997565e-06,
	"loss": 0.8312,
	"step": 198
	},
	{
	"epoch": 1.0050420168067227,
	"grad_norm": 2.499955060770187,
	"learning_rate": 8.440705861229344e-06,
	"loss": 1.4381,
	"step": 199
	},
	{
	"epoch": 1.0100840336134453,
	"grad_norm": 1.413536932523174,
	"learning_rate": 8.41930311868839e-06,
	"loss": 0.713,
	"step": 200
	},
	{
	"epoch": 1.015126050420168,
	"grad_norm": 1.3570359586304308,
	"learning_rate": 8.397782030148147e-06,
	"loss": 0.716,
	"step": 201
	},
	{
	"epoch": 1.0201680672268907,
	"grad_norm": 1.187974845871534,
	"learning_rate": 8.376143340478153e-06,
	"loss": 0.6197,
	"step": 202
	},
	{
	"epoch": 1.0252100840336134,
	"grad_norm": 1.1805636492053666,
	"learning_rate": 8.354387798618254e-06,
	"loss": 0.6082,
	"step": 203
	},
	{
	"epoch": 1.030252100840336,
	"grad_norm": 1.3319326327566277,
	"learning_rate": 8.332516157552684e-06,
	"loss": 0.6667,
	"step": 204
	},
	{
	"epoch": 1.035294117647059,
	"grad_norm": 1.3080442340316867,
	"learning_rate": 8.310529174284004e-06,
	"loss": 0.6438,
	"step": 205
	},
	{
	"epoch": 1.0403361344537816,
	"grad_norm": 1.360919752940988,
	"learning_rate": 8.288427609806899e-06,
	"loss": 0.6931,
	"step": 206
	},
	{
	"epoch": 1.0453781512605043,
	"grad_norm": 1.2928882019326107,
	"learning_rate": 8.266212229081846e-06,
	"loss": 0.6571,
	"step": 207
	},
	{
	"epoch": 1.050420168067227,
	"grad_norm": 1.279346131512037,
	"learning_rate": 8.243883801008632e-06,
	"loss": 0.6105,
	"step": 208
	},
	{
	"epoch": 1.0554621848739496,
	"grad_norm": 1.3976246828088796,
	"learning_rate": 8.221443098399733e-06,
	"loss": 0.633,
	"step": 209
	},
	{
	"epoch": 1.0605042016806723,
	"grad_norm": 1.4051676037106482,
	"learning_rate": 8.198890897953586e-06,
	"loss": 0.631,
	"step": 210
	},
	{
	"epoch": 1.065546218487395,
	"grad_norm": 1.4026478680925658,
	"learning_rate": 8.176227980227693e-06,
	"loss": 0.646,
	"step": 211
	},
	{
	"epoch": 1.0705882352941176,
	"grad_norm": 1.4783461586544826,
	"learning_rate": 8.153455129611605e-06,
	"loss": 0.6341,
	"step": 212
	},
	{
	"epoch": 1.0756302521008403,
	"grad_norm": 1.2992917788523406,
	"learning_rate": 8.130573134299782e-06,
	"loss": 0.7027,
	"step": 213
	},
	{
	"epoch": 1.080672268907563,
	"grad_norm": 1.4403523864907255,
	"learning_rate": 8.107582786264299e-06,
	"loss": 0.6745,
	"step": 214
	},
	{
	"epoch": 1.0857142857142856,
	"grad_norm": 1.2904789259135272,
	"learning_rate": 8.084484881227449e-06,
	"loss": 0.6278,
	"step": 215
	},
	{
	"epoch": 1.0907563025210083,
	"grad_norm": 1.3928383691850674,
	"learning_rate": 8.061280218634192e-06,
	"loss": 0.665,
	"step": 216
	},
	{
	"epoch": 1.0957983193277312,
	"grad_norm": 1.3355440702392616,
	"learning_rate": 8.037969601624495e-06,
	"loss": 0.6095,
	"step": 217
	},
	{
	"epoch": 1.1008403361344539,
	"grad_norm": 1.3135802297885384,
	"learning_rate": 8.014553837005527e-06,
	"loss": 0.7134,
	"step": 218
	},
	{
	"epoch": 1.1058823529411765,
	"grad_norm": 1.3334358438044307,
	"learning_rate": 7.99103373522373e-06,
	"loss": 0.6149,
	"step": 219
	},
	{
	"epoch": 1.1109243697478992,
	"grad_norm": 1.3855125872698653,
	"learning_rate": 7.967410110336782e-06,
	"loss": 0.6709,
	"step": 220
	},
	{
	"epoch": 1.1159663865546219,
	"grad_norm": 1.4082439279428,
	"learning_rate": 7.943683779985412e-06,
	"loss": 0.6665,
	"step": 221
	},
	{
	"epoch": 1.1210084033613446,
	"grad_norm": 1.3849413150174785,
	"learning_rate": 7.919855565365102e-06,
	"loss": 0.6698,
	"step": 222
	},
	{
	"epoch": 1.1260504201680672,
	"grad_norm": 1.3025006342892487,
	"learning_rate": 7.895926291197667e-06,
	"loss": 0.6726,
	"step": 223
	},
	{
	"epoch": 1.13109243697479,
	"grad_norm": 1.3438499346918609,
	"learning_rate": 7.871896785702707e-06,
	"loss": 0.6361,
	"step": 224
	},
	{
	"epoch": 1.1361344537815126,
	"grad_norm": 1.252763414951386,
	"learning_rate": 7.847767880568944e-06,
	"loss": 0.6534,
	"step": 225
	},
	{
	"epoch": 1.1411764705882352,
	"grad_norm": 1.4594024040073388,
	"learning_rate": 7.823540410925434e-06,
	"loss": 0.7176,
	"step": 226
	},
	{
	"epoch": 1.146218487394958,
	"grad_norm": 1.3020082357416656,
	"learning_rate": 7.799215215312667e-06,
	"loss": 0.6117,
	"step": 227
	},
	{
	"epoch": 1.1512605042016806,
	"grad_norm": 1.3344891922181583,
	"learning_rate": 7.774793135653537e-06,
	"loss": 0.6502,
	"step": 228
	},
	{
	"epoch": 1.1563025210084033,
	"grad_norm": 1.1931020476239522,
	"learning_rate": 7.750275017224208e-06,
	"loss": 0.5864,
	"step": 229
	},
	{
	"epoch": 1.1613445378151261,
	"grad_norm": 1.3817137725123274,
	"learning_rate": 7.725661708624855e-06,
	"loss": 0.6845,
	"step": 230
	},
	{
	"epoch": 1.1663865546218488,
	"grad_norm": 1.3718851116188664,
	"learning_rate": 7.700954061750295e-06,
	"loss": 0.6666,
	"step": 231
	},
	{
	"epoch": 1.1714285714285715,
	"grad_norm": 1.3538961263237106,
	"learning_rate": 7.676152931760496e-06,
	"loss": 0.6815,
	"step": 232
	},
	{
	"epoch": 1.1764705882352942,
	"grad_norm": 1.3576998269549865,
	"learning_rate": 7.651259177050996e-06,
	"loss": 0.6169,
	"step": 233
	},
	{
	"epoch": 1.1815126050420168,
	"grad_norm": 1.3317040137841496,
	"learning_rate": 7.626273659223166e-06,
	"loss": 0.8546,
	"step": 234
	},
	{
	"epoch": 1.1865546218487395,
	"grad_norm": 1.368524911957153,
	"learning_rate": 7.601197243054411e-06,
	"loss": 0.6168,
	"step": 235
	},
	{
	"epoch": 1.1915966386554622,
	"grad_norm": 1.3058914037226665,
	"learning_rate": 7.576030796468233e-06,
	"loss": 0.7452,
	"step": 236
	},
	{
	"epoch": 1.1966386554621848,
	"grad_norm": 1.5392470830352827,
	"learning_rate": 7.5507751905041885e-06,
	"loss": 0.6195,
	"step": 237
	},
	{
	"epoch": 1.2016806722689075,
	"grad_norm": 1.4102673119306182,
	"learning_rate": 7.525431299287737e-06,
	"loss": 0.6523,
	"step": 238
	},
	{
	"epoch": 1.2067226890756302,
	"grad_norm": 1.4511322902886419,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.6862,
	"step": 239
	},
	{
	"epoch": 1.2117647058823529,
	"grad_norm": 1.2661930310847365,
	"learning_rate": 7.474482172847391e-06,
	"loss": 0.6528,
	"step": 240
	},
	{
	"epoch": 1.2168067226890757,
	"grad_norm": 1.3307860380456358,
	"learning_rate": 7.4488787010311425e-06,
	"loss": 0.6602,
	"step": 241
	},
	{
	"epoch": 1.2218487394957984,
	"grad_norm": 1.3750585055686875,
	"learning_rate": 7.423190470716761e-06,
	"loss": 0.6432,
	"step": 242
	},
	{
	"epoch": 1.226890756302521,
	"grad_norm": 1.2979245099980825,
	"learning_rate": 7.3974183710033334e-06,
	"loss": 0.6288,
	"step": 243
	},
	{
	"epoch": 1.2319327731092438,
	"grad_norm": 1.2999814021886877,
	"learning_rate": 7.371563293892761e-06,
	"loss": 0.6119,
	"step": 244
	},
	{
	"epoch": 1.2369747899159664,
	"grad_norm": 1.2917976929827104,
	"learning_rate": 7.345626134258897e-06,
	"loss": 0.6657,
	"step": 245
	},
	{
	"epoch": 1.242016806722689,
	"grad_norm": 1.4010288472470998,
	"learning_rate": 7.319607789816555e-06,
	"loss": 0.6586,
	"step": 246
	},
	{
	"epoch": 1.2470588235294118,
	"grad_norm": 1.4146400942510136,
	"learning_rate": 7.293509161090453e-06,
	"loss": 0.6595,
	"step": 247
	},
	{
	"epoch": 1.2521008403361344,
	"grad_norm": 1.2728109027093242,
	"learning_rate": 7.2673311513840395e-06,
	"loss": 0.6353,
	"step": 248
	},
	{
	"epoch": 1.2571428571428571,
	"grad_norm": 1.3471043709018875,
	"learning_rate": 7.241074666748228e-06,
	"loss": 0.6713,
	"step": 249
	},
	{
	"epoch": 1.2621848739495798,
	"grad_norm": 1.353231427350053,
	"learning_rate": 7.214740615950041e-06,
	"loss": 0.6102,
	"step": 250
	},
	{
	"epoch": 1.2672268907563025,
	"grad_norm": 1.337514944324046,
	"learning_rate": 7.188329910441154e-06,
	"loss": 0.6282,
	"step": 251
	},
	{
	"epoch": 1.2722689075630251,
	"grad_norm": 1.362404295247445,
	"learning_rate": 7.161843464326349e-06,
	"loss": 0.6072,
	"step": 252
	},
	{
	"epoch": 1.2773109243697478,
	"grad_norm": 1.1818447088372563,
	"learning_rate": 7.135282194331881e-06,
	"loss": 0.6057,
	"step": 253
	},
	{
	"epoch": 1.2823529411764705,
	"grad_norm": 1.4982822435126113,
	"learning_rate": 7.1086470197737405e-06,
	"loss": 0.6803,
	"step": 254
	},
	{
	"epoch": 1.2873949579831931,
	"grad_norm": 1.4344811997979932,
	"learning_rate": 7.0819388625258385e-06,
	"loss": 0.8567,
	"step": 255
	},
	{
	"epoch": 1.292436974789916,
	"grad_norm": 1.3859091438882214,
	"learning_rate": 7.05515864698811e-06,
	"loss": 0.7355,
	"step": 256
	},
	{
	"epoch": 1.2974789915966387,
	"grad_norm": 1.1626254136263392,
	"learning_rate": 7.028307300054499e-06,
	"loss": 0.5839,
	"step": 257
	},
	{
	"epoch": 1.3025210084033614,
	"grad_norm": 1.3552944579781003,
	"learning_rate": 7.0013857510808934e-06,
	"loss": 0.6836,
	"step": 258
	},
	{
	"epoch": 1.307563025210084,
	"grad_norm": 1.3028817545835125,
	"learning_rate": 6.974394931852957e-06,
	"loss": 0.6284,
	"step": 259
	},
	{
	"epoch": 1.3126050420168067,
	"grad_norm": 1.5434124541373508,
	"learning_rate": 6.94733577655387e-06,
	"loss": 0.7012,
	"step": 260
	},
	{
	"epoch": 1.3176470588235294,
	"grad_norm": 1.303474015679206,
	"learning_rate": 6.920209221732007e-06,
	"loss": 0.5703,
	"step": 261
	},
	{
	"epoch": 1.322689075630252,
	"grad_norm": 1.3348450903633984,
	"learning_rate": 6.893016206268518e-06,
	"loss": 0.5917,
	"step": 262
	},
	{
	"epoch": 1.3277310924369747,
	"grad_norm": 1.3433706513738732,
	"learning_rate": 6.865757671344827e-06,
	"loss": 0.6672,
	"step": 263
	},
	{
	"epoch": 1.3327731092436974,
	"grad_norm": 1.2935787672149481,
	"learning_rate": 6.838434560410064e-06,
	"loss": 0.6701,
	"step": 264
	},
	{
	"epoch": 1.3378151260504203,
	"grad_norm": 1.3458569492608534,
	"learning_rate": 6.811047819148413e-06,
	"loss": 0.6647,
	"step": 265
	},
	{
	"epoch": 1.342857142857143,
	"grad_norm": 1.3814097147596185,
	"learning_rate": 6.783598395446371e-06,
	"loss": 0.6866,
	"step": 266
	},
	{
	"epoch": 1.3478991596638656,
	"grad_norm": 1.384769236934002,
	"learning_rate": 6.756087239359948e-06,
	"loss": 0.6058,
	"step": 267
	},
	{
	"epoch": 1.3529411764705883,
	"grad_norm": 1.4299755108319103,
	"learning_rate": 6.728515303081782e-06,
	"loss": 0.6608,
	"step": 268
	},
	{
	"epoch": 1.357983193277311,
	"grad_norm": 1.6844501725850975,
	"learning_rate": 6.700883540908185e-06,
	"loss": 0.6902,
	"step": 269
	},
	{
	"epoch": 1.3630252100840337,
	"grad_norm": 1.490837215727114,
	"learning_rate": 6.673192909206109e-06,
	"loss": 0.6622,
	"step": 270
	},
	{
	"epoch": 1.3680672268907563,
	"grad_norm": 1.5025542365103597,
	"learning_rate": 6.64544436638005e-06,
	"loss": 0.7318,
	"step": 271
	},
	{
	"epoch": 1.373109243697479,
	"grad_norm": 1.368007843570876,
	"learning_rate": 6.617638872838874e-06,
	"loss": 0.6616,
	"step": 272
	},
	{
	"epoch": 1.3781512605042017,
	"grad_norm": 1.3302784390410516,
	"learning_rate": 6.589777390962575e-06,
	"loss": 0.5837,
	"step": 273
	},
	{
	"epoch": 1.3831932773109243,
	"grad_norm": 1.3818583989196362,
	"learning_rate": 6.561860885068972e-06,
	"loss": 0.7319,
	"step": 274
	},
	{
	"epoch": 1.388235294117647,
	"grad_norm": 1.3678970576063487,
	"learning_rate": 6.53389032138032e-06,
	"loss": 0.6479,
	"step": 275
	},
	{
	"epoch": 1.3932773109243697,
	"grad_norm": 1.3918528373329961,
	"learning_rate": 6.505866667989884e-06,
	"loss": 0.6657,
	"step": 276
	},
	{
	"epoch": 1.3983193277310924,
	"grad_norm": 1.3578596611461975,
	"learning_rate": 6.477790894828422e-06,
	"loss": 0.6227,
	"step": 277
	},
	{
	"epoch": 1.403361344537815,
	"grad_norm": 1.37442116613121,
	"learning_rate": 6.449663973630613e-06,
	"loss": 0.668,
	"step": 278
	},
	{
	"epoch": 1.4084033613445377,
	"grad_norm": 1.251535744853749,
	"learning_rate": 6.421486877901436e-06,
	"loss": 0.6394,
	"step": 279
	},
	{
	"epoch": 1.4134453781512604,
	"grad_norm": 1.3817098557899696,
	"learning_rate": 6.393260582882462e-06,
	"loss": 0.7289,
	"step": 280
	},
	{
	"epoch": 1.4184873949579833,
	"grad_norm": 1.3924770743130575,
	"learning_rate": 6.364986065518106e-06,
	"loss": 0.6632,
	"step": 281
	},
	{
	"epoch": 1.423529411764706,
	"grad_norm": 1.3388647960669742,
	"learning_rate": 6.336664304421818e-06,
	"loss": 0.6445,
	"step": 282
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 1.3627824010774807,
	"learning_rate": 6.308296279842204e-06,
	"loss": 0.6785,
	"step": 283
	},
	{
	"epoch": 1.4336134453781513,
	"grad_norm": 1.2353887841733255,
	"learning_rate": 6.279882973629101e-06,
	"loss": 0.5987,
	"step": 284
	},
	{
	"epoch": 1.438655462184874,
	"grad_norm": 1.2803646798399686,
	"learning_rate": 6.2514253691996e-06,
	"loss": 0.6593,
	"step": 285
	},
	{
	"epoch": 1.4436974789915966,
	"grad_norm": 1.3106097252223476,
	"learning_rate": 6.222924451504001e-06,
	"loss": 0.6612,
	"step": 286
	},
	{
	"epoch": 1.4487394957983193,
	"grad_norm": 1.491149138722541,
	"learning_rate": 6.194381206991723e-06,
	"loss": 0.6603,
	"step": 287
	},
	{
	"epoch": 1.453781512605042,
	"grad_norm": 1.4729722170121724,
	"learning_rate": 6.165796623577171e-06,
	"loss": 0.6458,
	"step": 288
	},
	{
	"epoch": 1.4588235294117646,
	"grad_norm": 1.2583772868484708,
	"learning_rate": 6.1371716906055336e-06,
	"loss": 0.6571,
	"step": 289
	},
	{
	"epoch": 1.4638655462184875,
	"grad_norm": 1.6484902113991295,
	"learning_rate": 6.10850739881854e-06,
	"loss": 0.8048,
	"step": 290
	},
	{
	"epoch": 1.4689075630252102,
	"grad_norm": 1.1293948636395863,
	"learning_rate": 6.079804740320181e-06,
	"loss": 0.631,
	"step": 291
	},
	{
	"epoch": 1.4739495798319329,
	"grad_norm": 1.357543211738453,
	"learning_rate": 6.051064708542357e-06,
	"loss": 0.6834,
	"step": 292
	},
	{
	"epoch": 1.4789915966386555,
	"grad_norm": 1.422094283192291,
	"learning_rate": 6.022288298210502e-06,
	"loss": 0.7688,
	"step": 293
	},
	{
	"epoch": 1.4840336134453782,
	"grad_norm": 1.3320687626409005,
	"learning_rate": 5.993476505309154e-06,
	"loss": 0.6438,
	"step": 294
	},
	{
	"epoch": 1.4890756302521009,
	"grad_norm": 1.479155880731166,
	"learning_rate": 5.964630327047485e-06,
	"loss": 0.6983,
	"step": 295
	},
	{
	"epoch": 1.4941176470588236,
	"grad_norm": 1.4751670026359378,
	"learning_rate": 5.935750761824777e-06,
	"loss": 0.6784,
	"step": 296
	},
	{
	"epoch": 1.4991596638655462,
	"grad_norm": 1.3971166152312533,
	"learning_rate": 5.906838809195879e-06,
	"loss": 0.7934,
	"step": 297
	},
	{
	"epoch": 1.504201680672269,
	"grad_norm": 1.486282793941636,
	"learning_rate": 5.877895469836604e-06,
	"loss": 0.7149,
	"step": 298
	},
	{
	"epoch": 1.5092436974789916,
	"grad_norm": 1.3831360984251488,
	"learning_rate": 5.848921745509094e-06,
	"loss": 0.6853,
	"step": 299
	},
	{
	"epoch": 1.5142857142857142,
	"grad_norm": 1.373255418518971,
	"learning_rate": 5.819918639027149e-06,
	"loss": 0.6262,
	"step": 300
	},
	{
	"epoch": 1.519327731092437,
	"grad_norm": 1.398139776725886,
	"learning_rate": 5.790887154221521e-06,
	"loss": 0.6682,
	"step": 301
	},
	{
	"epoch": 1.5243697478991596,
	"grad_norm": 1.459786025141565,
	"learning_rate": 5.7618282959051685e-06,
	"loss": 0.6596,
	"step": 302
	},
	{
	"epoch": 1.5294117647058822,
	"grad_norm": 1.386843554966046,
	"learning_rate": 5.7327430698384775e-06,
	"loss": 0.662,
	"step": 303
	},
	{
	"epoch": 1.534453781512605,
	"grad_norm": 1.334093052658649,
	"learning_rate": 5.703632482694453e-06,
	"loss": 0.5642,
	"step": 304
	},
	{
	"epoch": 1.5394957983193276,
	"grad_norm": 1.394936799748242,
	"learning_rate": 5.674497542023875e-06,
	"loss": 0.6785,
	"step": 305
	},
	{
	"epoch": 1.5445378151260503,
	"grad_norm": 1.2487045092120568,
	"learning_rate": 5.645339256220427e-06,
	"loss": 0.6405,
	"step": 306
	},
	{
	"epoch": 1.5495798319327732,
	"grad_norm": 1.449626002944486,
	"learning_rate": 5.616158634485793e-06,
	"loss": 0.7186,
	"step": 307
	},
	{
	"epoch": 1.5546218487394958,
	"grad_norm": 1.3148115913009149,
	"learning_rate": 5.5869566867947344e-06,
	"loss": 0.6689,
	"step": 308
	},
	{
	"epoch": 1.5596638655462185,
	"grad_norm": 1.3031066852612374,
	"learning_rate": 5.557734423860122e-06,
	"loss": 0.6865,
	"step": 309
	},
	{
	"epoch": 1.5647058823529412,
	"grad_norm": 1.4070190634154978,
	"learning_rate": 5.528492857097966e-06,
	"loss": 0.692,
	"step": 310
	},
	{
	"epoch": 1.5697478991596638,
	"grad_norm": 1.424416347019562,
	"learning_rate": 5.499232998592399e-06,
	"loss": 0.6712,
	"step": 311
	},
	{
	"epoch": 1.5747899159663865,
	"grad_norm": 1.4045930546601455,
	"learning_rate": 5.469955861060653e-06,
	"loss": 0.692,
	"step": 312
	},
	{
	"epoch": 1.5798319327731094,
	"grad_norm": 1.4633924161825607,
	"learning_rate": 5.44066245781801e-06,
	"loss": 0.6972,
	"step": 313
	},
	{
	"epoch": 1.584873949579832,
	"grad_norm": 1.3419059215183884,
	"learning_rate": 5.4113538027427245e-06,
	"loss": 0.5832,
	"step": 314
	},
	{
	"epoch": 1.5899159663865547,
	"grad_norm": 1.4651690425379238,
	"learning_rate": 5.382030910240936e-06,
	"loss": 0.7263,
	"step": 315
	},
	{
	"epoch": 1.5949579831932774,
	"grad_norm": 1.3544416080791692,
	"learning_rate": 5.352694795211555e-06,
	"loss": 0.6693,
	"step": 316
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.3796831843734638,
	"learning_rate": 5.3233464730111426e-06,
	"loss": 0.6843,
	"step": 317
	},
	{
	"epoch": 1.6050420168067228,
	"grad_norm": 1.3756368583869594,
	"learning_rate": 5.29398695941876e-06,
	"loss": 0.6956,
	"step": 318
	},
	{
	"epoch": 1.6100840336134454,
	"grad_norm": 1.354906917799083,
	"learning_rate": 5.2646172706008154e-06,
	"loss": 0.5865,
	"step": 319
	},
	{
	"epoch": 1.615126050420168,
	"grad_norm": 1.283604806155226,
	"learning_rate": 5.235238423075899e-06,
	"loss": 0.6476,
	"step": 320
	},
	{
	"epoch": 1.6201680672268908,
	"grad_norm": 1.3323430668544856,
	"learning_rate": 5.20585143367959e-06,
	"loss": 0.5978,
	"step": 321
	},
	{
	"epoch": 1.6252100840336134,
	"grad_norm": 1.4432636768429228,
	"learning_rate": 5.176457319529264e-06,
	"loss": 0.7229,
	"step": 322
	},
	{
	"epoch": 1.6302521008403361,
	"grad_norm": 1.3389659599587687,
	"learning_rate": 5.147057097988898e-06,
	"loss": 0.7036,
	"step": 323
	},
	{
	"epoch": 1.6352941176470588,
	"grad_norm": 1.40224689957347,
	"learning_rate": 5.1176517866338495e-06,
	"loss": 0.6524,
	"step": 324
	},
	{
	"epoch": 1.6403361344537815,
	"grad_norm": 1.448948508673923,
	"learning_rate": 5.088242403215644e-06,
	"loss": 0.6574,
	"step": 325
	},
	{
	"epoch": 1.6453781512605041,
	"grad_norm": 1.4336192786572701,
	"learning_rate": 5.058829965626742e-06,
	"loss": 0.6649,
	"step": 326
	},
	{
	"epoch": 1.6504201680672268,
	"grad_norm": 1.1551398885920936,
	"learning_rate": 5.029415491865311e-06,
	"loss": 0.6607,
	"step": 327
	},
	{
	"epoch": 1.6554621848739495,
	"grad_norm": 1.4081755117550179,
	"learning_rate": 5e-06,
	"loss": 0.6308,
	"step": 328
	},
	{
	"epoch": 1.6605042016806721,
	"grad_norm": 1.2962293823552042,
	"learning_rate": 4.97058450813469e-06,
	"loss": 0.6315,
	"step": 329
	},
	{
	"epoch": 1.6655462184873948,
	"grad_norm": 1.2609233329938516,
	"learning_rate": 4.94117003437326e-06,
	"loss": 0.6453,
	"step": 330
	},
	{
	"epoch": 1.6705882352941175,
	"grad_norm": 1.4395586718171531,
	"learning_rate": 4.911757596784358e-06,
	"loss": 0.7056,
	"step": 331
	},
	{
	"epoch": 1.6756302521008404,
	"grad_norm": 1.490647265803814,
	"learning_rate": 4.882348213366152e-06,
	"loss": 0.7463,
	"step": 332
	},
	{
	"epoch": 1.680672268907563,
	"grad_norm": 1.4744084173114673,
	"learning_rate": 4.8529429020111035e-06,
	"loss": 0.6518,
	"step": 333
	},
	{
	"epoch": 1.6857142857142857,
	"grad_norm": 1.3256051086606053,
	"learning_rate": 4.823542680470738e-06,
	"loss": 0.6322,
	"step": 334
	},
	{
	"epoch": 1.6907563025210084,
	"grad_norm": 1.4043201154667322,
	"learning_rate": 4.794148566320412e-06,
	"loss": 0.6623,
	"step": 335
	},
	{
	"epoch": 1.695798319327731,
	"grad_norm": 1.3058283187944708,
	"learning_rate": 4.7647615769241e-06,
	"loss": 0.7233,
	"step": 336
	},
	{
	"epoch": 1.7008403361344537,
	"grad_norm": 1.3709304051984876,
	"learning_rate": 4.7353827293991845e-06,
	"loss": 0.7237,
	"step": 337
	},
	{
	"epoch": 1.7058823529411766,
	"grad_norm": 1.3476441152074792,
	"learning_rate": 4.706013040581242e-06,
	"loss": 0.6408,
	"step": 338
	},
	{
	"epoch": 1.7109243697478993,
	"grad_norm": 1.4435937624188804,
	"learning_rate": 4.676653526988858e-06,
	"loss": 0.6647,
	"step": 339
	},
	{
	"epoch": 1.715966386554622,
	"grad_norm": 1.3226553142476545,
	"learning_rate": 4.647305204788445e-06,
	"loss": 0.6489,
	"step": 340
	},
	{
	"epoch": 1.7210084033613446,
	"grad_norm": 1.3388051536697478,
	"learning_rate": 4.617969089759066e-06,
	"loss": 0.6414,
	"step": 341
	},
	{
	"epoch": 1.7260504201680673,
	"grad_norm": 1.369018029455846,
	"learning_rate": 4.588646197257278e-06,
	"loss": 0.6535,
	"step": 342
	},
	{
	"epoch": 1.73109243697479,
	"grad_norm": 1.4137443784434733,
	"learning_rate": 4.559337542181993e-06,
	"loss": 0.6446,
	"step": 343
	},
	{
	"epoch": 1.7361344537815127,
	"grad_norm": 1.3718987426836817,
	"learning_rate": 4.53004413893935e-06,
	"loss": 0.6477,
	"step": 344
	},
	{
	"epoch": 1.7411764705882353,
	"grad_norm": 1.262236928246166,
	"learning_rate": 4.500767001407604e-06,
	"loss": 0.6059,
	"step": 345
	},
	{
	"epoch": 1.746218487394958,
	"grad_norm": 1.3613528737566392,
	"learning_rate": 4.471507142902036e-06,
	"loss": 0.6545,
	"step": 346
	},
	{
	"epoch": 1.7512605042016807,
	"grad_norm": 1.303211681985445,
	"learning_rate": 4.4422655761398785e-06,
	"loss": 0.633,
	"step": 347
	},
	{
	"epoch": 1.7563025210084033,
	"grad_norm": 1.3262900181605304,
	"learning_rate": 4.413043313205266e-06,
	"loss": 0.6873,
	"step": 348
	},
	{
	"epoch": 1.761344537815126,
	"grad_norm": 1.5014706286550592,
	"learning_rate": 4.383841365514208e-06,
	"loss": 0.6715,
	"step": 349
	},
	{
	"epoch": 1.7663865546218487,
	"grad_norm": 1.3748458240376293,
	"learning_rate": 4.354660743779575e-06,
	"loss": 0.6322,
	"step": 350
	},
	{
	"epoch": 1.7714285714285714,
	"grad_norm": 1.3200606309946945,
	"learning_rate": 4.325502457976126e-06,
	"loss": 0.6468,
	"step": 351
	},
	{
	"epoch": 1.776470588235294,
	"grad_norm": 1.4363798100469027,
	"learning_rate": 4.296367517305548e-06,
	"loss": 0.6424,
	"step": 352
	},
	{
	"epoch": 1.7815126050420167,
	"grad_norm": 1.3665833844005753,
	"learning_rate": 4.267256930161523e-06,
	"loss": 0.6895,
	"step": 353
	},
	{
	"epoch": 1.7865546218487394,
	"grad_norm": 1.3126702843544444,
	"learning_rate": 4.238171704094833e-06,
	"loss": 0.6766,
	"step": 354
	},
	{
	"epoch": 1.791596638655462,
	"grad_norm": 1.3931998076257006,
	"learning_rate": 4.209112845778481e-06,
	"loss": 0.7165,
	"step": 355
	},
	{
	"epoch": 1.7966386554621847,
	"grad_norm": 1.4120182498478362,
	"learning_rate": 4.180081360972852e-06,
	"loss": 0.6909,
	"step": 356
	},
	{
	"epoch": 1.8016806722689076,
	"grad_norm": 1.3825157448385343,
	"learning_rate": 4.151078254490908e-06,
	"loss": 0.6634,
	"step": 357
	},
	{
	"epoch": 1.8067226890756303,
	"grad_norm": 1.2976324503271779,
	"learning_rate": 4.122104530163397e-06,
	"loss": 0.6482,
	"step": 358
	},
	{
	"epoch": 1.811764705882353,
	"grad_norm": 1.3371821093594873,
	"learning_rate": 4.09316119080412e-06,
	"loss": 0.5939,
	"step": 359
	},
	{
	"epoch": 1.8168067226890756,
	"grad_norm": 1.2815723486743216,
	"learning_rate": 4.064249238175223e-06,
	"loss": 0.5873,
	"step": 360
	},
	{
	"epoch": 1.8218487394957983,
	"grad_norm": 1.2598876616725718,
	"learning_rate": 4.035369672952516e-06,
	"loss": 0.6211,
	"step": 361
	},
	{
	"epoch": 1.826890756302521,
	"grad_norm": 1.3775558524100238,
	"learning_rate": 4.0065234946908456e-06,
	"loss": 0.6362,
	"step": 362
	},
	{
	"epoch": 1.8319327731092439,
	"grad_norm": 1.3605455122282684,
	"learning_rate": 3.977711701789499e-06,
	"loss": 0.6173,
	"step": 363
	},
	{
	"epoch": 1.8369747899159665,
	"grad_norm": 1.2800072707024852,
	"learning_rate": 3.948935291457645e-06,
	"loss": 0.6325,
	"step": 364
	},
	{
	"epoch": 1.8420168067226892,
	"grad_norm": 1.3258336050686086,
	"learning_rate": 3.920195259679822e-06,
	"loss": 0.653,
	"step": 365
	},
	{
	"epoch": 1.8470588235294119,
	"grad_norm": 1.3413446326047822,
	"learning_rate": 3.891492601181462e-06,
	"loss": 0.651,
	"step": 366
	},
	{
	"epoch": 1.8521008403361345,
	"grad_norm": 1.41115994835795,
	"learning_rate": 3.862828309394469e-06,
	"loss": 0.6292,
	"step": 367
	},
	{
	"epoch": 1.8571428571428572,
	"grad_norm": 1.3205359045412157,
	"learning_rate": 3.834203376422831e-06,
	"loss": 0.6064,
	"step": 368
	},
	{
	"epoch": 1.8621848739495799,
	"grad_norm": 1.271016774529,
	"learning_rate": 3.805618793008279e-06,
	"loss": 0.6503,
	"step": 369
	},
	{
	"epoch": 1.8672268907563025,
	"grad_norm": 1.38208148943542,
	"learning_rate": 3.777075548496001e-06,
	"loss": 0.673,
	"step": 370
	},
	{
	"epoch": 1.8722689075630252,
	"grad_norm": 1.4627608316199674,
	"learning_rate": 3.7485746308004013e-06,
	"loss": 0.6853,
	"step": 371
	},
	{
	"epoch": 1.877310924369748,
	"grad_norm": 1.2952312321525565,
	"learning_rate": 3.7201170263709004e-06,
	"loss": 0.6164,
	"step": 372
	},
	{
	"epoch": 1.8823529411764706,
	"grad_norm": 1.4840833764786416,
	"learning_rate": 3.6917037201577977e-06,
	"loss": 0.6935,
	"step": 373
	},
	{
	"epoch": 1.8873949579831932,
	"grad_norm": 1.371096887673559,
	"learning_rate": 3.6633356955781827e-06,
	"loss": 0.6571,
	"step": 374
	},
	{
	"epoch": 1.892436974789916,
	"grad_norm": 1.1787569156110669,
	"learning_rate": 3.635013934481895e-06,
	"loss": 0.5976,
	"step": 375
	},
	{
	"epoch": 1.8974789915966386,
	"grad_norm": 1.292415912438797,
	"learning_rate": 3.6067394171175397e-06,
	"loss": 0.662,
	"step": 376
	},
	{
	"epoch": 1.9025210084033612,
	"grad_norm": 1.4004270726912136,
	"learning_rate": 3.578513122098566e-06,
	"loss": 0.6902,
	"step": 377
	},
	{
	"epoch": 1.907563025210084,
	"grad_norm": 1.3676893820953542,
	"learning_rate": 3.5503360263693887e-06,
	"loss": 0.6736,
	"step": 378
	},
	{
	"epoch": 1.9126050420168066,
	"grad_norm": 1.5497019666472422,
	"learning_rate": 3.5222091051715803e-06,
	"loss": 0.6474,
	"step": 379
	},
	{
	"epoch": 1.9176470588235293,
	"grad_norm": 1.4107058784966016,
	"learning_rate": 3.4941333320101173e-06,
	"loss": 0.6214,
	"step": 380
	},
	{
	"epoch": 1.9226890756302522,
	"grad_norm": 1.3074693513299003,
	"learning_rate": 3.466109678619681e-06,
	"loss": 0.5863,
	"step": 381
	},
	{
	"epoch": 1.9277310924369748,
	"grad_norm": 1.2533065740051568,
	"learning_rate": 3.4381391149310294e-06,
	"loss": 0.6145,
	"step": 382
	},
	{
	"epoch": 1.9327731092436975,
	"grad_norm": 1.279932965905714,
	"learning_rate": 3.4102226090374246e-06,
	"loss": 0.6138,
	"step": 383
	},
	{
	"epoch": 1.9378151260504202,
	"grad_norm": 1.279194036152673,
	"learning_rate": 3.3823611271611266e-06,
	"loss": 0.6051,
	"step": 384
	},
	{
	"epoch": 1.9428571428571428,
	"grad_norm": 1.4523883672700335,
	"learning_rate": 3.35455563361995e-06,
	"loss": 0.6475,
	"step": 385
	},
	{
	"epoch": 1.9478991596638655,
	"grad_norm": 1.319917640705539,
	"learning_rate": 3.3268070907938915e-06,
	"loss": 0.575,
	"step": 386
	},
	{
	"epoch": 1.9529411764705882,
	"grad_norm": 1.356219744351625,
	"learning_rate": 3.2991164590918162e-06,
	"loss": 0.6707,
	"step": 387
	},
	{
	"epoch": 1.957983193277311,
	"grad_norm": 1.3980927144998019,
	"learning_rate": 3.271484696918218e-06,
	"loss": 0.62,
	"step": 388
	},
	{
	"epoch": 1.9630252100840337,
	"grad_norm": 1.3412194145756722,
	"learning_rate": 3.2439127606400546e-06,
	"loss": 0.6249,
	"step": 389
	},
	{
	"epoch": 1.9680672268907564,
	"grad_norm": 1.231905550971943,
	"learning_rate": 3.2164016045536306e-06,
	"loss": 0.6542,
	"step": 390
	},
	{
	"epoch": 1.973109243697479,
	"grad_norm": 1.3549695794420435,
	"learning_rate": 3.1889521808515888e-06,
	"loss": 0.6176,
	"step": 391
	},
	{
	"epoch": 1.9781512605042018,
	"grad_norm": 1.415166811994311,
	"learning_rate": 3.1615654395899377e-06,
	"loss": 0.6593,
	"step": 392
	},
	{
	"epoch": 1.9831932773109244,
	"grad_norm": 1.3126591809141124,
	"learning_rate": 3.1342423286551756e-06,
	"loss": 0.6891,
	"step": 393
	},
	{
	"epoch": 1.988235294117647,
	"grad_norm": 1.3842054436860431,
	"learning_rate": 3.1069837937314846e-06,
	"loss": 0.6342,
	"step": 394
	},
	{
	"epoch": 1.9932773109243698,
	"grad_norm": 1.4424046044230687,
	"learning_rate": 3.0797907782679944e-06,
	"loss": 0.6461,
	"step": 395
	},
	{
	"epoch": 1.9983193277310924,
	"grad_norm": 1.3718751038472339,
	"learning_rate": 3.0526642234461313e-06,
	"loss": 0.6338,
	"step": 396
	},
	{
	"epoch": 2.0050420168067227,
	"grad_norm": 3.363833604785768,
	"learning_rate": 3.0256050681470446e-06,
	"loss": 1.2006,
	"step": 397
	},
	{
	"epoch": 2.0100840336134453,
	"grad_norm": 1.410375521884215,
	"learning_rate": 2.9986142489191074e-06,
	"loss": 0.5121,
	"step": 398
	},
	{
	"epoch": 2.015126050420168,
	"grad_norm": 1.463355598251907,
	"learning_rate": 2.971692699945502e-06,
	"loss": 0.4394,
	"step": 399
	},
	{
	"epoch": 2.0201680672268907,
	"grad_norm": 1.2914998337098158,
	"learning_rate": 2.9448413530118912e-06,
	"loss": 0.4978,
	"step": 400
	},
	{
	"epoch": 2.0252100840336134,
	"grad_norm": 1.3604150815997402,
	"learning_rate": 2.9180611374741623e-06,
	"loss": 0.4689,
	"step": 401
	},
	{
	"epoch": 2.030252100840336,
	"grad_norm": 1.1964953052023972,
	"learning_rate": 2.891352980226262e-06,
	"loss": 0.5015,
	"step": 402
	},
	{
	"epoch": 2.0352941176470587,
	"grad_norm": 1.1694739760631343,
	"learning_rate": 2.8647178056681197e-06,
	"loss": 0.447,
	"step": 403
	},
	{
	"epoch": 2.0403361344537814,
	"grad_norm": 1.3174590682003549,
	"learning_rate": 2.838156535673652e-06,
	"loss": 0.414,
	"step": 404
	},
	{
	"epoch": 2.045378151260504,
	"grad_norm": 1.2140198128144435,
	"learning_rate": 2.8116700895588473e-06,
	"loss": 0.4505,
	"step": 405
	},
	{
	"epoch": 2.0504201680672267,
	"grad_norm": 1.3398119898455612,
	"learning_rate": 2.785259384049959e-06,
	"loss": 0.4532,
	"step": 406
	},
	{
	"epoch": 2.0554621848739494,
	"grad_norm": 1.4229930176202614,
	"learning_rate": 2.7589253332517736e-06,
	"loss": 0.5546,
	"step": 407
	},
	{
	"epoch": 2.060504201680672,
	"grad_norm": 1.4684509907326317,
	"learning_rate": 2.7326688486159613e-06,
	"loss": 0.5254,
	"step": 408
	},
	{
	"epoch": 2.065546218487395,
	"grad_norm": 1.4962520925453975,
	"learning_rate": 2.706490838909547e-06,
	"loss": 0.4673,
	"step": 409
	},
	{
	"epoch": 2.070588235294118,
	"grad_norm": 1.3630229586386085,
	"learning_rate": 2.680392210183446e-06,
	"loss": 0.4473,
	"step": 410
	},
	{
	"epoch": 2.0756302521008405,
	"grad_norm": 1.38978907137299,
	"learning_rate": 2.6543738657411033e-06,
	"loss": 0.5159,
	"step": 411
	},
	{
	"epoch": 2.080672268907563,
	"grad_norm": 1.429662885547244,
	"learning_rate": 2.628436706107238e-06,
	"loss": 0.5161,
	"step": 412
	},
	{
	"epoch": 2.085714285714286,
	"grad_norm": 1.394356185017467,
	"learning_rate": 2.6025816289966703e-06,
	"loss": 0.5032,
	"step": 413
	},
	{
	"epoch": 2.0907563025210085,
	"grad_norm": 1.480088664868798,
	"learning_rate": 2.5768095292832412e-06,
	"loss": 0.4802,
	"step": 414
	},
	{
	"epoch": 2.095798319327731,
	"grad_norm": 1.3859048551297604,
	"learning_rate": 2.5511212989688587e-06,
	"loss": 0.4993,
	"step": 415
	},
	{
	"epoch": 2.100840336134454,
	"grad_norm": 1.440430022618694,
	"learning_rate": 2.525517827152614e-06,
	"loss": 0.4551,
	"step": 416
	},
	{
	"epoch": 2.1058823529411765,
	"grad_norm": 1.4332550806993916,
	"learning_rate": 2.5000000000000015e-06,
	"loss": 0.5611,
	"step": 417
	},
	{
	"epoch": 2.110924369747899,
	"grad_norm": 1.3161188350792523,
	"learning_rate": 2.4745687007122636e-06,
	"loss": 0.4602,
	"step": 418
	},
	{
	"epoch": 2.115966386554622,
	"grad_norm": 1.4145836319136063,
	"learning_rate": 2.449224809495815e-06,
	"loss": 0.4464,
	"step": 419
	},
	{
	"epoch": 2.1210084033613446,
	"grad_norm": 1.3638972016864883,
	"learning_rate": 2.423969203531768e-06,
	"loss": 0.4625,
	"step": 420
	},
	{
	"epoch": 2.1260504201680672,
	"grad_norm": 1.4282920146552893,
	"learning_rate": 2.3988027569455895e-06,
	"loss": 0.4809,
	"step": 421
	},
	{
	"epoch": 2.13109243697479,
	"grad_norm": 1.452704091304085,
	"learning_rate": 2.373726340776837e-06,
	"loss": 0.4959,
	"step": 422
	},
	{
	"epoch": 2.1361344537815126,
	"grad_norm": 1.4474065940760683,
	"learning_rate": 2.348740822949006e-06,
	"loss": 0.4557,
	"step": 423
	},
	{
	"epoch": 2.1411764705882352,
	"grad_norm": 1.406883162238408,
	"learning_rate": 2.323847068239504e-06,
	"loss": 0.5069,
	"step": 424
	},
	{
	"epoch": 2.146218487394958,
	"grad_norm": 1.4713827636564831,
	"learning_rate": 2.2990459382497086e-06,
	"loss": 0.4813,
	"step": 425
	},
	{
	"epoch": 2.1512605042016806,
	"grad_norm": 1.4582227343532888,
	"learning_rate": 2.274338291375147e-06,
	"loss": 0.462,
	"step": 426
	},
	{
	"epoch": 2.1563025210084033,
	"grad_norm": 1.353197229608169,
	"learning_rate": 2.2497249827757933e-06,
	"loss": 0.4658,
	"step": 427
	},
	{
	"epoch": 2.161344537815126,
	"grad_norm": 1.3550947330778897,
	"learning_rate": 2.225206864346465e-06,
	"loss": 0.5794,
	"step": 428
	},
	{
	"epoch": 2.1663865546218486,
	"grad_norm": 1.4137143069445475,
	"learning_rate": 2.2007847846873342e-06,
	"loss": 0.4722,
	"step": 429
	},
	{
	"epoch": 2.1714285714285713,
	"grad_norm": 1.2932234077066185,
	"learning_rate": 2.176459589074566e-06,
	"loss": 0.4369,
	"step": 430
	},
	{
	"epoch": 2.176470588235294,
	"grad_norm": 1.3725308971047603,
	"learning_rate": 2.1522321194310577e-06,
	"loss": 0.4958,
	"step": 431
	},
	{
	"epoch": 2.1815126050420166,
	"grad_norm": 1.4324324040918073,
	"learning_rate": 2.1281032142972933e-06,
	"loss": 0.4954,
	"step": 432
	},
	{
	"epoch": 2.1865546218487397,
	"grad_norm": 1.4153168395436235,
	"learning_rate": 2.1040737088023323e-06,
	"loss": 0.4457,
	"step": 433
	},
	{
	"epoch": 2.1915966386554624,
	"grad_norm": 1.3341155055487035,
	"learning_rate": 2.080144434634898e-06,
	"loss": 0.5017,
	"step": 434
	},
	{
	"epoch": 2.196638655462185,
	"grad_norm": 1.352939614197411,
	"learning_rate": 2.056316220014588e-06,
	"loss": 0.4553,
	"step": 435
	},
	{
	"epoch": 2.2016806722689077,
	"grad_norm": 1.393182470026338,
	"learning_rate": 2.0325898896632178e-06,
	"loss": 0.4448,
	"step": 436
	},
	{
	"epoch": 2.2067226890756304,
	"grad_norm": 1.4033955608191793,
	"learning_rate": 2.0089662647762716e-06,
	"loss": 0.441,
	"step": 437
	},
	{
	"epoch": 2.211764705882353,
	"grad_norm": 1.41226298350313,
	"learning_rate": 1.9854461629944764e-06,
	"loss": 0.4656,
	"step": 438
	},
	{
	"epoch": 2.2168067226890757,
	"grad_norm": 1.3512621478929514,
	"learning_rate": 1.962030398375506e-06,
	"loss": 0.5245,
	"step": 439
	},
	{
	"epoch": 2.2218487394957984,
	"grad_norm": 1.3932479184910864,
	"learning_rate": 1.9387197813658092e-06,
	"loss": 0.456,
	"step": 440
	},
	{
	"epoch": 2.226890756302521,
	"grad_norm": 1.3400595100259751,
	"learning_rate": 1.915515118772555e-06,
	"loss": 0.4622,
	"step": 441
	},
	{
	"epoch": 2.2319327731092438,
	"grad_norm": 1.3239101426319217,
	"learning_rate": 1.8924172137357038e-06,
	"loss": 0.4821,
	"step": 442
	},
	{
	"epoch": 2.2369747899159664,
	"grad_norm": 1.4028557110251756,
	"learning_rate": 1.8694268657002197e-06,
	"loss": 0.4592,
	"step": 443
	},
	{
	"epoch": 2.242016806722689,
	"grad_norm": 1.4043326661254716,
	"learning_rate": 1.8465448703883959e-06,
	"loss": 0.4642,
	"step": 444
	},
	{
	"epoch": 2.2470588235294118,
	"grad_norm": 1.4748018123002309,
	"learning_rate": 1.8237720197723075e-06,
	"loss": 0.5244,
	"step": 445
	},
	{
	"epoch": 2.2521008403361344,
	"grad_norm": 1.3653204295657917,
	"learning_rate": 1.8011091020464138e-06,
	"loss": 0.5117,
	"step": 446
	},
	{
	"epoch": 2.257142857142857,
	"grad_norm": 1.4578979263769525,
	"learning_rate": 1.7785569016002686e-06,
	"loss": 0.4622,
	"step": 447
	},
	{
	"epoch": 2.26218487394958,
	"grad_norm": 1.4739147697577966,
	"learning_rate": 1.75611619899137e-06,
	"loss": 0.4524,
	"step": 448
	},
	{
	"epoch": 2.2672268907563025,
	"grad_norm": 1.3465934593186815,
	"learning_rate": 1.7337877709181527e-06,
	"loss": 0.4616,
	"step": 449
	},
	{
	"epoch": 2.272268907563025,
	"grad_norm": 1.4287084373091115,
	"learning_rate": 1.711572390193102e-06,
	"loss": 0.6594,
	"step": 450
	},
	{
	"epoch": 2.277310924369748,
	"grad_norm": 1.3274840093520053,
	"learning_rate": 1.689470825715998e-06,
	"loss": 0.4529,
	"step": 451
	},
	{
	"epoch": 2.2823529411764705,
	"grad_norm": 1.4216422105253623,
	"learning_rate": 1.6674838424473172e-06,
	"loss": 0.4655,
	"step": 452
	},
	{
	"epoch": 2.287394957983193,
	"grad_norm": 1.452303728671861,
	"learning_rate": 1.6456122013817477e-06,
	"loss": 0.4625,
	"step": 453
	},
	{
	"epoch": 2.292436974789916,
	"grad_norm": 1.4369743256615972,
	"learning_rate": 1.6238566595218475e-06,
	"loss": 0.4761,
	"step": 454
	},
	{
	"epoch": 2.2974789915966385,
	"grad_norm": 1.407023006658543,
	"learning_rate": 1.6022179698518525e-06,
	"loss": 0.4505,
	"step": 455
	},
	{
	"epoch": 2.302521008403361,
	"grad_norm": 1.391039540718536,
	"learning_rate": 1.580696881311611e-06,
	"loss": 0.4894,
	"step": 456
	},
	{
	"epoch": 2.307563025210084,
	"grad_norm": 1.3557281771597436,
	"learning_rate": 1.5592941387706562e-06,
	"loss": 0.4108,
	"step": 457
	},
	{
	"epoch": 2.3126050420168065,
	"grad_norm": 1.3010131467886796,
	"learning_rate": 1.538010483002435e-06,
	"loss": 0.425,
	"step": 458
	},
	{
	"epoch": 2.317647058823529,
	"grad_norm": 1.3625069219769537,
	"learning_rate": 1.5168466506586654e-06,
	"loss": 0.4431,
	"step": 459
	},
	{
	"epoch": 2.3226890756302523,
	"grad_norm": 1.2997097389936179,
	"learning_rate": 1.4958033742438348e-06,
	"loss": 0.4058,
	"step": 460
	},
	{
	"epoch": 2.327731092436975,
	"grad_norm": 1.3546221586310845,
	"learning_rate": 1.4748813820898554e-06,
	"loss": 0.5043,
	"step": 461
	},
	{
	"epoch": 2.3327731092436976,
	"grad_norm": 1.3503940282999218,
	"learning_rate": 1.454081398330855e-06,
	"loss": 0.5015,
	"step": 462
	},
	{
	"epoch": 2.3378151260504203,
	"grad_norm": 1.2879127697899735,
	"learning_rate": 1.4334041428781003e-06,
	"loss": 0.4219,
	"step": 463
	},
	{
	"epoch": 2.342857142857143,
	"grad_norm": 1.5900890446730591,
	"learning_rate": 1.4128503313951008e-06,
	"loss": 0.5508,
	"step": 464
	},
	{
	"epoch": 2.3478991596638656,
	"grad_norm": 1.4693275041182954,
	"learning_rate": 1.3924206752728282e-06,
	"loss": 0.5196,
	"step": 465
	},
	{
	"epoch": 2.3529411764705883,
	"grad_norm": 1.3739526563603481,
	"learning_rate": 1.3721158816050872e-06,
	"loss": 0.5223,
	"step": 466
	},
	{
	"epoch": 2.357983193277311,
	"grad_norm": 1.2888756368302696,
	"learning_rate": 1.3519366531640589e-06,
	"loss": 0.4745,
	"step": 467
	},
	{
	"epoch": 2.3630252100840337,
	"grad_norm": 1.3646861171520672,
	"learning_rate": 1.3318836883759634e-06,
	"loss": 0.4765,
	"step": 468
	},
	{
	"epoch": 2.3680672268907563,
	"grad_norm": 1.3876282049959663,
	"learning_rate": 1.3119576812968893e-06,
	"loss": 0.4552,
	"step": 469
	},
	{
	"epoch": 2.373109243697479,
	"grad_norm": 1.3212811305037033,
	"learning_rate": 1.292159321588778e-06,
	"loss": 0.4444,
	"step": 470
	},
	{
	"epoch": 2.3781512605042017,
	"grad_norm": 1.4025656868262555,
	"learning_rate": 1.272489294495548e-06,
	"loss": 0.5373,
	"step": 471
	},
	{
	"epoch": 2.3831932773109243,
	"grad_norm": 1.3992039142572703,
	"learning_rate": 1.252948280819375e-06,
	"loss": 0.4297,
	"step": 472
	},
	{
	"epoch": 2.388235294117647,
	"grad_norm": 1.438194701698973,
	"learning_rate": 1.2335369568971362e-06,
	"loss": 0.4577,
	"step": 473
	},
	{
	"epoch": 2.3932773109243697,
	"grad_norm": 1.3560235059252677,
	"learning_rate": 1.2142559945769995e-06,
	"loss": 0.4576,
	"step": 474
	},
	{
	"epoch": 2.3983193277310924,
	"grad_norm": 1.357949004614199,
	"learning_rate": 1.1951060611951615e-06,
	"loss": 0.5944,
	"step": 475
	},
	{
	"epoch": 2.403361344537815,
	"grad_norm": 1.2895013043643404,
	"learning_rate": 1.1760878195527642e-06,
	"loss": 0.4192,
	"step": 476
	},
	{
	"epoch": 2.4084033613445377,
	"grad_norm": 1.2608640104913673,
	"learning_rate": 1.1572019278929457e-06,
	"loss": 0.4431,
	"step": 477
	},
	{
	"epoch": 2.4134453781512604,
	"grad_norm": 1.4235058216914491,
	"learning_rate": 1.1384490398780563e-06,
	"loss": 0.4835,
	"step": 478
	},
	{
	"epoch": 2.418487394957983,
	"grad_norm": 1.3849158950764375,
	"learning_rate": 1.1198298045670402e-06,
	"loss": 0.4497,
	"step": 479
	},
	{
	"epoch": 2.4235294117647057,
	"grad_norm": 1.4243621054419897,
	"learning_rate": 1.1013448663929704e-06,
	"loss": 0.5031,
	"step": 480
	},
	{
	"epoch": 2.4285714285714284,
	"grad_norm": 1.2997464135987702,
	"learning_rate": 1.0829948651407374e-06,
	"loss": 0.483,
	"step": 481
	},
	{
	"epoch": 2.4336134453781515,
	"grad_norm": 1.2887117802326669,
	"learning_rate": 1.0647804359249143e-06,
	"loss": 0.4424,
	"step": 482
	},
	{
	"epoch": 2.438655462184874,
	"grad_norm": 1.2955280324064098,
	"learning_rate": 1.0467022091677692e-06,
	"loss": 0.4963,
	"step": 483
	},
	{
	"epoch": 2.443697478991597,
	"grad_norm": 1.5695989821047664,
	"learning_rate": 1.0287608105774456e-06,
	"loss": 0.512,
	"step": 484
	},
	{
	"epoch": 2.4487394957983195,
	"grad_norm": 1.3900121464168351,
	"learning_rate": 1.0109568611263094e-06,
	"loss": 0.4418,
	"step": 485
	},
	{
	"epoch": 2.453781512605042,
	"grad_norm": 1.443290081700745,
	"learning_rate": 9.932909770294542e-07,
	"loss": 0.4439,
	"step": 486
	},
	{
	"epoch": 2.458823529411765,
	"grad_norm": 1.3476484251272791,
	"learning_rate": 9.757637697233723e-07,
	"loss": 0.4885,
	"step": 487
	},
	{
	"epoch": 2.4638655462184875,
	"grad_norm": 1.3389474168899225,
	"learning_rate": 9.58375845844793e-07,
	"loss": 0.4486,
	"step": 488
	},
	{
	"epoch": 2.46890756302521,
	"grad_norm": 1.2353966317116258,
	"learning_rate": 9.41127807209688e-07,
	"loss": 0.4321,
	"step": 489
	},
	{
	"epoch": 2.473949579831933,
	"grad_norm": 1.2849383161233021,
	"learning_rate": 9.240202507924412e-07,
	"loss": 0.433,
	"step": 490
	},
	{
	"epoch": 2.4789915966386555,
	"grad_norm": 1.3336087651970685,
	"learning_rate": 9.070537687051817e-07,
	"loss": 0.4516,
	"step": 491
	},
	{
	"epoch": 2.484033613445378,
	"grad_norm": 1.3550057200939567,
	"learning_rate": 8.902289481772996e-07,
	"loss": 0.4616,
	"step": 492
	},
	{
	"epoch": 2.489075630252101,
	"grad_norm": 1.3590095983206505,
	"learning_rate": 8.735463715351139e-07,
	"loss": 0.4203,
	"step": 493
	},
	{
	"epoch": 2.4941176470588236,
	"grad_norm": 1.2915320514796769,
	"learning_rate": 8.570066161817176e-07,
	"loss": 0.4503,
	"step": 494
	},
	{
	"epoch": 2.499159663865546,
	"grad_norm": 1.2679676777389248,
	"learning_rate": 8.406102545769989e-07,
	"loss": 0.4566,
	"step": 495
	},
	{
	"epoch": 2.504201680672269,
	"grad_norm": 1.426642729326135,
	"learning_rate": 8.243578542178227e-07,
	"loss": 0.4707,
	"step": 496
	},
	{
	"epoch": 2.5092436974789916,
	"grad_norm": 1.4592108582229681,
	"learning_rate": 8.082499776183883e-07,
	"loss": 0.4845,
	"step": 497
	},
	{
	"epoch": 2.5142857142857142,
	"grad_norm": 1.5266839034291377,
	"learning_rate": 7.922871822907641e-07,
	"loss": 0.5228,
	"step": 498
	},
	{
	"epoch": 2.519327731092437,
	"grad_norm": 1.471645595600825,
	"learning_rate": 7.764700207255904e-07,
	"loss": 0.4173,
	"step": 499
	},
	{
	"epoch": 2.5243697478991596,
	"grad_norm": 1.3871858021840573,
	"learning_rate": 7.607990403729526e-07,
	"loss": 0.4601,
	"step": 500
	},
	{
	"epoch": 2.5294117647058822,
	"grad_norm": 1.3138350820905274,
	"learning_rate": 7.452747836234392e-07,
	"loss": 0.4504,
	"step": 501
	},
	{
	"epoch": 2.534453781512605,
	"grad_norm": 1.2975304324598231,
	"learning_rate": 7.298977877893688e-07,
	"loss": 0.4265,
	"step": 502
	},
	{
	"epoch": 2.5394957983193276,
	"grad_norm": 1.3447001192643702,
	"learning_rate": 7.146685850861851e-07,
	"loss": 0.466,
	"step": 503
	},
	{
	"epoch": 2.5445378151260503,
	"grad_norm": 1.3862420743153665,
	"learning_rate": 6.995877026140468e-07,
	"loss": 0.4884,
	"step": 504
	},
	{
	"epoch": 2.549579831932773,
	"grad_norm": 1.4032983423284162,
	"learning_rate": 6.846556623395795e-07,
	"loss": 0.4948,
	"step": 505
	},
	{
	"epoch": 2.5546218487394956,
	"grad_norm": 1.362120295068725,
	"learning_rate": 6.698729810778065e-07,
	"loss": 0.4702,
	"step": 506
	},
	{
	"epoch": 2.5596638655462183,
	"grad_norm": 1.389808913275814,
	"learning_rate": 6.552401704742678e-07,
	"loss": 0.4825,
	"step": 507
	},
	{
	"epoch": 2.564705882352941,
	"grad_norm": 1.2860994495581453,
	"learning_rate": 6.40757736987307e-07,
	"loss": 0.4321,
	"step": 508
	},
	{
	"epoch": 2.5697478991596636,
	"grad_norm": 1.212606448511892,
	"learning_rate": 6.26426181870542e-07,
	"loss": 0.3868,
	"step": 509
	},
	{
	"epoch": 2.5747899159663863,
	"grad_norm": 1.2670489383748516,
	"learning_rate": 6.122460011555187e-07,
	"loss": 0.4532,
	"step": 510
	},
	{
	"epoch": 2.5798319327731094,
	"grad_norm": 1.3801554590726837,
	"learning_rate": 5.982176856345445e-07,
	"loss": 0.4263,
	"step": 511
	},
	{
	"epoch": 2.584873949579832,
	"grad_norm": 1.3394504151016333,
	"learning_rate": 5.843417208436908e-07,
	"loss": 0.496,
	"step": 512
	},
	{
	"epoch": 2.5899159663865547,
	"grad_norm": 1.2955707760211432,
	"learning_rate": 5.706185870460018e-07,
	"loss": 0.4253,
	"step": 513
	},
	{
	"epoch": 2.5949579831932774,
	"grad_norm": 1.289481906227215,
	"learning_rate": 5.570487592148666e-07,
	"loss": 0.4035,
	"step": 514
	},
	{
	"epoch": 2.6,
	"grad_norm": 1.3376266312340062,
	"learning_rate": 5.436327070175729e-07,
	"loss": 0.4545,
	"step": 515
	},
	{
	"epoch": 2.6050420168067228,
	"grad_norm": 1.4001675009701846,
	"learning_rate": 5.303708947990638e-07,
	"loss": 0.4684,
	"step": 516
	},
	{
	"epoch": 2.6100840336134454,
	"grad_norm": 1.4896915805848956,
	"learning_rate": 5.172637815658583e-07,
	"loss": 0.4704,
	"step": 517
	},
	{
	"epoch": 2.615126050420168,
	"grad_norm": 1.430686916061002,
	"learning_rate": 5.04311820970163e-07,
	"loss": 0.4782,
	"step": 518
	},
	{
	"epoch": 2.6201680672268908,
	"grad_norm": 1.3676105828350056,
	"learning_rate": 4.915154612941781e-07,
	"loss": 0.5979,
	"step": 519
	},
	{
	"epoch": 2.6252100840336134,
	"grad_norm": 1.3552413071380474,
	"learning_rate": 4.788751454345763e-07,
	"loss": 0.4405,
	"step": 520
	},
	{
	"epoch": 2.630252100840336,
	"grad_norm": 1.320913107468769,
	"learning_rate": 4.663913108871726e-07,
	"loss": 0.4105,
	"step": 521
	},
	{
	"epoch": 2.635294117647059,
	"grad_norm": 1.2848967010536776,
	"learning_rate": 4.540643897317887e-07,
	"loss": 0.3934,
	"step": 522
	},
	{
	"epoch": 2.6403361344537815,
	"grad_norm": 1.3500509189164658,
	"learning_rate": 4.4189480861729137e-07,
	"loss": 0.4339,
	"step": 523
	},
	{
	"epoch": 2.645378151260504,
	"grad_norm": 1.3387080610453355,
	"learning_rate": 4.2988298874682754e-07,
	"loss": 0.4552,
	"step": 524
	},
	{
	"epoch": 2.650420168067227,
	"grad_norm": 1.3397812410356982,
	"learning_rate": 4.1802934586324897e-07,
	"loss": 0.5401,
	"step": 525
	},
	{
	"epoch": 2.6554621848739495,
	"grad_norm": 1.446011629760243,
	"learning_rate": 4.0633429023472004e-07,
	"loss": 0.5409,
	"step": 526
	},
	{
	"epoch": 2.660504201680672,
	"grad_norm": 1.3710949034220614,
	"learning_rate": 3.947982266405159e-07,
	"loss": 0.501,
	"step": 527
	},
	{
	"epoch": 2.665546218487395,
	"grad_norm": 1.5073033115483478,
	"learning_rate": 3.834215543570191e-07,
	"loss": 0.5156,
	"step": 528
	},
	{
	"epoch": 2.6705882352941175,
	"grad_norm": 1.3549599833015573,
	"learning_rate": 3.72204667143895e-07,
	"loss": 0.4667,
	"step": 529
	},
	{
	"epoch": 2.6756302521008406,
	"grad_norm": 1.368632751852017,
	"learning_rate": 3.611479532304618e-07,
	"loss": 0.4596,
	"step": 530
	},
	{
	"epoch": 2.6806722689075633,
	"grad_norm": 1.3310734620781681,
	"learning_rate": 3.5025179530225995e-07,
	"loss": 0.4248,
	"step": 531
	},
	{
	"epoch": 2.685714285714286,
	"grad_norm": 1.429961991715737,
	"learning_rate": 3.395165704878023e-07,
	"loss": 0.4921,
	"step": 532
	},
	{
	"epoch": 2.6907563025210086,
	"grad_norm": 1.3220689464603654,
	"learning_rate": 3.289426503455201e-07,
	"loss": 0.4686,
	"step": 533
	},
	{
	"epoch": 2.6957983193277313,
	"grad_norm": 1.3596446823078556,
	"learning_rate": 3.185304008509077e-07,
	"loss": 0.4692,
	"step": 534
	},
	{
	"epoch": 2.700840336134454,
	"grad_norm": 1.2664017870580138,
	"learning_rate": 3.082801823838527e-07,
	"loss": 0.4792,
	"step": 535
	},
	{
	"epoch": 2.7058823529411766,
	"grad_norm": 1.277008676617942,
	"learning_rate": 2.9819234971616154e-07,
	"loss": 0.4496,
	"step": 536
	},
	{
	"epoch": 2.7109243697478993,
	"grad_norm": 1.3031675483473417,
	"learning_rate": 2.882672519992824e-07,
	"loss": 0.4599,
	"step": 537
	},
	{
	"epoch": 2.715966386554622,
	"grad_norm": 1.475285425023621,
	"learning_rate": 2.785052327522214e-07,
	"loss": 0.5562,
	"step": 538
	},
	{
	"epoch": 2.7210084033613446,
	"grad_norm": 1.2387397112349467,
	"learning_rate": 2.6890662984965234e-07,
	"loss": 0.4508,
	"step": 539
	},
	{
	"epoch": 2.7260504201680673,
	"grad_norm": 1.2769755883493084,
	"learning_rate": 2.594717755102205e-07,
	"loss": 0.4497,
	"step": 540
	},
	{
	"epoch": 2.73109243697479,
	"grad_norm": 1.4117553058680856,
	"learning_rate": 2.5020099628504603e-07,
	"loss": 0.4176,
	"step": 541
	},
	{
	"epoch": 2.7361344537815127,
	"grad_norm": 1.3430474164461437,
	"learning_rate": 2.4109461304642254e-07,
	"loss": 0.61,
	"step": 542
	},
	{
	"epoch": 2.7411764705882353,
	"grad_norm": 1.319429861827343,
	"learning_rate": 2.3215294097670927e-07,
	"loss": 0.4451,
	"step": 543
	},
	{
	"epoch": 2.746218487394958,
	"grad_norm": 1.436920605125832,
	"learning_rate": 2.2337628955742263e-07,
	"loss": 0.4874,
	"step": 544
	},
	{
	"epoch": 2.7512605042016807,
	"grad_norm": 1.3812471581213166,
	"learning_rate": 2.1476496255852685e-07,
	"loss": 0.382,
	"step": 545
	},
	{
	"epoch": 2.7563025210084033,
	"grad_norm": 1.205494792014491,
	"learning_rate": 2.0631925802791608e-07,
	"loss": 0.5224,
	"step": 546
	},
	{
	"epoch": 2.761344537815126,
	"grad_norm": 1.3083334014447827,
	"learning_rate": 1.9803946828110376e-07,
	"loss": 0.5117,
	"step": 547
	},
	{
	"epoch": 2.7663865546218487,
	"grad_norm": 1.3758887119834913,
	"learning_rate": 1.8992587989110133e-07,
	"loss": 0.4898,
	"step": 548
	},
	{
	"epoch": 2.7714285714285714,
	"grad_norm": 1.3436017213466456,
	"learning_rate": 1.8197877367849948e-07,
	"loss": 0.5596,
	"step": 549
	},
	{
	"epoch": 2.776470588235294,
	"grad_norm": 1.4507659924194913,
	"learning_rate": 1.7419842470175196e-07,
	"loss": 0.4889,
	"step": 550
	},
	{
	"epoch": 2.7815126050420167,
	"grad_norm": 1.5070411133243147,
	"learning_rate": 1.6658510224765333e-07,
	"loss": 0.47,
	"step": 551
	},
	{
	"epoch": 2.7865546218487394,
	"grad_norm": 1.3934953281445221,
	"learning_rate": 1.5913906982201744e-07,
	"loss": 0.4626,
	"step": 552
	},
	{
	"epoch": 2.791596638655462,
	"grad_norm": 1.4300047982632422,
	"learning_rate": 1.5186058514055912e-07,
	"loss": 0.4808,
	"step": 553
	},
	{
	"epoch": 2.7966386554621847,
	"grad_norm": 1.3007207174809041,
	"learning_rate": 1.447499001199748e-07,
	"loss": 0.5228,
	"step": 554
	},
	{
	"epoch": 2.8016806722689074,
	"grad_norm": 1.335166451449638,
	"learning_rate": 1.3780726086922103e-07,
	"loss": 0.5314,
	"step": 555
	},
	{
	"epoch": 2.80672268907563,
	"grad_norm": 1.2727049723883297,
	"learning_rate": 1.3103290768099796e-07,
	"loss": 0.4538,
	"step": 556
	},
	{
	"epoch": 2.8117647058823527,
	"grad_norm": 1.4233653924829766,
	"learning_rate": 1.244270750234333e-07,
	"loss": 0.4768,
	"step": 557
	},
	{
	"epoch": 2.8168067226890754,
	"grad_norm": 1.4089563114452142,
	"learning_rate": 1.1798999153196433e-07,
	"loss": 0.4543,
	"step": 558
	},
	{
	"epoch": 2.821848739495798,
	"grad_norm": 1.3596745441590257,
	"learning_rate": 1.1172188000142803e-07,
	"loss": 0.5016,
	"step": 559
	},
	{
	"epoch": 2.8268907563025207,
	"grad_norm": 1.3375081145484837,
	"learning_rate": 1.0562295737834738e-07,
	"loss": 0.47,
	"step": 560
	},
	{
	"epoch": 2.831932773109244,
	"grad_norm": 1.3797076618818533,
	"learning_rate": 9.969343475342285e-08,
	"loss": 0.4762,
	"step": 561
	},
	{
	"epoch": 2.8369747899159665,
	"grad_norm": 1.4014527371585839,
	"learning_rate": 9.393351735422773e-08,
	"loss": 0.4606,
	"step": 562
	},
	{
	"epoch": 2.842016806722689,
	"grad_norm": 1.317969883356561,
	"learning_rate": 8.834340453810375e-08,
	"loss": 0.4353,
	"step": 563
	},
	{
	"epoch": 2.847058823529412,
	"grad_norm": 1.3062183016322855,
	"learning_rate": 8.29232897852611e-08,
	"loss": 0.3857,
	"step": 564
	},
	{
	"epoch": 2.8521008403361345,
	"grad_norm": 1.3280320137002732,
	"learning_rate": 7.76733606920832e-08,
	"loss": 0.4572,
	"step": 565
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 1.4128418670110612,
	"learning_rate": 7.259379896463248e-08,
	"loss": 0.4476,
	"step": 566
	},
	{
	"epoch": 2.86218487394958,
	"grad_norm": 1.3977595292294513,
	"learning_rate": 6.768478041236037e-08,
	"loss": 0.4436,
	"step": 567
	},
	{
	"epoch": 2.8672268907563025,
	"grad_norm": 1.3855652086248782,
	"learning_rate": 6.294647494202444e-08,
	"loss": 0.4346,
	"step": 568
	},
	{
	"epoch": 2.872268907563025,
	"grad_norm": 1.3251986287781006,
	"learning_rate": 5.8379046551807486e-08,
	"loss": 0.493,
	"step": 569
	},
	{
	"epoch": 2.877310924369748,
	"grad_norm": 1.32087943884219,
	"learning_rate": 5.398265332563935e-08,
	"loss": 0.4551,
	"step": 570
	},
	{
	"epoch": 2.8823529411764706,
	"grad_norm": 1.2437729277991256,
	"learning_rate": 4.975744742772848e-08,
	"loss": 0.4098,
	"step": 571
	},
	{
	"epoch": 2.8873949579831932,
	"grad_norm": 1.340919476266603,
	"learning_rate": 4.5703575097292286e-08,
	"loss": 0.4726,
	"step": 572
	},
	{
	"epoch": 2.892436974789916,
	"grad_norm": 1.2461844948007363,
	"learning_rate": 4.182117664349783e-08,
	"loss": 0.449,
	"step": 573
	},
	{
	"epoch": 2.8974789915966386,
	"grad_norm": 1.3240662502351237,
	"learning_rate": 3.8110386440605164e-08,
	"loss": 0.4603,
	"step": 574
	},
	{
	"epoch": 2.9025210084033612,
	"grad_norm": 1.3494315545656852,
	"learning_rate": 3.457133292331494e-08,
	"loss": 0.5058,
	"step": 575
	},
	{
	"epoch": 2.907563025210084,
	"grad_norm": 1.3389143724686245,
	"learning_rate": 3.120413858232474e-08,
	"loss": 0.4578,
	"step": 576
	},
	{
	"epoch": 2.9126050420168066,
	"grad_norm": 1.344475790060752,
	"learning_rate": 2.8008919960090253e-08,
	"loss": 0.5347,
	"step": 577
	},
	{
	"epoch": 2.9176470588235293,
	"grad_norm": 1.388286539991785,
	"learning_rate": 2.4985787646788497e-08,
	"loss": 0.4792,
	"step": 578
	},
	{
	"epoch": 2.9226890756302524,
	"grad_norm": 1.4667343155241181,
	"learning_rate": 2.2134846276494205e-08,
	"loss": 0.4854,
	"step": 579
	},
	{
	"epoch": 2.927731092436975,
	"grad_norm": 1.393293250138424,
	"learning_rate": 1.9456194523554404e-08,
	"loss": 0.4796,
	"step": 580
	},
	{
	"epoch": 2.9327731092436977,
	"grad_norm": 1.3210976282362301,
	"learning_rate": 1.69499250991767e-08,
	"loss": 0.4465,
	"step": 581
	},
	{
	"epoch": 2.9378151260504204,
	"grad_norm": 1.3544687735071852,
	"learning_rate": 1.4616124748217387e-08,
	"loss": 0.5223,
	"step": 582
	},
	{
	"epoch": 2.942857142857143,
	"grad_norm": 1.467595755846224,
	"learning_rate": 1.2454874246181081e-08,
	"loss": 0.6671,
	"step": 583
	},
	{
	"epoch": 2.9478991596638657,
	"grad_norm": 1.3671723526105932,
	"learning_rate": 1.0466248396424072e-08,
	"loss": 0.4499,
	"step": 584
	},
	{
	"epoch": 2.9529411764705884,
	"grad_norm": 1.4167636187504142,
	"learning_rate": 8.650316027566386e-09,
	"loss": 0.4873,
	"step": 585
	},
	{
	"epoch": 2.957983193277311,
	"grad_norm": 1.220474765102595,
	"learning_rate": 7.007139991108136e-09,
	"loss": 0.4043,
	"step": 586
	},
	{
	"epoch": 2.9630252100840337,
	"grad_norm": 1.3733660106334655,
	"learning_rate": 5.536777159254603e-09,
	"loss": 0.4793,
	"step": 587
	},
	{
	"epoch": 2.9680672268907564,
	"grad_norm": 1.3544611708705747,
	"learning_rate": 4.239278422948911e-09,
	"loss": 0.4953,
	"step": 588
	},
	{
	"epoch": 2.973109243697479,
	"grad_norm": 1.4589364978859505,
	"learning_rate": 3.1146886901090024e-09,
	"loss": 0.4547,
	"step": 589
	},
	{
	"epoch": 2.9781512605042018,
	"grad_norm": 1.3938123480231057,
	"learning_rate": 2.1630468840738716e-09,
	"loss": 0.4115,
	"step": 590
	},
	{
	"epoch": 2.9831932773109244,
	"grad_norm": 1.3511479563562372,
	"learning_rate": 1.3843859422574269e-09,
	"loss": 0.4926,
	"step": 591
	},
	{
	"epoch": 2.988235294117647,
	"grad_norm": 1.445464043641677,
	"learning_rate": 7.787328150071771e-10,
	"loss": 0.5346,
	"step": 592
	},
	{
	"epoch": 2.9932773109243698,
	"grad_norm": 1.5785257738352532,
	"learning_rate": 3.4610846467109106e-10,
	"loss": 0.5032,
	"step": 593
	},
	{
	"epoch": 2.9983193277310924,
	"grad_norm": 1.305339383484568,
	"learning_rate": 8.652786487484133e-11,
	"loss": 0.4666,
	"step": 594
	},
	{
	"epoch": 2.9983193277310924,
	"step": 594,
	"total_flos": 4.726427205490442e+17,
	"train_loss": 0.7082312573688199,
	"train_runtime": 63951.2458,
	"train_samples_per_second": 0.447,
	"train_steps_per_second": 0.009
	}
	],
	"logging_steps": 1,
	"max_steps": 594,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.726427205490442e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}