NairaRahim
/

Custome_Distillation_Translation_Model

Safetensors

Model card Files Files and versions Community

Custome_Distillation_Translation_Model / last-checkpoint /trainer_state.json

NairaRahim

Training in progress, epoch 77, checkpoint

39835b2 verified about 2 months ago

raw

history blame

192 kB

	{
	"best_metric": 12.716951370239258,
	"best_model_checkpoint": "/kaggle/working/output/checkpoint-88740",
	"epoch": 77.0,
	"eval_steps": 500,
	"global_step": 100485,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07662835249042145,
	"grad_norm": 8.174947738647461,
	"learning_rate": 4.9952586206896554e-05,
	"loss": 96.5258,
	"step": 100
	},
	{
	"epoch": 0.1532567049808429,
	"grad_norm": 8.584559440612793,
	"learning_rate": 4.990469348659004e-05,
	"loss": 48.0822,
	"step": 200
	},
	{
	"epoch": 0.22988505747126436,
	"grad_norm": 8.02587604522705,
	"learning_rate": 4.985680076628353e-05,
	"loss": 31.9469,
	"step": 300
	},
	{
	"epoch": 0.3065134099616858,
	"grad_norm": 6.968703746795654,
	"learning_rate": 4.9808908045977015e-05,
	"loss": 24.973,
	"step": 400
	},
	{
	"epoch": 0.3831417624521073,
	"grad_norm": 6.017839431762695,
	"learning_rate": 4.97610153256705e-05,
	"loss": 20.7473,
	"step": 500
	},
	{
	"epoch": 0.45977011494252873,
	"grad_norm": 4.75618839263916,
	"learning_rate": 4.971312260536399e-05,
	"loss": 18.6219,
	"step": 600
	},
	{
	"epoch": 0.5363984674329502,
	"grad_norm": 3.5624868869781494,
	"learning_rate": 4.9665229885057475e-05,
	"loss": 17.1775,
	"step": 700
	},
	{
	"epoch": 0.6130268199233716,
	"grad_norm": 2.889848470687866,
	"learning_rate": 4.961733716475096e-05,
	"loss": 16.1131,
	"step": 800
	},
	{
	"epoch": 0.6896551724137931,
	"grad_norm": 8.15518856048584,
	"learning_rate": 4.956944444444445e-05,
	"loss": 15.8697,
	"step": 900
	},
	{
	"epoch": 0.7662835249042146,
	"grad_norm": 3.092848539352417,
	"learning_rate": 4.952155172413793e-05,
	"loss": 15.5523,
	"step": 1000
	},
	{
	"epoch": 0.842911877394636,
	"grad_norm": 2.181015968322754,
	"learning_rate": 4.9473659003831416e-05,
	"loss": 15.5628,
	"step": 1100
	},
	{
	"epoch": 0.9195402298850575,
	"grad_norm": 2.1515514850616455,
	"learning_rate": 4.94257662835249e-05,
	"loss": 15.3004,
	"step": 1200
	},
	{
	"epoch": 0.9961685823754789,
	"grad_norm": 1.476803183555603,
	"learning_rate": 4.937787356321839e-05,
	"loss": 15.3448,
	"step": 1300
	},
	{
	"epoch": 1.0,
	"eval_loss": 15.641121864318848,
	"eval_runtime": 44.0061,
	"eval_samples_per_second": 29.655,
	"eval_steps_per_second": 3.727,
	"step": 1305
	},
	{
	"epoch": 1.0727969348659003,
	"grad_norm": 3.050917863845825,
	"learning_rate": 4.932998084291188e-05,
	"loss": 14.901,
	"step": 1400
	},
	{
	"epoch": 1.1494252873563218,
	"grad_norm": 1.6784011125564575,
	"learning_rate": 4.928208812260537e-05,
	"loss": 14.7073,
	"step": 1500
	},
	{
	"epoch": 1.2260536398467432,
	"grad_norm": 3.2630977630615234,
	"learning_rate": 4.923419540229886e-05,
	"loss": 14.9142,
	"step": 1600
	},
	{
	"epoch": 1.3026819923371646,
	"grad_norm": 1.6106696128845215,
	"learning_rate": 4.9186302681992344e-05,
	"loss": 14.9731,
	"step": 1700
	},
	{
	"epoch": 1.3793103448275863,
	"grad_norm": 4.378266334533691,
	"learning_rate": 4.9138409961685824e-05,
	"loss": 14.5922,
	"step": 1800
	},
	{
	"epoch": 1.4559386973180077,
	"grad_norm": 2.196368455886841,
	"learning_rate": 4.909051724137931e-05,
	"loss": 15.024,
	"step": 1900
	},
	{
	"epoch": 1.5325670498084292,
	"grad_norm": 1.1820286512374878,
	"learning_rate": 4.90426245210728e-05,
	"loss": 14.6291,
	"step": 2000
	},
	{
	"epoch": 1.6091954022988506,
	"grad_norm": 2.6733219623565674,
	"learning_rate": 4.8994731800766285e-05,
	"loss": 15.1916,
	"step": 2100
	},
	{
	"epoch": 1.685823754789272,
	"grad_norm": 2.461630344390869,
	"learning_rate": 4.894683908045977e-05,
	"loss": 14.7438,
	"step": 2200
	},
	{
	"epoch": 1.7624521072796935,
	"grad_norm": 1.7039703130722046,
	"learning_rate": 4.889894636015326e-05,
	"loss": 14.3014,
	"step": 2300
	},
	{
	"epoch": 1.839080459770115,
	"grad_norm": 2.291198253631592,
	"learning_rate": 4.8851053639846746e-05,
	"loss": 14.5648,
	"step": 2400
	},
	{
	"epoch": 1.9157088122605364,
	"grad_norm": 2.088695764541626,
	"learning_rate": 4.880316091954023e-05,
	"loss": 14.2778,
	"step": 2500
	},
	{
	"epoch": 1.9923371647509578,
	"grad_norm": 1.9745572805404663,
	"learning_rate": 4.875526819923372e-05,
	"loss": 14.612,
	"step": 2600
	},
	{
	"epoch": 2.0,
	"eval_loss": 14.947260856628418,
	"eval_runtime": 44.059,
	"eval_samples_per_second": 29.619,
	"eval_steps_per_second": 3.722,
	"step": 2610
	},
	{
	"epoch": 2.0689655172413794,
	"grad_norm": 3.296757698059082,
	"learning_rate": 4.8707375478927206e-05,
	"loss": 14.4268,
	"step": 2700
	},
	{
	"epoch": 2.1455938697318007,
	"grad_norm": 1.2265104055404663,
	"learning_rate": 4.865948275862069e-05,
	"loss": 14.3716,
	"step": 2800
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 2.3575916290283203,
	"learning_rate": 4.861159003831418e-05,
	"loss": 14.2911,
	"step": 2900
	},
	{
	"epoch": 2.2988505747126435,
	"grad_norm": 1.535346508026123,
	"learning_rate": 4.856369731800767e-05,
	"loss": 14.0469,
	"step": 3000
	},
	{
	"epoch": 2.375478927203065,
	"grad_norm": 2.3857269287109375,
	"learning_rate": 4.8515804597701154e-05,
	"loss": 14.0246,
	"step": 3100
	},
	{
	"epoch": 2.4521072796934864,
	"grad_norm": 1.46570885181427,
	"learning_rate": 4.846791187739464e-05,
	"loss": 14.0864,
	"step": 3200
	},
	{
	"epoch": 2.528735632183908,
	"grad_norm": 1.3398170471191406,
	"learning_rate": 4.842001915708813e-05,
	"loss": 14.1075,
	"step": 3300
	},
	{
	"epoch": 2.6053639846743293,
	"grad_norm": 1.4247232675552368,
	"learning_rate": 4.8372126436781614e-05,
	"loss": 13.9681,
	"step": 3400
	},
	{
	"epoch": 2.681992337164751,
	"grad_norm": 1.602295160293579,
	"learning_rate": 4.83242337164751e-05,
	"loss": 14.0847,
	"step": 3500
	},
	{
	"epoch": 2.7586206896551726,
	"grad_norm": 1.8135626316070557,
	"learning_rate": 4.827634099616858e-05,
	"loss": 13.9871,
	"step": 3600
	},
	{
	"epoch": 2.835249042145594,
	"grad_norm": 2.3612937927246094,
	"learning_rate": 4.822844827586207e-05,
	"loss": 14.043,
	"step": 3700
	},
	{
	"epoch": 2.9118773946360155,
	"grad_norm": 2.1295549869537354,
	"learning_rate": 4.8180555555555555e-05,
	"loss": 14.0695,
	"step": 3800
	},
	{
	"epoch": 2.9885057471264367,
	"grad_norm": 2.768362283706665,
	"learning_rate": 4.813266283524904e-05,
	"loss": 13.8804,
	"step": 3900
	},
	{
	"epoch": 3.0,
	"eval_loss": 14.543105125427246,
	"eval_runtime": 44.0531,
	"eval_samples_per_second": 29.623,
	"eval_steps_per_second": 3.723,
	"step": 3915
	},
	{
	"epoch": 3.0651340996168583,
	"grad_norm": 2.190544366836548,
	"learning_rate": 4.808477011494253e-05,
	"loss": 13.8831,
	"step": 4000
	},
	{
	"epoch": 3.1417624521072796,
	"grad_norm": 1.6555811166763306,
	"learning_rate": 4.8036877394636016e-05,
	"loss": 13.661,
	"step": 4100
	},
	{
	"epoch": 3.218390804597701,
	"grad_norm": 1.1204612255096436,
	"learning_rate": 4.798898467432951e-05,
	"loss": 13.9753,
	"step": 4200
	},
	{
	"epoch": 3.2950191570881224,
	"grad_norm": 2.3801109790802,
	"learning_rate": 4.7941091954022996e-05,
	"loss": 13.9332,
	"step": 4300
	},
	{
	"epoch": 3.371647509578544,
	"grad_norm": 1.314393162727356,
	"learning_rate": 4.7893199233716476e-05,
	"loss": 13.8442,
	"step": 4400
	},
	{
	"epoch": 3.4482758620689653,
	"grad_norm": 2.0551559925079346,
	"learning_rate": 4.784530651340996e-05,
	"loss": 13.5678,
	"step": 4500
	},
	{
	"epoch": 3.524904214559387,
	"grad_norm": 1.4303470849990845,
	"learning_rate": 4.779741379310345e-05,
	"loss": 13.7754,
	"step": 4600
	},
	{
	"epoch": 3.6015325670498086,
	"grad_norm": 2.2181780338287354,
	"learning_rate": 4.774952107279694e-05,
	"loss": 13.5568,
	"step": 4700
	},
	{
	"epoch": 3.67816091954023,
	"grad_norm": 1.377549648284912,
	"learning_rate": 4.7701628352490424e-05,
	"loss": 13.4359,
	"step": 4800
	},
	{
	"epoch": 3.7547892720306515,
	"grad_norm": 1.6644877195358276,
	"learning_rate": 4.765373563218391e-05,
	"loss": 13.6701,
	"step": 4900
	},
	{
	"epoch": 3.8314176245210727,
	"grad_norm": 1.6416462659835815,
	"learning_rate": 4.76058429118774e-05,
	"loss": 13.6427,
	"step": 5000
	},
	{
	"epoch": 3.9080459770114944,
	"grad_norm": 1.5726954936981201,
	"learning_rate": 4.7557950191570885e-05,
	"loss": 13.6802,
	"step": 5100
	},
	{
	"epoch": 3.9846743295019156,
	"grad_norm": 1.3120722770690918,
	"learning_rate": 4.751005747126437e-05,
	"loss": 13.6631,
	"step": 5200
	},
	{
	"epoch": 4.0,
	"eval_loss": 14.28848934173584,
	"eval_runtime": 44.0456,
	"eval_samples_per_second": 29.628,
	"eval_steps_per_second": 3.723,
	"step": 5220
	},
	{
	"epoch": 4.061302681992337,
	"grad_norm": 1.9124590158462524,
	"learning_rate": 4.746216475095785e-05,
	"loss": 13.5388,
	"step": 5300
	},
	{
	"epoch": 4.137931034482759,
	"grad_norm": 1.3689558506011963,
	"learning_rate": 4.741427203065134e-05,
	"loss": 13.5553,
	"step": 5400
	},
	{
	"epoch": 4.21455938697318,
	"grad_norm": 1.6370700597763062,
	"learning_rate": 4.7366379310344825e-05,
	"loss": 13.5781,
	"step": 5500
	},
	{
	"epoch": 4.291187739463601,
	"grad_norm": 1.993304967880249,
	"learning_rate": 4.731848659003832e-05,
	"loss": 13.5261,
	"step": 5600
	},
	{
	"epoch": 4.3678160919540225,
	"grad_norm": 2.3975770473480225,
	"learning_rate": 4.7270593869731806e-05,
	"loss": 13.4305,
	"step": 5700
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 1.9231036901474,
	"learning_rate": 4.722270114942529e-05,
	"loss": 13.3994,
	"step": 5800
	},
	{
	"epoch": 4.521072796934866,
	"grad_norm": 1.0928981304168701,
	"learning_rate": 4.717480842911878e-05,
	"loss": 13.3212,
	"step": 5900
	},
	{
	"epoch": 4.597701149425287,
	"grad_norm": 1.3092130422592163,
	"learning_rate": 4.7126915708812266e-05,
	"loss": 13.4476,
	"step": 6000
	},
	{
	"epoch": 4.674329501915709,
	"grad_norm": 2.0151021480560303,
	"learning_rate": 4.7079022988505747e-05,
	"loss": 13.1863,
	"step": 6100
	},
	{
	"epoch": 4.75095785440613,
	"grad_norm": 1.2778387069702148,
	"learning_rate": 4.7031130268199233e-05,
	"loss": 13.3661,
	"step": 6200
	},
	{
	"epoch": 4.827586206896552,
	"grad_norm": 1.1671264171600342,
	"learning_rate": 4.698371647509579e-05,
	"loss": 13.3803,
	"step": 6300
	},
	{
	"epoch": 4.904214559386973,
	"grad_norm": 0.9788312911987305,
	"learning_rate": 4.693582375478928e-05,
	"loss": 13.495,
	"step": 6400
	},
	{
	"epoch": 4.980842911877395,
	"grad_norm": 3.2978639602661133,
	"learning_rate": 4.6887931034482766e-05,
	"loss": 13.4834,
	"step": 6500
	},
	{
	"epoch": 5.0,
	"eval_loss": 14.041104316711426,
	"eval_runtime": 43.9982,
	"eval_samples_per_second": 29.66,
	"eval_steps_per_second": 3.727,
	"step": 6525
	},
	{
	"epoch": 5.057471264367816,
	"grad_norm": 1.6198067665100098,
	"learning_rate": 4.6840038314176246e-05,
	"loss": 13.1646,
	"step": 6600
	},
	{
	"epoch": 5.134099616858237,
	"grad_norm": 5.732328414916992,
	"learning_rate": 4.679214559386973e-05,
	"loss": 13.4168,
	"step": 6700
	},
	{
	"epoch": 5.210727969348659,
	"grad_norm": 1.518420934677124,
	"learning_rate": 4.674425287356322e-05,
	"loss": 13.2907,
	"step": 6800
	},
	{
	"epoch": 5.287356321839081,
	"grad_norm": 1.6062932014465332,
	"learning_rate": 4.6696360153256706e-05,
	"loss": 13.406,
	"step": 6900
	},
	{
	"epoch": 5.363984674329502,
	"grad_norm": 2.5659947395324707,
	"learning_rate": 4.664846743295019e-05,
	"loss": 13.252,
	"step": 7000
	},
	{
	"epoch": 5.440613026819923,
	"grad_norm": 1.4965115785598755,
	"learning_rate": 4.660057471264368e-05,
	"loss": 13.2683,
	"step": 7100
	},
	{
	"epoch": 5.517241379310345,
	"grad_norm": 2.3210604190826416,
	"learning_rate": 4.655268199233717e-05,
	"loss": 13.1846,
	"step": 7200
	},
	{
	"epoch": 5.593869731800766,
	"grad_norm": 1.508138656616211,
	"learning_rate": 4.6504789272030654e-05,
	"loss": 13.1303,
	"step": 7300
	},
	{
	"epoch": 5.670498084291188,
	"grad_norm": 1.2769402265548706,
	"learning_rate": 4.645689655172414e-05,
	"loss": 13.1109,
	"step": 7400
	},
	{
	"epoch": 5.747126436781609,
	"grad_norm": 3.0062999725341797,
	"learning_rate": 4.640900383141763e-05,
	"loss": 13.1859,
	"step": 7500
	},
	{
	"epoch": 5.823754789272031,
	"grad_norm": 1.4893639087677002,
	"learning_rate": 4.636111111111111e-05,
	"loss": 13.2236,
	"step": 7600
	},
	{
	"epoch": 5.900383141762452,
	"grad_norm": 1.9955596923828125,
	"learning_rate": 4.63132183908046e-05,
	"loss": 13.2806,
	"step": 7700
	},
	{
	"epoch": 5.977011494252873,
	"grad_norm": 1.733920931816101,
	"learning_rate": 4.626532567049809e-05,
	"loss": 12.9426,
	"step": 7800
	},
	{
	"epoch": 6.0,
	"eval_loss": 13.950128555297852,
	"eval_runtime": 44.0078,
	"eval_samples_per_second": 29.654,
	"eval_steps_per_second": 3.727,
	"step": 7830
	},
	{
	"epoch": 6.053639846743295,
	"grad_norm": 1.3697247505187988,
	"learning_rate": 4.6217432950191575e-05,
	"loss": 13.001,
	"step": 7900
	},
	{
	"epoch": 6.130268199233717,
	"grad_norm": 1.7222646474838257,
	"learning_rate": 4.616954022988506e-05,
	"loss": 13.1098,
	"step": 8000
	},
	{
	"epoch": 6.206896551724138,
	"grad_norm": 1.5488767623901367,
	"learning_rate": 4.612164750957855e-05,
	"loss": 13.2406,
	"step": 8100
	},
	{
	"epoch": 6.283524904214559,
	"grad_norm": 1.1356619596481323,
	"learning_rate": 4.6073754789272036e-05,
	"loss": 13.0969,
	"step": 8200
	},
	{
	"epoch": 6.360153256704981,
	"grad_norm": 2.161534547805786,
	"learning_rate": 4.602586206896552e-05,
	"loss": 12.8021,
	"step": 8300
	},
	{
	"epoch": 6.436781609195402,
	"grad_norm": 1.42888605594635,
	"learning_rate": 4.5977969348659e-05,
	"loss": 13.007,
	"step": 8400
	},
	{
	"epoch": 6.513409961685824,
	"grad_norm": 1.5181623697280884,
	"learning_rate": 4.593007662835249e-05,
	"loss": 13.2494,
	"step": 8500
	},
	{
	"epoch": 6.590038314176245,
	"grad_norm": 2.6794161796569824,
	"learning_rate": 4.588218390804598e-05,
	"loss": 13.0472,
	"step": 8600
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 1.3213189840316772,
	"learning_rate": 4.5834291187739464e-05,
	"loss": 12.7648,
	"step": 8700
	},
	{
	"epoch": 6.743295019157088,
	"grad_norm": 1.1679490804672241,
	"learning_rate": 4.578639846743295e-05,
	"loss": 13.0907,
	"step": 8800
	},
	{
	"epoch": 6.819923371647509,
	"grad_norm": 1.7697467803955078,
	"learning_rate": 4.573850574712644e-05,
	"loss": 12.8777,
	"step": 8900
	},
	{
	"epoch": 6.896551724137931,
	"grad_norm": 1.7574371099472046,
	"learning_rate": 4.5690613026819924e-05,
	"loss": 12.8949,
	"step": 9000
	},
	{
	"epoch": 6.973180076628353,
	"grad_norm": 1.8508405685424805,
	"learning_rate": 4.564272030651342e-05,
	"loss": 13.0364,
	"step": 9100
	},
	{
	"epoch": 7.0,
	"eval_loss": 13.742591857910156,
	"eval_runtime": 44.1082,
	"eval_samples_per_second": 29.586,
	"eval_steps_per_second": 3.718,
	"step": 9135
	},
	{
	"epoch": 7.049808429118774,
	"grad_norm": 1.304430365562439,
	"learning_rate": 4.55948275862069e-05,
	"loss": 13.1197,
	"step": 9200
	},
	{
	"epoch": 7.126436781609195,
	"grad_norm": 1.112478256225586,
	"learning_rate": 4.5546934865900385e-05,
	"loss": 13.072,
	"step": 9300
	},
	{
	"epoch": 7.203065134099617,
	"grad_norm": 1.6277681589126587,
	"learning_rate": 4.5499521072796937e-05,
	"loss": 12.8787,
	"step": 9400
	},
	{
	"epoch": 7.2796934865900385,
	"grad_norm": 1.6854459047317505,
	"learning_rate": 4.5451628352490423e-05,
	"loss": 12.9961,
	"step": 9500
	},
	{
	"epoch": 7.35632183908046,
	"grad_norm": 1.5988355875015259,
	"learning_rate": 4.540373563218391e-05,
	"loss": 12.9588,
	"step": 9600
	},
	{
	"epoch": 7.432950191570881,
	"grad_norm": 1.0676491260528564,
	"learning_rate": 4.53558429118774e-05,
	"loss": 12.8359,
	"step": 9700
	},
	{
	"epoch": 7.509578544061303,
	"grad_norm": 1.8556437492370605,
	"learning_rate": 4.5307950191570884e-05,
	"loss": 12.813,
	"step": 9800
	},
	{
	"epoch": 7.586206896551724,
	"grad_norm": 1.5877550840377808,
	"learning_rate": 4.526005747126437e-05,
	"loss": 12.9205,
	"step": 9900
	},
	{
	"epoch": 7.662835249042145,
	"grad_norm": 1.2095483541488647,
	"learning_rate": 4.521216475095786e-05,
	"loss": 12.9472,
	"step": 10000
	},
	{
	"epoch": 7.739463601532567,
	"grad_norm": 3.998228073120117,
	"learning_rate": 4.5164272030651345e-05,
	"loss": 12.871,
	"step": 10100
	},
	{
	"epoch": 7.816091954022989,
	"grad_norm": 1.4408106803894043,
	"learning_rate": 4.511637931034483e-05,
	"loss": 12.9723,
	"step": 10200
	},
	{
	"epoch": 7.89272030651341,
	"grad_norm": 0.9685239791870117,
	"learning_rate": 4.506848659003832e-05,
	"loss": 12.7816,
	"step": 10300
	},
	{
	"epoch": 7.969348659003831,
	"grad_norm": 2.4164698123931885,
	"learning_rate": 4.5020593869731805e-05,
	"loss": 12.8656,
	"step": 10400
	},
	{
	"epoch": 8.0,
	"eval_loss": 13.643902778625488,
	"eval_runtime": 44.1312,
	"eval_samples_per_second": 29.571,
	"eval_steps_per_second": 3.716,
	"step": 10440
	},
	{
	"epoch": 8.045977011494253,
	"grad_norm": 1.4973284006118774,
	"learning_rate": 4.497270114942529e-05,
	"loss": 12.9654,
	"step": 10500
	},
	{
	"epoch": 8.122605363984674,
	"grad_norm": 1.9837547540664673,
	"learning_rate": 4.492480842911877e-05,
	"loss": 12.9358,
	"step": 10600
	},
	{
	"epoch": 8.199233716475096,
	"grad_norm": 2.1501142978668213,
	"learning_rate": 4.487691570881226e-05,
	"loss": 12.9226,
	"step": 10700
	},
	{
	"epoch": 8.275862068965518,
	"grad_norm": 1.959155797958374,
	"learning_rate": 4.4829022988505746e-05,
	"loss": 12.8136,
	"step": 10800
	},
	{
	"epoch": 8.352490421455938,
	"grad_norm": 1.7081148624420166,
	"learning_rate": 4.478113026819923e-05,
	"loss": 12.6215,
	"step": 10900
	},
	{
	"epoch": 8.42911877394636,
	"grad_norm": 3.0818092823028564,
	"learning_rate": 4.473323754789272e-05,
	"loss": 12.7263,
	"step": 11000
	},
	{
	"epoch": 8.505747126436782,
	"grad_norm": 1.2609460353851318,
	"learning_rate": 4.468534482758621e-05,
	"loss": 12.615,
	"step": 11100
	},
	{
	"epoch": 8.582375478927203,
	"grad_norm": 1.1553901433944702,
	"learning_rate": 4.46374521072797e-05,
	"loss": 12.9115,
	"step": 11200
	},
	{
	"epoch": 8.659003831417625,
	"grad_norm": 2.876321792602539,
	"learning_rate": 4.458955938697319e-05,
	"loss": 12.8372,
	"step": 11300
	},
	{
	"epoch": 8.735632183908045,
	"grad_norm": 2.3537096977233887,
	"learning_rate": 4.454166666666667e-05,
	"loss": 12.8684,
	"step": 11400
	},
	{
	"epoch": 8.812260536398467,
	"grad_norm": 1.4264323711395264,
	"learning_rate": 4.4493773946360154e-05,
	"loss": 12.6151,
	"step": 11500
	},
	{
	"epoch": 8.88888888888889,
	"grad_norm": 1.8997728824615479,
	"learning_rate": 4.4446360153256706e-05,
	"loss": 12.8187,
	"step": 11600
	},
	{
	"epoch": 8.96551724137931,
	"grad_norm": 1.8338580131530762,
	"learning_rate": 4.439846743295019e-05,
	"loss": 12.7365,
	"step": 11700
	},
	{
	"epoch": 9.0,
	"eval_loss": 13.53819465637207,
	"eval_runtime": 44.0314,
	"eval_samples_per_second": 29.638,
	"eval_steps_per_second": 3.725,
	"step": 11745
	},
	{
	"epoch": 9.042145593869732,
	"grad_norm": 12.737005233764648,
	"learning_rate": 4.4351053639846745e-05,
	"loss": 12.8002,
	"step": 11800
	},
	{
	"epoch": 9.118773946360154,
	"grad_norm": 1.8820631504058838,
	"learning_rate": 4.430316091954023e-05,
	"loss": 12.8415,
	"step": 11900
	},
	{
	"epoch": 9.195402298850574,
	"grad_norm": 1.5012093782424927,
	"learning_rate": 4.425526819923372e-05,
	"loss": 12.8011,
	"step": 12000
	},
	{
	"epoch": 9.272030651340996,
	"grad_norm": 2.5062639713287354,
	"learning_rate": 4.4207375478927205e-05,
	"loss": 12.7156,
	"step": 12100
	},
	{
	"epoch": 9.348659003831418,
	"grad_norm": 1.5295358896255493,
	"learning_rate": 4.415948275862069e-05,
	"loss": 12.8449,
	"step": 12200
	},
	{
	"epoch": 9.425287356321839,
	"grad_norm": 1.6232823133468628,
	"learning_rate": 4.411159003831418e-05,
	"loss": 12.7345,
	"step": 12300
	},
	{
	"epoch": 9.50191570881226,
	"grad_norm": 1.4783318042755127,
	"learning_rate": 4.4063697318007666e-05,
	"loss": 12.7392,
	"step": 12400
	},
	{
	"epoch": 9.578544061302683,
	"grad_norm": 1.7494572401046753,
	"learning_rate": 4.4015804597701146e-05,
	"loss": 12.6017,
	"step": 12500
	},
	{
	"epoch": 9.655172413793103,
	"grad_norm": 2.065991163253784,
	"learning_rate": 4.396791187739464e-05,
	"loss": 12.695,
	"step": 12600
	},
	{
	"epoch": 9.731800766283525,
	"grad_norm": 1.2360838651657104,
	"learning_rate": 4.3920019157088127e-05,
	"loss": 12.7994,
	"step": 12700
	},
	{
	"epoch": 9.808429118773946,
	"grad_norm": 2.084902048110962,
	"learning_rate": 4.3872126436781613e-05,
	"loss": 12.6864,
	"step": 12800
	},
	{
	"epoch": 9.885057471264368,
	"grad_norm": 1.4381409883499146,
	"learning_rate": 4.38242337164751e-05,
	"loss": 12.6875,
	"step": 12900
	},
	{
	"epoch": 9.96168582375479,
	"grad_norm": 1.5936471223831177,
	"learning_rate": 4.377634099616859e-05,
	"loss": 12.6413,
	"step": 13000
	},
	{
	"epoch": 10.0,
	"eval_loss": 13.456477165222168,
	"eval_runtime": 44.0741,
	"eval_samples_per_second": 29.609,
	"eval_steps_per_second": 3.721,
	"step": 13050
	},
	{
	"epoch": 10.03831417624521,
	"grad_norm": 1.1829323768615723,
	"learning_rate": 4.3728448275862074e-05,
	"loss": 12.7182,
	"step": 13100
	},
	{
	"epoch": 10.114942528735632,
	"grad_norm": 1.7679022550582886,
	"learning_rate": 4.368055555555556e-05,
	"loss": 12.7508,
	"step": 13200
	},
	{
	"epoch": 10.191570881226054,
	"grad_norm": 2.4053192138671875,
	"learning_rate": 4.363266283524904e-05,
	"loss": 12.5668,
	"step": 13300
	},
	{
	"epoch": 10.268199233716475,
	"grad_norm": 2.4858756065368652,
	"learning_rate": 4.358477011494253e-05,
	"loss": 12.6561,
	"step": 13400
	},
	{
	"epoch": 10.344827586206897,
	"grad_norm": 2.138453483581543,
	"learning_rate": 4.3536877394636015e-05,
	"loss": 12.6829,
	"step": 13500
	},
	{
	"epoch": 10.421455938697317,
	"grad_norm": 1.490075707435608,
	"learning_rate": 4.34889846743295e-05,
	"loss": 12.7284,
	"step": 13600
	},
	{
	"epoch": 10.49808429118774,
	"grad_norm": 3.1338703632354736,
	"learning_rate": 4.344109195402299e-05,
	"loss": 12.5722,
	"step": 13700
	},
	{
	"epoch": 10.574712643678161,
	"grad_norm": 1.844388723373413,
	"learning_rate": 4.3393199233716475e-05,
	"loss": 12.8212,
	"step": 13800
	},
	{
	"epoch": 10.651340996168582,
	"grad_norm": 1.9379137754440308,
	"learning_rate": 4.334530651340996e-05,
	"loss": 12.368,
	"step": 13900
	},
	{
	"epoch": 10.727969348659004,
	"grad_norm": 4.608842849731445,
	"learning_rate": 4.3297413793103456e-05,
	"loss": 12.3258,
	"step": 14000
	},
	{
	"epoch": 10.804597701149426,
	"grad_norm": 1.607155680656433,
	"learning_rate": 4.325e-05,
	"loss": 12.8355,
	"step": 14100
	},
	{
	"epoch": 10.881226053639846,
	"grad_norm": 1.7595943212509155,
	"learning_rate": 4.320210727969349e-05,
	"loss": 12.6135,
	"step": 14200
	},
	{
	"epoch": 10.957854406130268,
	"grad_norm": 1.7879704236984253,
	"learning_rate": 4.3154214559386975e-05,
	"loss": 12.7107,
	"step": 14300
	},
	{
	"epoch": 11.0,
	"eval_loss": 13.364398002624512,
	"eval_runtime": 44.0273,
	"eval_samples_per_second": 29.641,
	"eval_steps_per_second": 3.725,
	"step": 14355
	},
	{
	"epoch": 11.03448275862069,
	"grad_norm": 3.187349557876587,
	"learning_rate": 4.310632183908046e-05,
	"loss": 12.7471,
	"step": 14400
	},
	{
	"epoch": 11.11111111111111,
	"grad_norm": 3.118311643600464,
	"learning_rate": 4.305842911877395e-05,
	"loss": 12.4422,
	"step": 14500
	},
	{
	"epoch": 11.187739463601533,
	"grad_norm": 2.276580333709717,
	"learning_rate": 4.3010536398467435e-05,
	"loss": 12.5443,
	"step": 14600
	},
	{
	"epoch": 11.264367816091955,
	"grad_norm": 1.3369340896606445,
	"learning_rate": 4.296264367816092e-05,
	"loss": 12.7497,
	"step": 14700
	},
	{
	"epoch": 11.340996168582375,
	"grad_norm": 1.2438215017318726,
	"learning_rate": 4.291475095785441e-05,
	"loss": 12.6343,
	"step": 14800
	},
	{
	"epoch": 11.417624521072797,
	"grad_norm": 1.668867826461792,
	"learning_rate": 4.2866858237547896e-05,
	"loss": 12.673,
	"step": 14900
	},
	{
	"epoch": 11.494252873563218,
	"grad_norm": 2.550316572189331,
	"learning_rate": 4.281896551724138e-05,
	"loss": 12.7346,
	"step": 15000
	},
	{
	"epoch": 11.57088122605364,
	"grad_norm": 1.3926326036453247,
	"learning_rate": 4.277107279693487e-05,
	"loss": 12.5431,
	"step": 15100
	},
	{
	"epoch": 11.647509578544062,
	"grad_norm": 1.3561134338378906,
	"learning_rate": 4.272318007662836e-05,
	"loss": 12.4943,
	"step": 15200
	},
	{
	"epoch": 11.724137931034482,
	"grad_norm": 1.4978444576263428,
	"learning_rate": 4.2675287356321844e-05,
	"loss": 12.4103,
	"step": 15300
	},
	{
	"epoch": 11.800766283524904,
	"grad_norm": 1.8163210153579712,
	"learning_rate": 4.262739463601533e-05,
	"loss": 12.5454,
	"step": 15400
	},
	{
	"epoch": 11.877394636015326,
	"grad_norm": 1.3819987773895264,
	"learning_rate": 4.257950191570881e-05,
	"loss": 12.5219,
	"step": 15500
	},
	{
	"epoch": 11.954022988505747,
	"grad_norm": 1.6237196922302246,
	"learning_rate": 4.25316091954023e-05,
	"loss": 12.5876,
	"step": 15600
	},
	{
	"epoch": 12.0,
	"eval_loss": 13.39963436126709,
	"eval_runtime": 44.002,
	"eval_samples_per_second": 29.658,
	"eval_steps_per_second": 3.727,
	"step": 15660
	},
	{
	"epoch": 12.030651340996169,
	"grad_norm": 1.1271090507507324,
	"learning_rate": 4.2483716475095784e-05,
	"loss": 12.3581,
	"step": 15700
	},
	{
	"epoch": 12.10727969348659,
	"grad_norm": 1.5027310848236084,
	"learning_rate": 4.243582375478927e-05,
	"loss": 12.5517,
	"step": 15800
	},
	{
	"epoch": 12.183908045977011,
	"grad_norm": 1.5543391704559326,
	"learning_rate": 4.238793103448276e-05,
	"loss": 12.7011,
	"step": 15900
	},
	{
	"epoch": 12.260536398467433,
	"grad_norm": 1.7037404775619507,
	"learning_rate": 4.2340038314176245e-05,
	"loss": 12.289,
	"step": 16000
	},
	{
	"epoch": 12.337164750957854,
	"grad_norm": 4.505245208740234,
	"learning_rate": 4.229214559386974e-05,
	"loss": 12.3584,
	"step": 16100
	},
	{
	"epoch": 12.413793103448276,
	"grad_norm": 1.5144113302230835,
	"learning_rate": 4.2244252873563225e-05,
	"loss": 12.4209,
	"step": 16200
	},
	{
	"epoch": 12.490421455938698,
	"grad_norm": 1.2396819591522217,
	"learning_rate": 4.2196360153256706e-05,
	"loss": 12.4463,
	"step": 16300
	},
	{
	"epoch": 12.567049808429118,
	"grad_norm": 5.947683334350586,
	"learning_rate": 4.214846743295019e-05,
	"loss": 12.6401,
	"step": 16400
	},
	{
	"epoch": 12.64367816091954,
	"grad_norm": 2.070812225341797,
	"learning_rate": 4.210057471264368e-05,
	"loss": 12.6885,
	"step": 16500
	},
	{
	"epoch": 12.720306513409962,
	"grad_norm": 1.7540252208709717,
	"learning_rate": 4.2052681992337166e-05,
	"loss": 12.3138,
	"step": 16600
	},
	{
	"epoch": 12.796934865900383,
	"grad_norm": 1.3372827768325806,
	"learning_rate": 4.200478927203065e-05,
	"loss": 12.8475,
	"step": 16700
	},
	{
	"epoch": 12.873563218390805,
	"grad_norm": 1.6598443984985352,
	"learning_rate": 4.195689655172414e-05,
	"loss": 12.575,
	"step": 16800
	},
	{
	"epoch": 12.950191570881227,
	"grad_norm": 1.5420461893081665,
	"learning_rate": 4.190900383141763e-05,
	"loss": 12.499,
	"step": 16900
	},
	{
	"epoch": 13.0,
	"eval_loss": 13.359596252441406,
	"eval_runtime": 43.9919,
	"eval_samples_per_second": 29.665,
	"eval_steps_per_second": 3.728,
	"step": 16965
	},
	{
	"epoch": 13.026819923371647,
	"grad_norm": 1.785803198814392,
	"learning_rate": 4.1861111111111114e-05,
	"loss": 12.3123,
	"step": 17000
	},
	{
	"epoch": 13.10344827586207,
	"grad_norm": 3.8619072437286377,
	"learning_rate": 4.1813697318007665e-05,
	"loss": 12.4633,
	"step": 17100
	},
	{
	"epoch": 13.18007662835249,
	"grad_norm": 1.2189018726348877,
	"learning_rate": 4.176580459770115e-05,
	"loss": 12.4732,
	"step": 17200
	},
	{
	"epoch": 13.256704980842912,
	"grad_norm": 3.579725742340088,
	"learning_rate": 4.171791187739464e-05,
	"loss": 12.3486,
	"step": 17300
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 1.258268117904663,
	"learning_rate": 4.1670019157088126e-05,
	"loss": 12.5506,
	"step": 17400
	},
	{
	"epoch": 13.409961685823754,
	"grad_norm": 1.6867891550064087,
	"learning_rate": 4.162212643678161e-05,
	"loss": 12.5667,
	"step": 17500
	},
	{
	"epoch": 13.486590038314176,
	"grad_norm": 1.5345897674560547,
	"learning_rate": 4.15742337164751e-05,
	"loss": 12.5206,
	"step": 17600
	},
	{
	"epoch": 13.563218390804598,
	"grad_norm": 1.1699010133743286,
	"learning_rate": 4.152634099616859e-05,
	"loss": 12.3728,
	"step": 17700
	},
	{
	"epoch": 13.639846743295019,
	"grad_norm": 1.669938325881958,
	"learning_rate": 4.147844827586207e-05,
	"loss": 12.4601,
	"step": 17800
	},
	{
	"epoch": 13.71647509578544,
	"grad_norm": 1.2530852556228638,
	"learning_rate": 4.1430555555555554e-05,
	"loss": 12.4501,
	"step": 17900
	},
	{
	"epoch": 13.793103448275861,
	"grad_norm": 1.790138840675354,
	"learning_rate": 4.138266283524904e-05,
	"loss": 12.467,
	"step": 18000
	},
	{
	"epoch": 13.869731800766283,
	"grad_norm": 1.3373574018478394,
	"learning_rate": 4.133477011494253e-05,
	"loss": 12.4602,
	"step": 18100
	},
	{
	"epoch": 13.946360153256705,
	"grad_norm": 1.837951898574829,
	"learning_rate": 4.128687739463602e-05,
	"loss": 12.4591,
	"step": 18200
	},
	{
	"epoch": 14.0,
	"eval_loss": 13.289255142211914,
	"eval_runtime": 43.9866,
	"eval_samples_per_second": 29.668,
	"eval_steps_per_second": 3.728,
	"step": 18270
	},
	{
	"epoch": 14.022988505747126,
	"grad_norm": 1.540867805480957,
	"learning_rate": 4.123898467432951e-05,
	"loss": 12.59,
	"step": 18300
	},
	{
	"epoch": 14.099616858237548,
	"grad_norm": 1.6285018920898438,
	"learning_rate": 4.1191091954022995e-05,
	"loss": 12.5162,
	"step": 18400
	},
	{
	"epoch": 14.17624521072797,
	"grad_norm": 0.8983919620513916,
	"learning_rate": 4.114319923371648e-05,
	"loss": 12.4312,
	"step": 18500
	},
	{
	"epoch": 14.25287356321839,
	"grad_norm": 1.7475948333740234,
	"learning_rate": 4.109530651340996e-05,
	"loss": 12.483,
	"step": 18600
	},
	{
	"epoch": 14.329501915708812,
	"grad_norm": 1.723708987236023,
	"learning_rate": 4.104741379310345e-05,
	"loss": 12.5177,
	"step": 18700
	},
	{
	"epoch": 14.406130268199234,
	"grad_norm": 1.3113809823989868,
	"learning_rate": 4.0999521072796936e-05,
	"loss": 12.3171,
	"step": 18800
	},
	{
	"epoch": 14.482758620689655,
	"grad_norm": 1.7641185522079468,
	"learning_rate": 4.095162835249042e-05,
	"loss": 12.4669,
	"step": 18900
	},
	{
	"epoch": 14.559386973180077,
	"grad_norm": 1.6181635856628418,
	"learning_rate": 4.090373563218391e-05,
	"loss": 12.3302,
	"step": 19000
	},
	{
	"epoch": 14.636015325670499,
	"grad_norm": 1.2323795557022095,
	"learning_rate": 4.0855842911877396e-05,
	"loss": 12.4211,
	"step": 19100
	},
	{
	"epoch": 14.71264367816092,
	"grad_norm": 1.7597166299819946,
	"learning_rate": 4.080795019157088e-05,
	"loss": 12.4985,
	"step": 19200
	},
	{
	"epoch": 14.789272030651341,
	"grad_norm": 1.0281277894973755,
	"learning_rate": 4.076005747126437e-05,
	"loss": 12.5672,
	"step": 19300
	},
	{
	"epoch": 14.865900383141762,
	"grad_norm": 3.3272478580474854,
	"learning_rate": 4.071216475095786e-05,
	"loss": 12.2671,
	"step": 19400
	},
	{
	"epoch": 14.942528735632184,
	"grad_norm": 3.1264896392822266,
	"learning_rate": 4.066427203065134e-05,
	"loss": 12.4736,
	"step": 19500
	},
	{
	"epoch": 15.0,
	"eval_loss": 13.205364227294922,
	"eval_runtime": 43.9612,
	"eval_samples_per_second": 29.685,
	"eval_steps_per_second": 3.731,
	"step": 19575
	},
	{
	"epoch": 15.019157088122606,
	"grad_norm": 1.568294882774353,
	"learning_rate": 4.061637931034483e-05,
	"loss": 12.4604,
	"step": 19600
	},
	{
	"epoch": 15.095785440613026,
	"grad_norm": 1.919912576675415,
	"learning_rate": 4.056848659003832e-05,
	"loss": 12.3773,
	"step": 19700
	},
	{
	"epoch": 15.172413793103448,
	"grad_norm": 1.5357537269592285,
	"learning_rate": 4.0520593869731804e-05,
	"loss": 12.3406,
	"step": 19800
	},
	{
	"epoch": 15.24904214559387,
	"grad_norm": 1.7306512594223022,
	"learning_rate": 4.0473180076628356e-05,
	"loss": 12.4036,
	"step": 19900
	},
	{
	"epoch": 15.32567049808429,
	"grad_norm": 1.6036773920059204,
	"learning_rate": 4.0425287356321836e-05,
	"loss": 12.3554,
	"step": 20000
	},
	{
	"epoch": 15.402298850574713,
	"grad_norm": 1.211962342262268,
	"learning_rate": 4.037739463601532e-05,
	"loss": 12.5084,
	"step": 20100
	},
	{
	"epoch": 15.478927203065133,
	"grad_norm": 1.4626506567001343,
	"learning_rate": 4.032950191570881e-05,
	"loss": 12.3593,
	"step": 20200
	},
	{
	"epoch": 15.555555555555555,
	"grad_norm": 1.6557157039642334,
	"learning_rate": 4.0281609195402304e-05,
	"loss": 12.3249,
	"step": 20300
	},
	{
	"epoch": 15.632183908045977,
	"grad_norm": 1.735300064086914,
	"learning_rate": 4.023371647509579e-05,
	"loss": 12.2958,
	"step": 20400
	},
	{
	"epoch": 15.708812260536398,
	"grad_norm": 1.2972387075424194,
	"learning_rate": 4.018582375478928e-05,
	"loss": 12.4011,
	"step": 20500
	},
	{
	"epoch": 15.78544061302682,
	"grad_norm": 1.2028956413269043,
	"learning_rate": 4.0137931034482764e-05,
	"loss": 12.3923,
	"step": 20600
	},
	{
	"epoch": 15.862068965517242,
	"grad_norm": 1.9574451446533203,
	"learning_rate": 4.009003831417625e-05,
	"loss": 12.4927,
	"step": 20700
	},
	{
	"epoch": 15.938697318007662,
	"grad_norm": 2.3753159046173096,
	"learning_rate": 4.004214559386973e-05,
	"loss": 12.4565,
	"step": 20800
	},
	{
	"epoch": 16.0,
	"eval_loss": 13.146517753601074,
	"eval_runtime": 43.956,
	"eval_samples_per_second": 29.689,
	"eval_steps_per_second": 3.731,
	"step": 20880
	},
	{
	"epoch": 16.015325670498083,
	"grad_norm": 1.4980436563491821,
	"learning_rate": 3.999425287356322e-05,
	"loss": 12.4546,
	"step": 20900
	},
	{
	"epoch": 16.091954022988507,
	"grad_norm": 1.2177377939224243,
	"learning_rate": 3.9946360153256705e-05,
	"loss": 12.3682,
	"step": 21000
	},
	{
	"epoch": 16.168582375478927,
	"grad_norm": 1.9785245656967163,
	"learning_rate": 3.989846743295019e-05,
	"loss": 12.4315,
	"step": 21100
	},
	{
	"epoch": 16.245210727969347,
	"grad_norm": 2.2773125171661377,
	"learning_rate": 3.985057471264368e-05,
	"loss": 12.4728,
	"step": 21200
	},
	{
	"epoch": 16.32183908045977,
	"grad_norm": 1.1049697399139404,
	"learning_rate": 3.9802681992337166e-05,
	"loss": 12.0735,
	"step": 21300
	},
	{
	"epoch": 16.39846743295019,
	"grad_norm": 2.937175750732422,
	"learning_rate": 3.975478927203065e-05,
	"loss": 12.4713,
	"step": 21400
	},
	{
	"epoch": 16.47509578544061,
	"grad_norm": 1.058626651763916,
	"learning_rate": 3.970689655172414e-05,
	"loss": 12.3329,
	"step": 21500
	},
	{
	"epoch": 16.551724137931036,
	"grad_norm": 2.357311248779297,
	"learning_rate": 3.9659003831417626e-05,
	"loss": 12.2249,
	"step": 21600
	},
	{
	"epoch": 16.628352490421456,
	"grad_norm": 1.0534141063690186,
	"learning_rate": 3.961111111111111e-05,
	"loss": 12.4414,
	"step": 21700
	},
	{
	"epoch": 16.704980842911876,
	"grad_norm": 1.5288047790527344,
	"learning_rate": 3.95632183908046e-05,
	"loss": 12.0682,
	"step": 21800
	},
	{
	"epoch": 16.7816091954023,
	"grad_norm": 2.628070831298828,
	"learning_rate": 3.951532567049809e-05,
	"loss": 12.367,
	"step": 21900
	},
	{
	"epoch": 16.85823754789272,
	"grad_norm": 1.4049383401870728,
	"learning_rate": 3.9467432950191574e-05,
	"loss": 12.1073,
	"step": 22000
	},
	{
	"epoch": 16.93486590038314,
	"grad_norm": 1.8470909595489502,
	"learning_rate": 3.941954022988506e-05,
	"loss": 12.3757,
	"step": 22100
	},
	{
	"epoch": 17.0,
	"eval_loss": 13.134416580200195,
	"eval_runtime": 44.0763,
	"eval_samples_per_second": 29.608,
	"eval_steps_per_second": 3.721,
	"step": 22185
	},
	{
	"epoch": 17.011494252873565,
	"grad_norm": 1.1388458013534546,
	"learning_rate": 3.937164750957855e-05,
	"loss": 12.6443,
	"step": 22200
	},
	{
	"epoch": 17.088122605363985,
	"grad_norm": 1.202028512954712,
	"learning_rate": 3.9323754789272034e-05,
	"loss": 12.3013,
	"step": 22300
	},
	{
	"epoch": 17.164750957854405,
	"grad_norm": 1.210375189781189,
	"learning_rate": 3.927586206896552e-05,
	"loss": 12.4812,
	"step": 22400
	},
	{
	"epoch": 17.24137931034483,
	"grad_norm": 1.6550730466842651,
	"learning_rate": 3.922796934865901e-05,
	"loss": 12.3152,
	"step": 22500
	},
	{
	"epoch": 17.31800766283525,
	"grad_norm": 1.5777093172073364,
	"learning_rate": 3.918007662835249e-05,
	"loss": 12.2296,
	"step": 22600
	},
	{
	"epoch": 17.39463601532567,
	"grad_norm": 7.877992153167725,
	"learning_rate": 3.9132183908045975e-05,
	"loss": 12.4408,
	"step": 22700
	},
	{
	"epoch": 17.47126436781609,
	"grad_norm": 1.6760473251342773,
	"learning_rate": 3.908429118773946e-05,
	"loss": 12.251,
	"step": 22800
	},
	{
	"epoch": 17.547892720306514,
	"grad_norm": 2.4793410301208496,
	"learning_rate": 3.903639846743295e-05,
	"loss": 12.3864,
	"step": 22900
	},
	{
	"epoch": 17.624521072796934,
	"grad_norm": 1.331120491027832,
	"learning_rate": 3.8988505747126436e-05,
	"loss": 12.0078,
	"step": 23000
	},
	{
	"epoch": 17.701149425287355,
	"grad_norm": 1.1477069854736328,
	"learning_rate": 3.894109195402299e-05,
	"loss": 12.2234,
	"step": 23100
	},
	{
	"epoch": 17.77777777777778,
	"grad_norm": 1.5665520429611206,
	"learning_rate": 3.8893199233716474e-05,
	"loss": 12.2716,
	"step": 23200
	},
	{
	"epoch": 17.8544061302682,
	"grad_norm": 1.4720168113708496,
	"learning_rate": 3.884530651340996e-05,
	"loss": 12.2528,
	"step": 23300
	},
	{
	"epoch": 17.93103448275862,
	"grad_norm": 1.4990317821502686,
	"learning_rate": 3.879741379310345e-05,
	"loss": 12.4111,
	"step": 23400
	},
	{
	"epoch": 18.0,
	"eval_loss": 13.10958194732666,
	"eval_runtime": 43.9884,
	"eval_samples_per_second": 29.667,
	"eval_steps_per_second": 3.728,
	"step": 23490
	},
	{
	"epoch": 18.007662835249043,
	"grad_norm": 1.653239130973816,
	"learning_rate": 3.8749521072796935e-05,
	"loss": 12.4558,
	"step": 23500
	},
	{
	"epoch": 18.084291187739463,
	"grad_norm": 1.3574182987213135,
	"learning_rate": 3.870162835249042e-05,
	"loss": 12.3242,
	"step": 23600
	},
	{
	"epoch": 18.160919540229884,
	"grad_norm": 2.0138070583343506,
	"learning_rate": 3.865373563218391e-05,
	"loss": 12.2255,
	"step": 23700
	},
	{
	"epoch": 18.237547892720308,
	"grad_norm": 1.6546958684921265,
	"learning_rate": 3.8605842911877396e-05,
	"loss": 12.3826,
	"step": 23800
	},
	{
	"epoch": 18.314176245210728,
	"grad_norm": 1.304247498512268,
	"learning_rate": 3.855795019157088e-05,
	"loss": 12.1766,
	"step": 23900
	},
	{
	"epoch": 18.39080459770115,
	"grad_norm": 1.109941005706787,
	"learning_rate": 3.851005747126437e-05,
	"loss": 12.3784,
	"step": 24000
	},
	{
	"epoch": 18.467432950191572,
	"grad_norm": 4.5435872077941895,
	"learning_rate": 3.8462164750957856e-05,
	"loss": 12.2292,
	"step": 24100
	},
	{
	"epoch": 18.544061302681992,
	"grad_norm": 2.141022205352783,
	"learning_rate": 3.841427203065134e-05,
	"loss": 12.2826,
	"step": 24200
	},
	{
	"epoch": 18.620689655172413,
	"grad_norm": 1.6946494579315186,
	"learning_rate": 3.836637931034483e-05,
	"loss": 12.3012,
	"step": 24300
	},
	{
	"epoch": 18.697318007662837,
	"grad_norm": 1.3159388303756714,
	"learning_rate": 3.831848659003832e-05,
	"loss": 12.1835,
	"step": 24400
	},
	{
	"epoch": 18.773946360153257,
	"grad_norm": 2.499986410140991,
	"learning_rate": 3.8270593869731804e-05,
	"loss": 12.4302,
	"step": 24500
	},
	{
	"epoch": 18.850574712643677,
	"grad_norm": 1.7443987131118774,
	"learning_rate": 3.822270114942529e-05,
	"loss": 12.5402,
	"step": 24600
	},
	{
	"epoch": 18.9272030651341,
	"grad_norm": 1.4758720397949219,
	"learning_rate": 3.817480842911878e-05,
	"loss": 12.3978,
	"step": 24700
	},
	{
	"epoch": 19.0,
	"eval_loss": 13.101744651794434,
	"eval_runtime": 43.9919,
	"eval_samples_per_second": 29.665,
	"eval_steps_per_second": 3.728,
	"step": 24795
	},
	{
	"epoch": 19.00383141762452,
	"grad_norm": 1.774843454360962,
	"learning_rate": 3.812691570881226e-05,
	"loss": 12.2954,
	"step": 24800
	},
	{
	"epoch": 19.080459770114942,
	"grad_norm": 1.693176031112671,
	"learning_rate": 3.8079022988505745e-05,
	"loss": 12.3156,
	"step": 24900
	},
	{
	"epoch": 19.157088122605366,
	"grad_norm": 1.3531700372695923,
	"learning_rate": 3.803113026819923e-05,
	"loss": 12.3989,
	"step": 25000
	},
	{
	"epoch": 19.233716475095786,
	"grad_norm": 2.083587884902954,
	"learning_rate": 3.798323754789272e-05,
	"loss": 12.3523,
	"step": 25100
	},
	{
	"epoch": 19.310344827586206,
	"grad_norm": 2.1645917892456055,
	"learning_rate": 3.793534482758621e-05,
	"loss": 12.0512,
	"step": 25200
	},
	{
	"epoch": 19.386973180076627,
	"grad_norm": 1.8869907855987549,
	"learning_rate": 3.78874521072797e-05,
	"loss": 12.4837,
	"step": 25300
	},
	{
	"epoch": 19.46360153256705,
	"grad_norm": 1.2421497106552124,
	"learning_rate": 3.7840038314176244e-05,
	"loss": 11.9937,
	"step": 25400
	},
	{
	"epoch": 19.54022988505747,
	"grad_norm": 1.5155110359191895,
	"learning_rate": 3.779214559386973e-05,
	"loss": 12.2264,
	"step": 25500
	},
	{
	"epoch": 19.61685823754789,
	"grad_norm": 1.1511332988739014,
	"learning_rate": 3.774425287356322e-05,
	"loss": 12.2063,
	"step": 25600
	},
	{
	"epoch": 19.693486590038315,
	"grad_norm": 1.8984183073043823,
	"learning_rate": 3.7696360153256705e-05,
	"loss": 12.3237,
	"step": 25700
	},
	{
	"epoch": 19.770114942528735,
	"grad_norm": 0.9674005508422852,
	"learning_rate": 3.764846743295019e-05,
	"loss": 12.1877,
	"step": 25800
	},
	{
	"epoch": 19.846743295019156,
	"grad_norm": 2.0560641288757324,
	"learning_rate": 3.7600574712643685e-05,
	"loss": 12.2343,
	"step": 25900
	},
	{
	"epoch": 19.92337164750958,
	"grad_norm": 1.3923600912094116,
	"learning_rate": 3.755268199233717e-05,
	"loss": 12.2683,
	"step": 26000
	},
	{
	"epoch": 20.0,
	"grad_norm": 2.9314024448394775,
	"learning_rate": 3.750478927203065e-05,
	"loss": 12.3074,
	"step": 26100
	},
	{
	"epoch": 20.0,
	"eval_loss": 13.07620906829834,
	"eval_runtime": 43.9934,
	"eval_samples_per_second": 29.664,
	"eval_steps_per_second": 3.728,
	"step": 26100
	},
	{
	"epoch": 20.07662835249042,
	"grad_norm": 1.5305142402648926,
	"learning_rate": 3.745689655172414e-05,
	"loss": 12.2615,
	"step": 26200
	},
	{
	"epoch": 20.153256704980844,
	"grad_norm": 1.3846060037612915,
	"learning_rate": 3.7409003831417626e-05,
	"loss": 12.3109,
	"step": 26300
	},
	{
	"epoch": 20.229885057471265,
	"grad_norm": 3.0465173721313477,
	"learning_rate": 3.736111111111111e-05,
	"loss": 12.258,
	"step": 26400
	},
	{
	"epoch": 20.306513409961685,
	"grad_norm": 3.9723782539367676,
	"learning_rate": 3.73132183908046e-05,
	"loss": 12.2494,
	"step": 26500
	},
	{
	"epoch": 20.38314176245211,
	"grad_norm": 1.464296817779541,
	"learning_rate": 3.7265325670498086e-05,
	"loss": 12.2231,
	"step": 26600
	},
	{
	"epoch": 20.45977011494253,
	"grad_norm": 1.6789374351501465,
	"learning_rate": 3.721743295019157e-05,
	"loss": 12.3391,
	"step": 26700
	},
	{
	"epoch": 20.53639846743295,
	"grad_norm": 1.1731619834899902,
	"learning_rate": 3.716954022988506e-05,
	"loss": 12.2172,
	"step": 26800
	},
	{
	"epoch": 20.613026819923373,
	"grad_norm": 2.8839802742004395,
	"learning_rate": 3.712164750957855e-05,
	"loss": 12.251,
	"step": 26900
	},
	{
	"epoch": 20.689655172413794,
	"grad_norm": 1.3104863166809082,
	"learning_rate": 3.707375478927203e-05,
	"loss": 12.4269,
	"step": 27000
	},
	{
	"epoch": 20.766283524904214,
	"grad_norm": 2.5182230472564697,
	"learning_rate": 3.7025862068965514e-05,
	"loss": 12.1972,
	"step": 27100
	},
	{
	"epoch": 20.842911877394634,
	"grad_norm": 1.4510316848754883,
	"learning_rate": 3.6977969348659e-05,
	"loss": 12.1446,
	"step": 27200
	},
	{
	"epoch": 20.919540229885058,
	"grad_norm": 1.7377287149429321,
	"learning_rate": 3.6930076628352495e-05,
	"loss": 12.2374,
	"step": 27300
	},
	{
	"epoch": 20.99616858237548,
	"grad_norm": 1.308686375617981,
	"learning_rate": 3.6882662835249046e-05,
	"loss": 12.2169,
	"step": 27400
	},
	{
	"epoch": 21.0,
	"eval_loss": 13.027502059936523,
	"eval_runtime": 44.025,
	"eval_samples_per_second": 29.642,
	"eval_steps_per_second": 3.725,
	"step": 27405
	},
	{
	"epoch": 21.0727969348659,
	"grad_norm": 1.7697923183441162,
	"learning_rate": 3.6834770114942526e-05,
	"loss": 12.3711,
	"step": 27500
	},
	{
	"epoch": 21.149425287356323,
	"grad_norm": 1.2963312864303589,
	"learning_rate": 3.678687739463601e-05,
	"loss": 12.1974,
	"step": 27600
	},
	{
	"epoch": 21.226053639846743,
	"grad_norm": 1.617470383644104,
	"learning_rate": 3.67389846743295e-05,
	"loss": 12.1879,
	"step": 27700
	},
	{
	"epoch": 21.302681992337163,
	"grad_norm": 2.007051944732666,
	"learning_rate": 3.669109195402299e-05,
	"loss": 12.2758,
	"step": 27800
	},
	{
	"epoch": 21.379310344827587,
	"grad_norm": 1.4421669244766235,
	"learning_rate": 3.6643199233716474e-05,
	"loss": 12.1852,
	"step": 27900
	},
	{
	"epoch": 21.455938697318008,
	"grad_norm": 2.678457260131836,
	"learning_rate": 3.659530651340997e-05,
	"loss": 12.3418,
	"step": 28000
	},
	{
	"epoch": 21.532567049808428,
	"grad_norm": 1.4007712602615356,
	"learning_rate": 3.6547413793103455e-05,
	"loss": 12.4764,
	"step": 28100
	},
	{
	"epoch": 21.60919540229885,
	"grad_norm": 4.606558322906494,
	"learning_rate": 3.649952107279694e-05,
	"loss": 12.2566,
	"step": 28200
	},
	{
	"epoch": 21.685823754789272,
	"grad_norm": 1.354705810546875,
	"learning_rate": 3.645162835249042e-05,
	"loss": 12.2371,
	"step": 28300
	},
	{
	"epoch": 21.762452107279692,
	"grad_norm": 1.7736151218414307,
	"learning_rate": 3.640373563218391e-05,
	"loss": 12.4794,
	"step": 28400
	},
	{
	"epoch": 21.839080459770116,
	"grad_norm": 1.2875999212265015,
	"learning_rate": 3.6355842911877395e-05,
	"loss": 12.0016,
	"step": 28500
	},
	{
	"epoch": 21.915708812260537,
	"grad_norm": 1.932035207748413,
	"learning_rate": 3.630795019157088e-05,
	"loss": 12.3018,
	"step": 28600
	},
	{
	"epoch": 21.992337164750957,
	"grad_norm": 3.066443920135498,
	"learning_rate": 3.626005747126437e-05,
	"loss": 12.0117,
	"step": 28700
	},
	{
	"epoch": 22.0,
	"eval_loss": 13.03292179107666,
	"eval_runtime": 44.0005,
	"eval_samples_per_second": 29.659,
	"eval_steps_per_second": 3.727,
	"step": 28710
	},
	{
	"epoch": 22.06896551724138,
	"grad_norm": 0.97423255443573,
	"learning_rate": 3.6212164750957856e-05,
	"loss": 12.4442,
	"step": 28800
	},
	{
	"epoch": 22.1455938697318,
	"grad_norm": 1.7552623748779297,
	"learning_rate": 3.616427203065134e-05,
	"loss": 12.2976,
	"step": 28900
	},
	{
	"epoch": 22.22222222222222,
	"grad_norm": 1.5857703685760498,
	"learning_rate": 3.611637931034483e-05,
	"loss": 12.1968,
	"step": 29000
	},
	{
	"epoch": 22.298850574712645,
	"grad_norm": 1.381238341331482,
	"learning_rate": 3.6068486590038317e-05,
	"loss": 12.0455,
	"step": 29100
	},
	{
	"epoch": 22.375478927203066,
	"grad_norm": 1.3380298614501953,
	"learning_rate": 3.6020593869731803e-05,
	"loss": 12.1833,
	"step": 29200
	},
	{
	"epoch": 22.452107279693486,
	"grad_norm": 2.3591909408569336,
	"learning_rate": 3.5972701149425284e-05,
	"loss": 12.1562,
	"step": 29300
	},
	{
	"epoch": 22.52873563218391,
	"grad_norm": 2.544651508331299,
	"learning_rate": 3.592528735632184e-05,
	"loss": 12.1318,
	"step": 29400
	},
	{
	"epoch": 22.60536398467433,
	"grad_norm": 1.204476237297058,
	"learning_rate": 3.587739463601533e-05,
	"loss": 12.3856,
	"step": 29500
	},
	{
	"epoch": 22.68199233716475,
	"grad_norm": 1.453444004058838,
	"learning_rate": 3.5829501915708816e-05,
	"loss": 12.0971,
	"step": 29600
	},
	{
	"epoch": 22.75862068965517,
	"grad_norm": 2.287437915802002,
	"learning_rate": 3.5781609195402296e-05,
	"loss": 12.1294,
	"step": 29700
	},
	{
	"epoch": 22.835249042145595,
	"grad_norm": 2.790942907333374,
	"learning_rate": 3.573371647509578e-05,
	"loss": 12.1613,
	"step": 29800
	},
	{
	"epoch": 22.911877394636015,
	"grad_norm": 1.6170670986175537,
	"learning_rate": 3.568582375478927e-05,
	"loss": 12.0175,
	"step": 29900
	},
	{
	"epoch": 22.988505747126435,
	"grad_norm": 1.724195122718811,
	"learning_rate": 3.5637931034482757e-05,
	"loss": 12.1815,
	"step": 30000
	},
	{
	"epoch": 23.0,
	"eval_loss": 12.992958068847656,
	"eval_runtime": 44.0141,
	"eval_samples_per_second": 29.65,
	"eval_steps_per_second": 3.726,
	"step": 30015
	},
	{
	"epoch": 23.06513409961686,
	"grad_norm": 3.8932502269744873,
	"learning_rate": 3.559003831417625e-05,
	"loss": 12.1987,
	"step": 30100
	},
	{
	"epoch": 23.14176245210728,
	"grad_norm": 1.8813198804855347,
	"learning_rate": 3.554214559386974e-05,
	"loss": 12.2208,
	"step": 30200
	},
	{
	"epoch": 23.2183908045977,
	"grad_norm": 1.0299080610275269,
	"learning_rate": 3.5494252873563224e-05,
	"loss": 12.1662,
	"step": 30300
	},
	{
	"epoch": 23.295019157088124,
	"grad_norm": 2.68420672416687,
	"learning_rate": 3.544636015325671e-05,
	"loss": 12.1013,
	"step": 30400
	},
	{
	"epoch": 23.371647509578544,
	"grad_norm": 0.9587434530258179,
	"learning_rate": 3.539846743295019e-05,
	"loss": 12.3426,
	"step": 30500
	},
	{
	"epoch": 23.448275862068964,
	"grad_norm": 1.8168953657150269,
	"learning_rate": 3.535057471264368e-05,
	"loss": 12.2303,
	"step": 30600
	},
	{
	"epoch": 23.52490421455939,
	"grad_norm": 1.2712435722351074,
	"learning_rate": 3.5302681992337165e-05,
	"loss": 12.275,
	"step": 30700
	},
	{
	"epoch": 23.60153256704981,
	"grad_norm": 1.0442867279052734,
	"learning_rate": 3.525478927203065e-05,
	"loss": 12.1344,
	"step": 30800
	},
	{
	"epoch": 23.67816091954023,
	"grad_norm": 2.2171154022216797,
	"learning_rate": 3.520689655172414e-05,
	"loss": 12.1554,
	"step": 30900
	},
	{
	"epoch": 23.754789272030653,
	"grad_norm": 1.5863583087921143,
	"learning_rate": 3.5159003831417625e-05,
	"loss": 12.1003,
	"step": 31000
	},
	{
	"epoch": 23.831417624521073,
	"grad_norm": 1.4239143133163452,
	"learning_rate": 3.511111111111111e-05,
	"loss": 12.1271,
	"step": 31100
	},
	{
	"epoch": 23.908045977011493,
	"grad_norm": 2.044018030166626,
	"learning_rate": 3.50632183908046e-05,
	"loss": 12.3269,
	"step": 31200
	},
	{
	"epoch": 23.984674329501917,
	"grad_norm": 2.9049460887908936,
	"learning_rate": 3.5015325670498086e-05,
	"loss": 12.0403,
	"step": 31300
	},
	{
	"epoch": 24.0,
	"eval_loss": 13.009976387023926,
	"eval_runtime": 44.0062,
	"eval_samples_per_second": 29.655,
	"eval_steps_per_second": 3.727,
	"step": 31320
	},
	{
	"epoch": 24.061302681992338,
	"grad_norm": 1.4207292795181274,
	"learning_rate": 3.496743295019157e-05,
	"loss": 12.0634,
	"step": 31400
	},
	{
	"epoch": 24.137931034482758,
	"grad_norm": 1.886399269104004,
	"learning_rate": 3.491954022988506e-05,
	"loss": 12.1573,
	"step": 31500
	},
	{
	"epoch": 24.21455938697318,
	"grad_norm": 2.239217519760132,
	"learning_rate": 3.487164750957855e-05,
	"loss": 12.3025,
	"step": 31600
	},
	{
	"epoch": 24.291187739463602,
	"grad_norm": 1.495377540588379,
	"learning_rate": 3.4823754789272034e-05,
	"loss": 12.1236,
	"step": 31700
	},
	{
	"epoch": 24.367816091954023,
	"grad_norm": 1.4570187330245972,
	"learning_rate": 3.477586206896552e-05,
	"loss": 12.1341,
	"step": 31800
	},
	{
	"epoch": 24.444444444444443,
	"grad_norm": 1.137839674949646,
	"learning_rate": 3.472796934865901e-05,
	"loss": 12.1097,
	"step": 31900
	},
	{
	"epoch": 24.521072796934867,
	"grad_norm": 1.9981390237808228,
	"learning_rate": 3.4680076628352494e-05,
	"loss": 12.4374,
	"step": 32000
	},
	{
	"epoch": 24.597701149425287,
	"grad_norm": 1.6802810430526733,
	"learning_rate": 3.463218390804598e-05,
	"loss": 12.0851,
	"step": 32100
	},
	{
	"epoch": 24.674329501915707,
	"grad_norm": 2.0081875324249268,
	"learning_rate": 3.458429118773947e-05,
	"loss": 12.0883,
	"step": 32200
	},
	{
	"epoch": 24.75095785440613,
	"grad_norm": 2.637779474258423,
	"learning_rate": 3.453639846743295e-05,
	"loss": 12.198,
	"step": 32300
	},
	{
	"epoch": 24.82758620689655,
	"grad_norm": 6.473161220550537,
	"learning_rate": 3.4488505747126435e-05,
	"loss": 12.1459,
	"step": 32400
	},
	{
	"epoch": 24.904214559386972,
	"grad_norm": 1.3531584739685059,
	"learning_rate": 3.444061302681992e-05,
	"loss": 12.0297,
	"step": 32500
	},
	{
	"epoch": 24.980842911877396,
	"grad_norm": 1.2492320537567139,
	"learning_rate": 3.439272030651341e-05,
	"loss": 12.0907,
	"step": 32600
	},
	{
	"epoch": 25.0,
	"eval_loss": 12.98237419128418,
	"eval_runtime": 44.0055,
	"eval_samples_per_second": 29.655,
	"eval_steps_per_second": 3.727,
	"step": 32625
	},
	{
	"epoch": 25.057471264367816,
	"grad_norm": 1.2564047574996948,
	"learning_rate": 3.4344827586206896e-05,
	"loss": 12.3271,
	"step": 32700
	},
	{
	"epoch": 25.134099616858236,
	"grad_norm": 1.6601101160049438,
	"learning_rate": 3.429741379310345e-05,
	"loss": 12.2568,
	"step": 32800
	},
	{
	"epoch": 25.21072796934866,
	"grad_norm": 1.8177669048309326,
	"learning_rate": 3.4249521072796934e-05,
	"loss": 12.2059,
	"step": 32900
	},
	{
	"epoch": 25.28735632183908,
	"grad_norm": 1.5476176738739014,
	"learning_rate": 3.420162835249042e-05,
	"loss": 12.2871,
	"step": 33000
	},
	{
	"epoch": 25.3639846743295,
	"grad_norm": 1.305198073387146,
	"learning_rate": 3.415373563218391e-05,
	"loss": 12.258,
	"step": 33100
	},
	{
	"epoch": 25.440613026819925,
	"grad_norm": 5.837198257446289,
	"learning_rate": 3.4105842911877395e-05,
	"loss": 12.0855,
	"step": 33200
	},
	{
	"epoch": 25.517241379310345,
	"grad_norm": 2.148789882659912,
	"learning_rate": 3.405795019157088e-05,
	"loss": 12.1539,
	"step": 33300
	},
	{
	"epoch": 25.593869731800766,
	"grad_norm": 1.8985601663589478,
	"learning_rate": 3.401005747126437e-05,
	"loss": 12.2977,
	"step": 33400
	},
	{
	"epoch": 25.67049808429119,
	"grad_norm": 1.9121934175491333,
	"learning_rate": 3.3962164750957855e-05,
	"loss": 12.0616,
	"step": 33500
	},
	{
	"epoch": 25.74712643678161,
	"grad_norm": 1.3972700834274292,
	"learning_rate": 3.391427203065134e-05,
	"loss": 12.0951,
	"step": 33600
	},
	{
	"epoch": 25.82375478927203,
	"grad_norm": 1.3285768032073975,
	"learning_rate": 3.386637931034483e-05,
	"loss": 12.0531,
	"step": 33700
	},
	{
	"epoch": 25.900383141762454,
	"grad_norm": 2.199030876159668,
	"learning_rate": 3.3818486590038316e-05,
	"loss": 11.9635,
	"step": 33800
	},
	{
	"epoch": 25.977011494252874,
	"grad_norm": 1.0486905574798584,
	"learning_rate": 3.37705938697318e-05,
	"loss": 11.9477,
	"step": 33900
	},
	{
	"epoch": 26.0,
	"eval_loss": 12.954750061035156,
	"eval_runtime": 44.0151,
	"eval_samples_per_second": 29.649,
	"eval_steps_per_second": 3.726,
	"step": 33930
	},
	{
	"epoch": 26.053639846743295,
	"grad_norm": 1.8525198698043823,
	"learning_rate": 3.372270114942529e-05,
	"loss": 11.9857,
	"step": 34000
	},
	{
	"epoch": 26.130268199233715,
	"grad_norm": 1.4454785585403442,
	"learning_rate": 3.367480842911878e-05,
	"loss": 11.8142,
	"step": 34100
	},
	{
	"epoch": 26.20689655172414,
	"grad_norm": 1.6828280687332153,
	"learning_rate": 3.3626915708812264e-05,
	"loss": 11.9359,
	"step": 34200
	},
	{
	"epoch": 26.28352490421456,
	"grad_norm": 1.898542046546936,
	"learning_rate": 3.357902298850575e-05,
	"loss": 12.3808,
	"step": 34300
	},
	{
	"epoch": 26.36015325670498,
	"grad_norm": 1.3259601593017578,
	"learning_rate": 3.353113026819924e-05,
	"loss": 11.9188,
	"step": 34400
	},
	{
	"epoch": 26.436781609195403,
	"grad_norm": 1.2543106079101562,
	"learning_rate": 3.348323754789272e-05,
	"loss": 12.2622,
	"step": 34500
	},
	{
	"epoch": 26.513409961685824,
	"grad_norm": 1.1741349697113037,
	"learning_rate": 3.3435344827586204e-05,
	"loss": 12.3296,
	"step": 34600
	},
	{
	"epoch": 26.590038314176244,
	"grad_norm": 2.937052011489868,
	"learning_rate": 3.338745210727969e-05,
	"loss": 12.0383,
	"step": 34700
	},
	{
	"epoch": 26.666666666666668,
	"grad_norm": 1.5736559629440308,
	"learning_rate": 3.333955938697318e-05,
	"loss": 12.178,
	"step": 34800
	},
	{
	"epoch": 26.743295019157088,
	"grad_norm": 1.9110735654830933,
	"learning_rate": 3.329214559386974e-05,
	"loss": 12.223,
	"step": 34900
	},
	{
	"epoch": 26.81992337164751,
	"grad_norm": 0.9110540747642517,
	"learning_rate": 3.324425287356322e-05,
	"loss": 12.1191,
	"step": 35000
	},
	{
	"epoch": 26.896551724137932,
	"grad_norm": 1.3772426843643188,
	"learning_rate": 3.3196360153256704e-05,
	"loss": 12.1527,
	"step": 35100
	},
	{
	"epoch": 26.973180076628353,
	"grad_norm": 1.5747685432434082,
	"learning_rate": 3.314846743295019e-05,
	"loss": 12.093,
	"step": 35200
	},
	{
	"epoch": 27.0,
	"eval_loss": 12.915553092956543,
	"eval_runtime": 44.0197,
	"eval_samples_per_second": 29.646,
	"eval_steps_per_second": 3.726,
	"step": 35235
	},
	{
	"epoch": 27.049808429118773,
	"grad_norm": 1.285940408706665,
	"learning_rate": 3.310057471264368e-05,
	"loss": 12.1302,
	"step": 35300
	},
	{
	"epoch": 27.126436781609197,
	"grad_norm": 1.3924872875213623,
	"learning_rate": 3.3052681992337164e-05,
	"loss": 12.2251,
	"step": 35400
	},
	{
	"epoch": 27.203065134099617,
	"grad_norm": 3.2285568714141846,
	"learning_rate": 3.300478927203065e-05,
	"loss": 12.1551,
	"step": 35500
	},
	{
	"epoch": 27.279693486590038,
	"grad_norm": 1.9970892667770386,
	"learning_rate": 3.295689655172414e-05,
	"loss": 12.1276,
	"step": 35600
	},
	{
	"epoch": 27.35632183908046,
	"grad_norm": 1.5273020267486572,
	"learning_rate": 3.290900383141763e-05,
	"loss": 12.3051,
	"step": 35700
	},
	{
	"epoch": 27.43295019157088,
	"grad_norm": 1.3356541395187378,
	"learning_rate": 3.286111111111111e-05,
	"loss": 12.1591,
	"step": 35800
	},
	{
	"epoch": 27.509578544061302,
	"grad_norm": 1.1603785753250122,
	"learning_rate": 3.28132183908046e-05,
	"loss": 11.9451,
	"step": 35900
	},
	{
	"epoch": 27.586206896551722,
	"grad_norm": 1.2263092994689941,
	"learning_rate": 3.2765325670498086e-05,
	"loss": 12.069,
	"step": 36000
	},
	{
	"epoch": 27.662835249042146,
	"grad_norm": 2.639704465866089,
	"learning_rate": 3.271743295019157e-05,
	"loss": 12.0213,
	"step": 36100
	},
	{
	"epoch": 27.739463601532567,
	"grad_norm": 1.1907585859298706,
	"learning_rate": 3.266954022988506e-05,
	"loss": 12.0336,
	"step": 36200
	},
	{
	"epoch": 27.816091954022987,
	"grad_norm": 2.5226128101348877,
	"learning_rate": 3.2621647509578546e-05,
	"loss": 12.1515,
	"step": 36300
	},
	{
	"epoch": 27.89272030651341,
	"grad_norm": 1.263527274131775,
	"learning_rate": 3.257375478927203e-05,
	"loss": 12.067,
	"step": 36400
	},
	{
	"epoch": 27.96934865900383,
	"grad_norm": 1.636793613433838,
	"learning_rate": 3.252586206896552e-05,
	"loss": 12.14,
	"step": 36500
	},
	{
	"epoch": 28.0,
	"eval_loss": 12.91286563873291,
	"eval_runtime": 44.033,
	"eval_samples_per_second": 29.637,
	"eval_steps_per_second": 3.724,
	"step": 36540
	},
	{
	"epoch": 28.04597701149425,
	"grad_norm": 1.691573977470398,
	"learning_rate": 3.247796934865901e-05,
	"loss": 12.0472,
	"step": 36600
	},
	{
	"epoch": 28.122605363984675,
	"grad_norm": 2.2020788192749023,
	"learning_rate": 3.2430076628352494e-05,
	"loss": 12.0171,
	"step": 36700
	},
	{
	"epoch": 28.199233716475096,
	"grad_norm": 1.9675192832946777,
	"learning_rate": 3.2382183908045974e-05,
	"loss": 12.1335,
	"step": 36800
	},
	{
	"epoch": 28.275862068965516,
	"grad_norm": 2.210883378982544,
	"learning_rate": 3.233429118773946e-05,
	"loss": 12.065,
	"step": 36900
	},
	{
	"epoch": 28.35249042145594,
	"grad_norm": 1.4574834108352661,
	"learning_rate": 3.2286398467432954e-05,
	"loss": 12.0635,
	"step": 37000
	},
	{
	"epoch": 28.42911877394636,
	"grad_norm": 2.1000685691833496,
	"learning_rate": 3.223850574712644e-05,
	"loss": 12.2908,
	"step": 37100
	},
	{
	"epoch": 28.50574712643678,
	"grad_norm": 2.088956832885742,
	"learning_rate": 3.2191091954022986e-05,
	"loss": 12.2421,
	"step": 37200
	},
	{
	"epoch": 28.582375478927204,
	"grad_norm": 1.5785751342773438,
	"learning_rate": 3.214319923371647e-05,
	"loss": 12.0568,
	"step": 37300
	},
	{
	"epoch": 28.659003831417625,
	"grad_norm": 1.5230878591537476,
	"learning_rate": 3.209530651340996e-05,
	"loss": 12.0995,
	"step": 37400
	},
	{
	"epoch": 28.735632183908045,
	"grad_norm": 1.1175010204315186,
	"learning_rate": 3.204741379310345e-05,
	"loss": 12.17,
	"step": 37500
	},
	{
	"epoch": 28.81226053639847,
	"grad_norm": 1.6524131298065186,
	"learning_rate": 3.1999521072796934e-05,
	"loss": 12.1192,
	"step": 37600
	},
	{
	"epoch": 28.88888888888889,
	"grad_norm": 1.5143946409225464,
	"learning_rate": 3.195162835249042e-05,
	"loss": 11.9995,
	"step": 37700
	},
	{
	"epoch": 28.96551724137931,
	"grad_norm": 1.2787953615188599,
	"learning_rate": 3.1903735632183914e-05,
	"loss": 12.0876,
	"step": 37800
	},
	{
	"epoch": 29.0,
	"eval_loss": 12.9454984664917,
	"eval_runtime": 44.0594,
	"eval_samples_per_second": 29.619,
	"eval_steps_per_second": 3.722,
	"step": 37845
	},
	{
	"epoch": 29.042145593869733,
	"grad_norm": 1.4434622526168823,
	"learning_rate": 3.18558429118774e-05,
	"loss": 11.8509,
	"step": 37900
	},
	{
	"epoch": 29.118773946360154,
	"grad_norm": 1.2989375591278076,
	"learning_rate": 3.180795019157088e-05,
	"loss": 12.1473,
	"step": 38000
	},
	{
	"epoch": 29.195402298850574,
	"grad_norm": 1.6747602224349976,
	"learning_rate": 3.176005747126437e-05,
	"loss": 12.1781,
	"step": 38100
	},
	{
	"epoch": 29.272030651340994,
	"grad_norm": 2.2328062057495117,
	"learning_rate": 3.1712164750957855e-05,
	"loss": 12.2881,
	"step": 38200
	},
	{
	"epoch": 29.34865900383142,
	"grad_norm": 2.3226537704467773,
	"learning_rate": 3.166427203065134e-05,
	"loss": 12.0132,
	"step": 38300
	},
	{
	"epoch": 29.42528735632184,
	"grad_norm": 1.7786709070205688,
	"learning_rate": 3.161637931034483e-05,
	"loss": 12.2086,
	"step": 38400
	},
	{
	"epoch": 29.50191570881226,
	"grad_norm": 2.359247922897339,
	"learning_rate": 3.1568486590038316e-05,
	"loss": 12.3037,
	"step": 38500
	},
	{
	"epoch": 29.578544061302683,
	"grad_norm": 1.661720633506775,
	"learning_rate": 3.15205938697318e-05,
	"loss": 11.9945,
	"step": 38600
	},
	{
	"epoch": 29.655172413793103,
	"grad_norm": 1.2464226484298706,
	"learning_rate": 3.147270114942529e-05,
	"loss": 12.0475,
	"step": 38700
	},
	{
	"epoch": 29.731800766283524,
	"grad_norm": 5.234483242034912,
	"learning_rate": 3.1424808429118776e-05,
	"loss": 12.1442,
	"step": 38800
	},
	{
	"epoch": 29.808429118773947,
	"grad_norm": 1.2800259590148926,
	"learning_rate": 3.137691570881226e-05,
	"loss": 11.923,
	"step": 38900
	},
	{
	"epoch": 29.885057471264368,
	"grad_norm": 1.3353965282440186,
	"learning_rate": 3.132902298850574e-05,
	"loss": 12.0991,
	"step": 39000
	},
	{
	"epoch": 29.961685823754788,
	"grad_norm": 1.974084734916687,
	"learning_rate": 3.128113026819924e-05,
	"loss": 12.0987,
	"step": 39100
	},
	{
	"epoch": 30.0,
	"eval_loss": 12.926346778869629,
	"eval_runtime": 44.1327,
	"eval_samples_per_second": 29.57,
	"eval_steps_per_second": 3.716,
	"step": 39150
	},
	{
	"epoch": 30.038314176245212,
	"grad_norm": 2.184515953063965,
	"learning_rate": 3.1233237547892724e-05,
	"loss": 11.9969,
	"step": 39200
	},
	{
	"epoch": 30.114942528735632,
	"grad_norm": 3.448138952255249,
	"learning_rate": 3.1185823754789276e-05,
	"loss": 12.2465,
	"step": 39300
	},
	{
	"epoch": 30.191570881226053,
	"grad_norm": 1.5382182598114014,
	"learning_rate": 3.113793103448276e-05,
	"loss": 12.1218,
	"step": 39400
	},
	{
	"epoch": 30.268199233716476,
	"grad_norm": 1.4232020378112793,
	"learning_rate": 3.109003831417624e-05,
	"loss": 12.0744,
	"step": 39500
	},
	{
	"epoch": 30.344827586206897,
	"grad_norm": 1.130115270614624,
	"learning_rate": 3.104214559386973e-05,
	"loss": 11.982,
	"step": 39600
	},
	{
	"epoch": 30.421455938697317,
	"grad_norm": 0.9410238265991211,
	"learning_rate": 3.0994252873563216e-05,
	"loss": 11.9721,
	"step": 39700
	},
	{
	"epoch": 30.49808429118774,
	"grad_norm": 1.6789051294326782,
	"learning_rate": 3.09463601532567e-05,
	"loss": 12.2021,
	"step": 39800
	},
	{
	"epoch": 30.57471264367816,
	"grad_norm": 1.7361513376235962,
	"learning_rate": 3.08984674329502e-05,
	"loss": 12.1236,
	"step": 39900
	},
	{
	"epoch": 30.65134099616858,
	"grad_norm": 1.868490219116211,
	"learning_rate": 3.0850574712643684e-05,
	"loss": 12.0632,
	"step": 40000
	},
	{
	"epoch": 30.727969348659006,
	"grad_norm": 1.3586502075195312,
	"learning_rate": 3.080268199233717e-05,
	"loss": 12.0715,
	"step": 40100
	},
	{
	"epoch": 30.804597701149426,
	"grad_norm": 1.6496648788452148,
	"learning_rate": 3.075478927203066e-05,
	"loss": 12.0989,
	"step": 40200
	},
	{
	"epoch": 30.881226053639846,
	"grad_norm": 1.8671578168869019,
	"learning_rate": 3.070689655172414e-05,
	"loss": 11.996,
	"step": 40300
	},
	{
	"epoch": 30.957854406130267,
	"grad_norm": 0.9875293374061584,
	"learning_rate": 3.0659003831417624e-05,
	"loss": 12.0908,
	"step": 40400
	},
	{
	"epoch": 31.0,
	"eval_loss": 12.88086986541748,
	"eval_runtime": 44.1375,
	"eval_samples_per_second": 29.567,
	"eval_steps_per_second": 3.716,
	"step": 40455
	},
	{
	"epoch": 31.03448275862069,
	"grad_norm": 4.194854259490967,
	"learning_rate": 3.061111111111111e-05,
	"loss": 12.0422,
	"step": 40500
	},
	{
	"epoch": 31.11111111111111,
	"grad_norm": 1.550528883934021,
	"learning_rate": 3.05632183908046e-05,
	"loss": 12.2051,
	"step": 40600
	},
	{
	"epoch": 31.18773946360153,
	"grad_norm": 2.011462450027466,
	"learning_rate": 3.0515325670498085e-05,
	"loss": 12.1084,
	"step": 40700
	},
	{
	"epoch": 31.264367816091955,
	"grad_norm": 1.100541114807129,
	"learning_rate": 3.0467432950191572e-05,
	"loss": 11.9174,
	"step": 40800
	},
	{
	"epoch": 31.340996168582375,
	"grad_norm": 1.1993151903152466,
	"learning_rate": 3.041954022988506e-05,
	"loss": 12.0801,
	"step": 40900
	},
	{
	"epoch": 31.417624521072796,
	"grad_norm": 1.501018762588501,
	"learning_rate": 3.0371647509578542e-05,
	"loss": 12.1011,
	"step": 41000
	},
	{
	"epoch": 31.49425287356322,
	"grad_norm": 1.788327932357788,
	"learning_rate": 3.032375478927203e-05,
	"loss": 12.192,
	"step": 41100
	},
	{
	"epoch": 31.57088122605364,
	"grad_norm": 1.7562750577926636,
	"learning_rate": 3.0275862068965523e-05,
	"loss": 11.829,
	"step": 41200
	},
	{
	"epoch": 31.64750957854406,
	"grad_norm": 1.467976450920105,
	"learning_rate": 3.0227969348659006e-05,
	"loss": 12.0685,
	"step": 41300
	},
	{
	"epoch": 31.724137931034484,
	"grad_norm": 2.4010770320892334,
	"learning_rate": 3.0180076628352493e-05,
	"loss": 12.0806,
	"step": 41400
	},
	{
	"epoch": 31.800766283524904,
	"grad_norm": 1.759490728378296,
	"learning_rate": 3.013218390804598e-05,
	"loss": 12.1422,
	"step": 41500
	},
	{
	"epoch": 31.877394636015325,
	"grad_norm": 1.6164530515670776,
	"learning_rate": 3.0084291187739467e-05,
	"loss": 12.0766,
	"step": 41600
	},
	{
	"epoch": 31.95402298850575,
	"grad_norm": 1.3001078367233276,
	"learning_rate": 3.0036398467432954e-05,
	"loss": 12.0244,
	"step": 41700
	},
	{
	"epoch": 32.0,
	"eval_loss": 12.876104354858398,
	"eval_runtime": 44.1527,
	"eval_samples_per_second": 29.557,
	"eval_steps_per_second": 3.714,
	"step": 41760
	},
	{
	"epoch": 32.030651340996165,
	"grad_norm": 1.1984444856643677,
	"learning_rate": 2.9988505747126437e-05,
	"loss": 12.1453,
	"step": 41800
	},
	{
	"epoch": 32.10727969348659,
	"grad_norm": 0.9655357599258423,
	"learning_rate": 2.9941091954022986e-05,
	"loss": 11.8735,
	"step": 41900
	},
	{
	"epoch": 32.18390804597701,
	"grad_norm": 1.0667262077331543,
	"learning_rate": 2.989319923371648e-05,
	"loss": 12.1566,
	"step": 42000
	},
	{
	"epoch": 32.26053639846743,
	"grad_norm": 1.6131408214569092,
	"learning_rate": 2.9845306513409966e-05,
	"loss": 11.9729,
	"step": 42100
	},
	{
	"epoch": 32.337164750957854,
	"grad_norm": 1.6158314943313599,
	"learning_rate": 2.979741379310345e-05,
	"loss": 12.0362,
	"step": 42200
	},
	{
	"epoch": 32.41379310344828,
	"grad_norm": 1.189818263053894,
	"learning_rate": 2.9749521072796937e-05,
	"loss": 12.2135,
	"step": 42300
	},
	{
	"epoch": 32.490421455938694,
	"grad_norm": 2.628614664077759,
	"learning_rate": 2.9701628352490423e-05,
	"loss": 12.032,
	"step": 42400
	},
	{
	"epoch": 32.56704980842912,
	"grad_norm": 1.6809107065200806,
	"learning_rate": 2.965373563218391e-05,
	"loss": 11.81,
	"step": 42500
	},
	{
	"epoch": 32.64367816091954,
	"grad_norm": 1.6311430931091309,
	"learning_rate": 2.9605842911877397e-05,
	"loss": 11.9348,
	"step": 42600
	},
	{
	"epoch": 32.72030651340996,
	"grad_norm": 1.2387199401855469,
	"learning_rate": 2.955795019157088e-05,
	"loss": 12.0694,
	"step": 42700
	},
	{
	"epoch": 32.79693486590038,
	"grad_norm": 1.7171186208724976,
	"learning_rate": 2.9510057471264368e-05,
	"loss": 11.9729,
	"step": 42800
	},
	{
	"epoch": 32.87356321839081,
	"grad_norm": 1.6134984493255615,
	"learning_rate": 2.9462164750957854e-05,
	"loss": 12.1292,
	"step": 42900
	},
	{
	"epoch": 32.95019157088122,
	"grad_norm": 2.2401788234710693,
	"learning_rate": 2.941427203065134e-05,
	"loss": 12.1613,
	"step": 43000
	},
	{
	"epoch": 33.0,
	"eval_loss": 12.873848915100098,
	"eval_runtime": 44.126,
	"eval_samples_per_second": 29.574,
	"eval_steps_per_second": 3.717,
	"step": 43065
	},
	{
	"epoch": 33.02681992337165,
	"grad_norm": 1.260538935661316,
	"learning_rate": 2.9366379310344828e-05,
	"loss": 12.1855,
	"step": 43100
	},
	{
	"epoch": 33.10344827586207,
	"grad_norm": 1.7840496301651,
	"learning_rate": 2.9318486590038312e-05,
	"loss": 12.0618,
	"step": 43200
	},
	{
	"epoch": 33.18007662835249,
	"grad_norm": 1.162712574005127,
	"learning_rate": 2.92705938697318e-05,
	"loss": 12.2513,
	"step": 43300
	},
	{
	"epoch": 33.25670498084291,
	"grad_norm": 3.618567705154419,
	"learning_rate": 2.9222701149425292e-05,
	"loss": 12.0614,
	"step": 43400
	},
	{
	"epoch": 33.333333333333336,
	"grad_norm": 1.2605602741241455,
	"learning_rate": 2.9174808429118776e-05,
	"loss": 11.9763,
	"step": 43500
	},
	{
	"epoch": 33.40996168582375,
	"grad_norm": 1.4304360151290894,
	"learning_rate": 2.9126915708812263e-05,
	"loss": 12.1044,
	"step": 43600
	},
	{
	"epoch": 33.486590038314176,
	"grad_norm": 1.1767237186431885,
	"learning_rate": 2.907902298850575e-05,
	"loss": 11.8996,
	"step": 43700
	},
	{
	"epoch": 33.5632183908046,
	"grad_norm": 1.6173638105392456,
	"learning_rate": 2.9031130268199236e-05,
	"loss": 11.969,
	"step": 43800
	},
	{
	"epoch": 33.63984674329502,
	"grad_norm": 1.2231945991516113,
	"learning_rate": 2.8983237547892723e-05,
	"loss": 12.2301,
	"step": 43900
	},
	{
	"epoch": 33.71647509578544,
	"grad_norm": 3.853048801422119,
	"learning_rate": 2.8935344827586207e-05,
	"loss": 11.9726,
	"step": 44000
	},
	{
	"epoch": 33.793103448275865,
	"grad_norm": 1.4259275197982788,
	"learning_rate": 2.8887452107279694e-05,
	"loss": 11.9545,
	"step": 44100
	},
	{
	"epoch": 33.86973180076628,
	"grad_norm": 2.5803606510162354,
	"learning_rate": 2.883955938697318e-05,
	"loss": 11.8867,
	"step": 44200
	},
	{
	"epoch": 33.946360153256705,
	"grad_norm": 1.3688091039657593,
	"learning_rate": 2.8791666666666667e-05,
	"loss": 12.0033,
	"step": 44300
	},
	{
	"epoch": 34.0,
	"eval_loss": 12.871088027954102,
	"eval_runtime": 44.1202,
	"eval_samples_per_second": 29.578,
	"eval_steps_per_second": 3.717,
	"step": 44370
	},
	{
	"epoch": 34.02298850574713,
	"grad_norm": 1.947970986366272,
	"learning_rate": 2.8743773946360154e-05,
	"loss": 11.9572,
	"step": 44400
	},
	{
	"epoch": 34.099616858237546,
	"grad_norm": 1.9568095207214355,
	"learning_rate": 2.8696360153256706e-05,
	"loss": 12.0624,
	"step": 44500
	},
	{
	"epoch": 34.17624521072797,
	"grad_norm": 1.4037648439407349,
	"learning_rate": 2.8648467432950193e-05,
	"loss": 11.8426,
	"step": 44600
	},
	{
	"epoch": 34.252873563218394,
	"grad_norm": 2.5989620685577393,
	"learning_rate": 2.860057471264368e-05,
	"loss": 11.9217,
	"step": 44700
	},
	{
	"epoch": 34.32950191570881,
	"grad_norm": 1.3627197742462158,
	"learning_rate": 2.8552681992337167e-05,
	"loss": 11.9418,
	"step": 44800
	},
	{
	"epoch": 34.406130268199234,
	"grad_norm": 1.4087576866149902,
	"learning_rate": 2.8504789272030654e-05,
	"loss": 12.1608,
	"step": 44900
	},
	{
	"epoch": 34.48275862068966,
	"grad_norm": 1.4856873750686646,
	"learning_rate": 2.8456896551724137e-05,
	"loss": 11.9778,
	"step": 45000
	},
	{
	"epoch": 34.559386973180075,
	"grad_norm": 1.631663203239441,
	"learning_rate": 2.8409003831417624e-05,
	"loss": 12.0547,
	"step": 45100
	},
	{
	"epoch": 34.6360153256705,
	"grad_norm": 2.1117138862609863,
	"learning_rate": 2.836111111111111e-05,
	"loss": 12.0824,
	"step": 45200
	},
	{
	"epoch": 34.71264367816092,
	"grad_norm": 1.9915541410446167,
	"learning_rate": 2.8313218390804598e-05,
	"loss": 12.0984,
	"step": 45300
	},
	{
	"epoch": 34.78927203065134,
	"grad_norm": 2.4851934909820557,
	"learning_rate": 2.8265325670498085e-05,
	"loss": 12.0646,
	"step": 45400
	},
	{
	"epoch": 34.86590038314176,
	"grad_norm": 1.1414411067962646,
	"learning_rate": 2.8217432950191575e-05,
	"loss": 12.0986,
	"step": 45500
	},
	{
	"epoch": 34.94252873563218,
	"grad_norm": 1.0578815937042236,
	"learning_rate": 2.8169540229885062e-05,
	"loss": 12.1035,
	"step": 45600
	},
	{
	"epoch": 35.0,
	"eval_loss": 12.84704875946045,
	"eval_runtime": 44.1331,
	"eval_samples_per_second": 29.57,
	"eval_steps_per_second": 3.716,
	"step": 45675
	},
	{
	"epoch": 35.019157088122604,
	"grad_norm": 1.2231003046035767,
	"learning_rate": 2.812164750957855e-05,
	"loss": 12.2043,
	"step": 45700
	},
	{
	"epoch": 35.09578544061303,
	"grad_norm": 1.6044613122940063,
	"learning_rate": 2.8073754789272032e-05,
	"loss": 11.9987,
	"step": 45800
	},
	{
	"epoch": 35.172413793103445,
	"grad_norm": 1.208008050918579,
	"learning_rate": 2.802586206896552e-05,
	"loss": 11.7725,
	"step": 45900
	},
	{
	"epoch": 35.24904214559387,
	"grad_norm": 1.8152436017990112,
	"learning_rate": 2.7977969348659006e-05,
	"loss": 11.9232,
	"step": 46000
	},
	{
	"epoch": 35.32567049808429,
	"grad_norm": 0.9535597562789917,
	"learning_rate": 2.7930076628352493e-05,
	"loss": 12.2091,
	"step": 46100
	},
	{
	"epoch": 35.40229885057471,
	"grad_norm": 1.5778999328613281,
	"learning_rate": 2.7882183908045976e-05,
	"loss": 12.0968,
	"step": 46200
	},
	{
	"epoch": 35.47892720306513,
	"grad_norm": 1.5384963750839233,
	"learning_rate": 2.7834291187739463e-05,
	"loss": 12.1058,
	"step": 46300
	},
	{
	"epoch": 35.55555555555556,
	"grad_norm": 1.1971815824508667,
	"learning_rate": 2.778639846743295e-05,
	"loss": 12.048,
	"step": 46400
	},
	{
	"epoch": 35.632183908045974,
	"grad_norm": 1.2047299146652222,
	"learning_rate": 2.7738505747126437e-05,
	"loss": 12.0413,
	"step": 46500
	},
	{
	"epoch": 35.7088122605364,
	"grad_norm": 1.6629399061203003,
	"learning_rate": 2.7690613026819924e-05,
	"loss": 11.9562,
	"step": 46600
	},
	{
	"epoch": 35.78544061302682,
	"grad_norm": 1.8731905221939087,
	"learning_rate": 2.7642720306513407e-05,
	"loss": 12.0334,
	"step": 46700
	},
	{
	"epoch": 35.86206896551724,
	"grad_norm": 1.5753523111343384,
	"learning_rate": 2.75948275862069e-05,
	"loss": 11.9348,
	"step": 46800
	},
	{
	"epoch": 35.93869731800766,
	"grad_norm": 2.0848851203918457,
	"learning_rate": 2.7546934865900388e-05,
	"loss": 12.0199,
	"step": 46900
	},
	{
	"epoch": 36.0,
	"eval_loss": 12.837443351745605,
	"eval_runtime": 44.1529,
	"eval_samples_per_second": 29.556,
	"eval_steps_per_second": 3.714,
	"step": 46980
	},
	{
	"epoch": 36.015325670498086,
	"grad_norm": 1.3191312551498413,
	"learning_rate": 2.749904214559387e-05,
	"loss": 12.1034,
	"step": 47000
	},
	{
	"epoch": 36.0919540229885,
	"grad_norm": 1.8107291460037231,
	"learning_rate": 2.7451149425287358e-05,
	"loss": 11.9679,
	"step": 47100
	},
	{
	"epoch": 36.16858237547893,
	"grad_norm": 2.29463529586792,
	"learning_rate": 2.7403735632183906e-05,
	"loss": 11.7111,
	"step": 47200
	},
	{
	"epoch": 36.24521072796935,
	"grad_norm": 1.3297805786132812,
	"learning_rate": 2.7355842911877393e-05,
	"loss": 11.8913,
	"step": 47300
	},
	{
	"epoch": 36.32183908045977,
	"grad_norm": 1.1663862466812134,
	"learning_rate": 2.730795019157088e-05,
	"loss": 12.0487,
	"step": 47400
	},
	{
	"epoch": 36.39846743295019,
	"grad_norm": 1.4846138954162598,
	"learning_rate": 2.7260057471264367e-05,
	"loss": 12.1661,
	"step": 47500
	},
	{
	"epoch": 36.475095785440615,
	"grad_norm": 1.8800255060195923,
	"learning_rate": 2.7212164750957857e-05,
	"loss": 11.9248,
	"step": 47600
	},
	{
	"epoch": 36.55172413793103,
	"grad_norm": 1.7427587509155273,
	"learning_rate": 2.7164272030651344e-05,
	"loss": 12.0681,
	"step": 47700
	},
	{
	"epoch": 36.628352490421456,
	"grad_norm": 2.0017685890197754,
	"learning_rate": 2.711637931034483e-05,
	"loss": 12.2556,
	"step": 47800
	},
	{
	"epoch": 36.70498084291188,
	"grad_norm": 2.765782117843628,
	"learning_rate": 2.7068486590038318e-05,
	"loss": 11.8846,
	"step": 47900
	},
	{
	"epoch": 36.7816091954023,
	"grad_norm": 1.519728422164917,
	"learning_rate": 2.70205938697318e-05,
	"loss": 12.0119,
	"step": 48000
	},
	{
	"epoch": 36.85823754789272,
	"grad_norm": 1.091073989868164,
	"learning_rate": 2.697270114942529e-05,
	"loss": 12.1197,
	"step": 48100
	},
	{
	"epoch": 36.934865900383144,
	"grad_norm": 1.3182342052459717,
	"learning_rate": 2.6924808429118775e-05,
	"loss": 12.0217,
	"step": 48200
	},
	{
	"epoch": 37.0,
	"eval_loss": 12.849996566772461,
	"eval_runtime": 44.1316,
	"eval_samples_per_second": 29.571,
	"eval_steps_per_second": 3.716,
	"step": 48285
	},
	{
	"epoch": 37.01149425287356,
	"grad_norm": 1.9082536697387695,
	"learning_rate": 2.6876915708812262e-05,
	"loss": 12.2391,
	"step": 48300
	},
	{
	"epoch": 37.088122605363985,
	"grad_norm": 1.5705393552780151,
	"learning_rate": 2.682902298850575e-05,
	"loss": 12.1329,
	"step": 48400
	},
	{
	"epoch": 37.16475095785441,
	"grad_norm": 2.2240869998931885,
	"learning_rate": 2.6781130268199233e-05,
	"loss": 12.108,
	"step": 48500
	},
	{
	"epoch": 37.241379310344826,
	"grad_norm": 1.357383370399475,
	"learning_rate": 2.673323754789272e-05,
	"loss": 11.9599,
	"step": 48600
	},
	{
	"epoch": 37.31800766283525,
	"grad_norm": 2.1634521484375,
	"learning_rate": 2.6685344827586206e-05,
	"loss": 12.0339,
	"step": 48700
	},
	{
	"epoch": 37.39463601532567,
	"grad_norm": 1.611195683479309,
	"learning_rate": 2.6637452107279693e-05,
	"loss": 12.0276,
	"step": 48800
	},
	{
	"epoch": 37.47126436781609,
	"grad_norm": 1.3676810264587402,
	"learning_rate": 2.6589559386973183e-05,
	"loss": 11.9487,
	"step": 48900
	},
	{
	"epoch": 37.547892720306514,
	"grad_norm": 1.4503991603851318,
	"learning_rate": 2.654166666666667e-05,
	"loss": 11.9166,
	"step": 49000
	},
	{
	"epoch": 37.62452107279694,
	"grad_norm": 2.0941789150238037,
	"learning_rate": 2.6493773946360157e-05,
	"loss": 12.0909,
	"step": 49100
	},
	{
	"epoch": 37.701149425287355,
	"grad_norm": 1.4591392278671265,
	"learning_rate": 2.6445881226053644e-05,
	"loss": 11.9453,
	"step": 49200
	},
	{
	"epoch": 37.77777777777778,
	"grad_norm": 1.3402618169784546,
	"learning_rate": 2.6397988505747128e-05,
	"loss": 11.9431,
	"step": 49300
	},
	{
	"epoch": 37.8544061302682,
	"grad_norm": 1.697449803352356,
	"learning_rate": 2.6350095785440614e-05,
	"loss": 11.8129,
	"step": 49400
	},
	{
	"epoch": 37.93103448275862,
	"grad_norm": 1.5764317512512207,
	"learning_rate": 2.63022030651341e-05,
	"loss": 11.975,
	"step": 49500
	},
	{
	"epoch": 38.0,
	"eval_loss": 12.832439422607422,
	"eval_runtime": 44.0844,
	"eval_samples_per_second": 29.602,
	"eval_steps_per_second": 3.72,
	"step": 49590
	},
	{
	"epoch": 38.00766283524904,
	"grad_norm": 3.7600104808807373,
	"learning_rate": 2.6254310344827588e-05,
	"loss": 12.1701,
	"step": 49600
	},
	{
	"epoch": 38.08429118773947,
	"grad_norm": 1.9188120365142822,
	"learning_rate": 2.6206417624521075e-05,
	"loss": 12.0672,
	"step": 49700
	},
	{
	"epoch": 38.160919540229884,
	"grad_norm": 1.5679752826690674,
	"learning_rate": 2.615852490421456e-05,
	"loss": 11.9374,
	"step": 49800
	},
	{
	"epoch": 38.23754789272031,
	"grad_norm": 1.6603142023086548,
	"learning_rate": 2.6110632183908045e-05,
	"loss": 11.8708,
	"step": 49900
	},
	{
	"epoch": 38.31417624521073,
	"grad_norm": 2.0302236080169678,
	"learning_rate": 2.6062739463601532e-05,
	"loss": 12.0997,
	"step": 50000
	},
	{
	"epoch": 38.39080459770115,
	"grad_norm": 1.4646397829055786,
	"learning_rate": 2.601484674329502e-05,
	"loss": 12.1337,
	"step": 50100
	},
	{
	"epoch": 38.46743295019157,
	"grad_norm": 2.1434216499328613,
	"learning_rate": 2.5966954022988506e-05,
	"loss": 12.063,
	"step": 50200
	},
	{
	"epoch": 38.54406130268199,
	"grad_norm": 1.4451220035552979,
	"learning_rate": 2.5919061302681996e-05,
	"loss": 11.8743,
	"step": 50300
	},
	{
	"epoch": 38.62068965517241,
	"grad_norm": 1.4875038862228394,
	"learning_rate": 2.5871168582375483e-05,
	"loss": 12.1545,
	"step": 50400
	},
	{
	"epoch": 38.69731800766284,
	"grad_norm": 2.4424338340759277,
	"learning_rate": 2.582327586206897e-05,
	"loss": 11.9573,
	"step": 50500
	},
	{
	"epoch": 38.77394636015325,
	"grad_norm": 1.0890432596206665,
	"learning_rate": 2.5775383141762454e-05,
	"loss": 11.894,
	"step": 50600
	},
	{
	"epoch": 38.85057471264368,
	"grad_norm": 1.410107970237732,
	"learning_rate": 2.572749042145594e-05,
	"loss": 12.0408,
	"step": 50700
	},
	{
	"epoch": 38.9272030651341,
	"grad_norm": 1.1632236242294312,
	"learning_rate": 2.5679597701149427e-05,
	"loss": 12.0218,
	"step": 50800
	},
	{
	"epoch": 39.0,
	"eval_loss": 12.819197654724121,
	"eval_runtime": 44.0917,
	"eval_samples_per_second": 29.597,
	"eval_steps_per_second": 3.72,
	"step": 50895
	},
	{
	"epoch": 39.00383141762452,
	"grad_norm": 1.8346548080444336,
	"learning_rate": 2.5631704980842914e-05,
	"loss": 11.9914,
	"step": 50900
	},
	{
	"epoch": 39.08045977011494,
	"grad_norm": 1.3156729936599731,
	"learning_rate": 2.55838122605364e-05,
	"loss": 11.882,
	"step": 51000
	},
	{
	"epoch": 39.157088122605366,
	"grad_norm": 1.464136004447937,
	"learning_rate": 2.5535919540229885e-05,
	"loss": 12.0324,
	"step": 51100
	},
	{
	"epoch": 39.23371647509578,
	"grad_norm": 1.40706205368042,
	"learning_rate": 2.548802681992337e-05,
	"loss": 12.0355,
	"step": 51200
	},
	{
	"epoch": 39.310344827586206,
	"grad_norm": 1.1469753980636597,
	"learning_rate": 2.544013409961686e-05,
	"loss": 11.8437,
	"step": 51300
	},
	{
	"epoch": 39.38697318007663,
	"grad_norm": 2.110839605331421,
	"learning_rate": 2.5392241379310345e-05,
	"loss": 12.0156,
	"step": 51400
	},
	{
	"epoch": 39.46360153256705,
	"grad_norm": 1.0058891773223877,
	"learning_rate": 2.534434865900383e-05,
	"loss": 12.093,
	"step": 51500
	},
	{
	"epoch": 39.54022988505747,
	"grad_norm": 1.7903035879135132,
	"learning_rate": 2.5296455938697316e-05,
	"loss": 12.1111,
	"step": 51600
	},
	{
	"epoch": 39.616858237547895,
	"grad_norm": 1.7223442792892456,
	"learning_rate": 2.524856321839081e-05,
	"loss": 11.8909,
	"step": 51700
	},
	{
	"epoch": 39.69348659003831,
	"grad_norm": 1.6216609477996826,
	"learning_rate": 2.5200670498084293e-05,
	"loss": 12.0638,
	"step": 51800
	},
	{
	"epoch": 39.770114942528735,
	"grad_norm": 2.2488083839416504,
	"learning_rate": 2.515277777777778e-05,
	"loss": 12.193,
	"step": 51900
	},
	{
	"epoch": 39.84674329501916,
	"grad_norm": 1.9876821041107178,
	"learning_rate": 2.5104885057471267e-05,
	"loss": 11.9594,
	"step": 52000
	},
	{
	"epoch": 39.923371647509576,
	"grad_norm": 2.0479111671447754,
	"learning_rate": 2.5056992337164753e-05,
	"loss": 11.8695,
	"step": 52100
	},
	{
	"epoch": 40.0,
	"grad_norm": 2.512753486633301,
	"learning_rate": 2.500909961685824e-05,
	"loss": 11.9546,
	"step": 52200
	},
	{
	"epoch": 40.0,
	"eval_loss": 12.806585311889648,
	"eval_runtime": 44.0741,
	"eval_samples_per_second": 29.609,
	"eval_steps_per_second": 3.721,
	"step": 52200
	},
	{
	"epoch": 40.076628352490424,
	"grad_norm": 1.4184033870697021,
	"learning_rate": 2.4961206896551724e-05,
	"loss": 11.9875,
	"step": 52300
	},
	{
	"epoch": 40.15325670498084,
	"grad_norm": 2.1215152740478516,
	"learning_rate": 2.491331417624521e-05,
	"loss": 11.8898,
	"step": 52400
	},
	{
	"epoch": 40.229885057471265,
	"grad_norm": 1.5458124876022339,
	"learning_rate": 2.4865421455938698e-05,
	"loss": 12.2281,
	"step": 52500
	},
	{
	"epoch": 40.30651340996169,
	"grad_norm": 1.336580753326416,
	"learning_rate": 2.4817528735632184e-05,
	"loss": 11.743,
	"step": 52600
	},
	{
	"epoch": 40.383141762452105,
	"grad_norm": 1.1983288526535034,
	"learning_rate": 2.476963601532567e-05,
	"loss": 12.0526,
	"step": 52700
	},
	{
	"epoch": 40.45977011494253,
	"grad_norm": 3.6479368209838867,
	"learning_rate": 2.4721743295019158e-05,
	"loss": 11.9597,
	"step": 52800
	},
	{
	"epoch": 40.53639846743295,
	"grad_norm": 2.154127359390259,
	"learning_rate": 2.467432950191571e-05,
	"loss": 11.9651,
	"step": 52900
	},
	{
	"epoch": 40.61302681992337,
	"grad_norm": 1.476364016532898,
	"learning_rate": 2.4626436781609197e-05,
	"loss": 11.8092,
	"step": 53000
	},
	{
	"epoch": 40.689655172413794,
	"grad_norm": 1.9797921180725098,
	"learning_rate": 2.4578544061302684e-05,
	"loss": 12.1406,
	"step": 53100
	},
	{
	"epoch": 40.76628352490422,
	"grad_norm": 1.5220038890838623,
	"learning_rate": 2.453065134099617e-05,
	"loss": 11.8779,
	"step": 53200
	},
	{
	"epoch": 40.842911877394634,
	"grad_norm": 1.1830068826675415,
	"learning_rate": 2.4482758620689654e-05,
	"loss": 12.0007,
	"step": 53300
	},
	{
	"epoch": 40.91954022988506,
	"grad_norm": 1.3260859251022339,
	"learning_rate": 2.4434865900383144e-05,
	"loss": 12.1607,
	"step": 53400
	},
	{
	"epoch": 40.99616858237548,
	"grad_norm": 1.8781402111053467,
	"learning_rate": 2.438697318007663e-05,
	"loss": 11.9159,
	"step": 53500
	},
	{
	"epoch": 41.0,
	"eval_loss": 12.82541275024414,
	"eval_runtime": 44.0679,
	"eval_samples_per_second": 29.613,
	"eval_steps_per_second": 3.722,
	"step": 53505
	},
	{
	"epoch": 41.0727969348659,
	"grad_norm": 3.089315891265869,
	"learning_rate": 2.4339080459770118e-05,
	"loss": 12.0552,
	"step": 53600
	},
	{
	"epoch": 41.14942528735632,
	"grad_norm": 1.9572243690490723,
	"learning_rate": 2.42911877394636e-05,
	"loss": 12.0124,
	"step": 53700
	},
	{
	"epoch": 41.22605363984675,
	"grad_norm": 1.6215753555297852,
	"learning_rate": 2.424329501915709e-05,
	"loss": 11.9782,
	"step": 53800
	},
	{
	"epoch": 41.30268199233716,
	"grad_norm": 1.3075189590454102,
	"learning_rate": 2.4195402298850575e-05,
	"loss": 12.2317,
	"step": 53900
	},
	{
	"epoch": 41.37931034482759,
	"grad_norm": 1.1214234828948975,
	"learning_rate": 2.4147509578544062e-05,
	"loss": 12.1511,
	"step": 54000
	},
	{
	"epoch": 41.45593869731801,
	"grad_norm": 8.386270523071289,
	"learning_rate": 2.409961685823755e-05,
	"loss": 11.8253,
	"step": 54100
	},
	{
	"epoch": 41.53256704980843,
	"grad_norm": 5.074198246002197,
	"learning_rate": 2.4051724137931036e-05,
	"loss": 12.0205,
	"step": 54200
	},
	{
	"epoch": 41.60919540229885,
	"grad_norm": 1.2190698385238647,
	"learning_rate": 2.4003831417624523e-05,
	"loss": 11.9438,
	"step": 54300
	},
	{
	"epoch": 41.68582375478927,
	"grad_norm": 1.3544102907180786,
	"learning_rate": 2.395593869731801e-05,
	"loss": 12.1235,
	"step": 54400
	},
	{
	"epoch": 41.76245210727969,
	"grad_norm": 1.080891489982605,
	"learning_rate": 2.3908045977011497e-05,
	"loss": 11.7676,
	"step": 54500
	},
	{
	"epoch": 41.839080459770116,
	"grad_norm": 1.453224539756775,
	"learning_rate": 2.386015325670498e-05,
	"loss": 12.0158,
	"step": 54600
	},
	{
	"epoch": 41.91570881226053,
	"grad_norm": 1.3428503274917603,
	"learning_rate": 2.3812260536398467e-05,
	"loss": 11.8066,
	"step": 54700
	},
	{
	"epoch": 41.99233716475096,
	"grad_norm": 1.3496088981628418,
	"learning_rate": 2.3764367816091957e-05,
	"loss": 11.8988,
	"step": 54800
	},
	{
	"epoch": 42.0,
	"eval_loss": 12.804805755615234,
	"eval_runtime": 44.1053,
	"eval_samples_per_second": 29.588,
	"eval_steps_per_second": 3.718,
	"step": 54810
	},
	{
	"epoch": 42.06896551724138,
	"grad_norm": 1.2151437997817993,
	"learning_rate": 2.3716475095785444e-05,
	"loss": 12.1893,
	"step": 54900
	},
	{
	"epoch": 42.1455938697318,
	"grad_norm": 1.6184425354003906,
	"learning_rate": 2.3669061302681993e-05,
	"loss": 12.0546,
	"step": 55000
	},
	{
	"epoch": 42.22222222222222,
	"grad_norm": 1.6667332649230957,
	"learning_rate": 2.362116858237548e-05,
	"loss": 11.7933,
	"step": 55100
	},
	{
	"epoch": 42.298850574712645,
	"grad_norm": 3.835425615310669,
	"learning_rate": 2.3573275862068966e-05,
	"loss": 11.9275,
	"step": 55200
	},
	{
	"epoch": 42.37547892720306,
	"grad_norm": 4.450900554656982,
	"learning_rate": 2.3525383141762453e-05,
	"loss": 12.1853,
	"step": 55300
	},
	{
	"epoch": 42.452107279693486,
	"grad_norm": 1.4358230829238892,
	"learning_rate": 2.347749042145594e-05,
	"loss": 12.0228,
	"step": 55400
	},
	{
	"epoch": 42.52873563218391,
	"grad_norm": 1.6793595552444458,
	"learning_rate": 2.3429597701149427e-05,
	"loss": 11.9595,
	"step": 55500
	},
	{
	"epoch": 42.60536398467433,
	"grad_norm": 1.305600643157959,
	"learning_rate": 2.3381704980842914e-05,
	"loss": 11.8126,
	"step": 55600
	},
	{
	"epoch": 42.68199233716475,
	"grad_norm": 1.5794193744659424,
	"learning_rate": 2.33338122605364e-05,
	"loss": 12.0154,
	"step": 55700
	},
	{
	"epoch": 42.758620689655174,
	"grad_norm": 1.6401104927062988,
	"learning_rate": 2.3285919540229888e-05,
	"loss": 11.8344,
	"step": 55800
	},
	{
	"epoch": 42.83524904214559,
	"grad_norm": 1.6348859071731567,
	"learning_rate": 2.323802681992337e-05,
	"loss": 12.0174,
	"step": 55900
	},
	{
	"epoch": 42.911877394636015,
	"grad_norm": 2.6531448364257812,
	"learning_rate": 2.3190134099616858e-05,
	"loss": 11.8581,
	"step": 56000
	},
	{
	"epoch": 42.98850574712644,
	"grad_norm": 1.423274040222168,
	"learning_rate": 2.3142241379310345e-05,
	"loss": 11.9313,
	"step": 56100
	},
	{
	"epoch": 43.0,
	"eval_loss": 12.791069030761719,
	"eval_runtime": 44.1222,
	"eval_samples_per_second": 29.577,
	"eval_steps_per_second": 3.717,
	"step": 56115
	},
	{
	"epoch": 43.065134099616856,
	"grad_norm": 1.3258931636810303,
	"learning_rate": 2.3094348659003835e-05,
	"loss": 11.8864,
	"step": 56200
	},
	{
	"epoch": 43.14176245210728,
	"grad_norm": 1.4615380764007568,
	"learning_rate": 2.304645593869732e-05,
	"loss": 12.0657,
	"step": 56300
	},
	{
	"epoch": 43.2183908045977,
	"grad_norm": 1.4611597061157227,
	"learning_rate": 2.2998563218390805e-05,
	"loss": 11.9148,
	"step": 56400
	},
	{
	"epoch": 43.29501915708812,
	"grad_norm": 1.7766637802124023,
	"learning_rate": 2.2950670498084292e-05,
	"loss": 12.0493,
	"step": 56500
	},
	{
	"epoch": 43.371647509578544,
	"grad_norm": 1.8123854398727417,
	"learning_rate": 2.290277777777778e-05,
	"loss": 11.8749,
	"step": 56600
	},
	{
	"epoch": 43.44827586206897,
	"grad_norm": 2.2500967979431152,
	"learning_rate": 2.2854885057471266e-05,
	"loss": 12.0237,
	"step": 56700
	},
	{
	"epoch": 43.524904214559385,
	"grad_norm": 1.44577157497406,
	"learning_rate": 2.280699233716475e-05,
	"loss": 11.8103,
	"step": 56800
	},
	{
	"epoch": 43.60153256704981,
	"grad_norm": 1.2959234714508057,
	"learning_rate": 2.275909961685824e-05,
	"loss": 12.1443,
	"step": 56900
	},
	{
	"epoch": 43.67816091954023,
	"grad_norm": 1.849253535270691,
	"learning_rate": 2.2711206896551727e-05,
	"loss": 12.037,
	"step": 57000
	},
	{
	"epoch": 43.75478927203065,
	"grad_norm": 1.46470046043396,
	"learning_rate": 2.266379310344828e-05,
	"loss": 12.0392,
	"step": 57100
	},
	{
	"epoch": 43.83141762452107,
	"grad_norm": 1.7397308349609375,
	"learning_rate": 2.2615900383141765e-05,
	"loss": 11.8446,
	"step": 57200
	},
	{
	"epoch": 43.9080459770115,
	"grad_norm": 1.1144057512283325,
	"learning_rate": 2.256800766283525e-05,
	"loss": 12.0084,
	"step": 57300
	},
	{
	"epoch": 43.984674329501914,
	"grad_norm": 4.426650047302246,
	"learning_rate": 2.2520114942528736e-05,
	"loss": 12.0514,
	"step": 57400
	},
	{
	"epoch": 44.0,
	"eval_loss": 12.808330535888672,
	"eval_runtime": 44.0792,
	"eval_samples_per_second": 29.606,
	"eval_steps_per_second": 3.721,
	"step": 57420
	},
	{
	"epoch": 44.06130268199234,
	"grad_norm": 1.1355741024017334,
	"learning_rate": 2.2472222222222223e-05,
	"loss": 11.9243,
	"step": 57500
	},
	{
	"epoch": 44.13793103448276,
	"grad_norm": 1.5547679662704468,
	"learning_rate": 2.2424329501915713e-05,
	"loss": 12.0711,
	"step": 57600
	},
	{
	"epoch": 44.21455938697318,
	"grad_norm": 1.5729808807373047,
	"learning_rate": 2.2376436781609196e-05,
	"loss": 11.9867,
	"step": 57700
	},
	{
	"epoch": 44.2911877394636,
	"grad_norm": 1.2912790775299072,
	"learning_rate": 2.2328544061302683e-05,
	"loss": 11.8632,
	"step": 57800
	},
	{
	"epoch": 44.367816091954026,
	"grad_norm": 1.2545444965362549,
	"learning_rate": 2.228065134099617e-05,
	"loss": 12.0665,
	"step": 57900
	},
	{
	"epoch": 44.44444444444444,
	"grad_norm": 1.3165549039840698,
	"learning_rate": 2.2232758620689657e-05,
	"loss": 11.842,
	"step": 58000
	},
	{
	"epoch": 44.52107279693487,
	"grad_norm": 1.7680951356887817,
	"learning_rate": 2.218486590038314e-05,
	"loss": 11.8055,
	"step": 58100
	},
	{
	"epoch": 44.59770114942529,
	"grad_norm": 2.2426023483276367,
	"learning_rate": 2.2136973180076627e-05,
	"loss": 12.1153,
	"step": 58200
	},
	{
	"epoch": 44.67432950191571,
	"grad_norm": 0.9581509828567505,
	"learning_rate": 2.2089080459770118e-05,
	"loss": 11.8089,
	"step": 58300
	},
	{
	"epoch": 44.75095785440613,
	"grad_norm": 2.1268539428710938,
	"learning_rate": 2.2041187739463605e-05,
	"loss": 11.8902,
	"step": 58400
	},
	{
	"epoch": 44.827586206896555,
	"grad_norm": 1.2000526189804077,
	"learning_rate": 2.1993295019157088e-05,
	"loss": 11.8651,
	"step": 58500
	},
	{
	"epoch": 44.90421455938697,
	"grad_norm": 2.349942684173584,
	"learning_rate": 2.1945402298850575e-05,
	"loss": 11.9236,
	"step": 58600
	},
	{
	"epoch": 44.980842911877396,
	"grad_norm": 1.639948844909668,
	"learning_rate": 2.1897509578544062e-05,
	"loss": 11.9533,
	"step": 58700
	},
	{
	"epoch": 45.0,
	"eval_loss": 12.792840003967285,
	"eval_runtime": 44.0555,
	"eval_samples_per_second": 29.622,
	"eval_steps_per_second": 3.723,
	"step": 58725
	},
	{
	"epoch": 45.05747126436781,
	"grad_norm": 0.9822871088981628,
	"learning_rate": 2.184961685823755e-05,
	"loss": 11.9065,
	"step": 58800
	},
	{
	"epoch": 45.13409961685824,
	"grad_norm": 5.536319255828857,
	"learning_rate": 2.1801724137931036e-05,
	"loss": 11.9411,
	"step": 58900
	},
	{
	"epoch": 45.21072796934866,
	"grad_norm": 1.8267079591751099,
	"learning_rate": 2.1753831417624522e-05,
	"loss": 11.8592,
	"step": 59000
	},
	{
	"epoch": 45.28735632183908,
	"grad_norm": 1.453710675239563,
	"learning_rate": 2.170593869731801e-05,
	"loss": 12.246,
	"step": 59100
	},
	{
	"epoch": 45.3639846743295,
	"grad_norm": 1.5747921466827393,
	"learning_rate": 2.1658045977011496e-05,
	"loss": 12.1555,
	"step": 59200
	},
	{
	"epoch": 45.440613026819925,
	"grad_norm": 0.9929379224777222,
	"learning_rate": 2.1610153256704983e-05,
	"loss": 11.7682,
	"step": 59300
	},
	{
	"epoch": 45.51724137931034,
	"grad_norm": 1.4931187629699707,
	"learning_rate": 2.1562260536398467e-05,
	"loss": 11.8555,
	"step": 59400
	},
	{
	"epoch": 45.593869731800766,
	"grad_norm": 1.114998459815979,
	"learning_rate": 2.1514367816091953e-05,
	"loss": 11.8726,
	"step": 59500
	},
	{
	"epoch": 45.67049808429119,
	"grad_norm": 1.7308725118637085,
	"learning_rate": 2.146647509578544e-05,
	"loss": 12.0875,
	"step": 59600
	},
	{
	"epoch": 45.747126436781606,
	"grad_norm": 1.1630358695983887,
	"learning_rate": 2.141858237547893e-05,
	"loss": 11.8994,
	"step": 59700
	},
	{
	"epoch": 45.82375478927203,
	"grad_norm": 1.9863486289978027,
	"learning_rate": 2.1370689655172414e-05,
	"loss": 11.9502,
	"step": 59800
	},
	{
	"epoch": 45.900383141762454,
	"grad_norm": 1.3612456321716309,
	"learning_rate": 2.13227969348659e-05,
	"loss": 11.8048,
	"step": 59900
	},
	{
	"epoch": 45.97701149425287,
	"grad_norm": 1.1734110116958618,
	"learning_rate": 2.1274904214559388e-05,
	"loss": 12.1155,
	"step": 60000
	},
	{
	"epoch": 46.0,
	"eval_loss": 12.802705764770508,
	"eval_runtime": 44.0902,
	"eval_samples_per_second": 29.598,
	"eval_steps_per_second": 3.72,
	"step": 60030
	},
	{
	"epoch": 46.053639846743295,
	"grad_norm": 2.19791841506958,
	"learning_rate": 2.1227011494252875e-05,
	"loss": 12.0121,
	"step": 60100
	},
	{
	"epoch": 46.13026819923372,
	"grad_norm": 3.206514358520508,
	"learning_rate": 2.1179597701149426e-05,
	"loss": 11.9131,
	"step": 60200
	},
	{
	"epoch": 46.206896551724135,
	"grad_norm": 1.2101006507873535,
	"learning_rate": 2.1131704980842913e-05,
	"loss": 11.869,
	"step": 60300
	},
	{
	"epoch": 46.28352490421456,
	"grad_norm": 1.3384582996368408,
	"learning_rate": 2.10838122605364e-05,
	"loss": 11.7608,
	"step": 60400
	},
	{
	"epoch": 46.36015325670498,
	"grad_norm": 3.215064764022827,
	"learning_rate": 2.1035919540229887e-05,
	"loss": 12.0495,
	"step": 60500
	},
	{
	"epoch": 46.4367816091954,
	"grad_norm": 1.26254403591156,
	"learning_rate": 2.0988026819923374e-05,
	"loss": 11.8855,
	"step": 60600
	},
	{
	"epoch": 46.513409961685824,
	"grad_norm": 1.139722466468811,
	"learning_rate": 2.094013409961686e-05,
	"loss": 12.0157,
	"step": 60700
	},
	{
	"epoch": 46.59003831417625,
	"grad_norm": 1.9146323204040527,
	"learning_rate": 2.0892241379310344e-05,
	"loss": 11.8276,
	"step": 60800
	},
	{
	"epoch": 46.666666666666664,
	"grad_norm": 1.6539549827575684,
	"learning_rate": 2.084434865900383e-05,
	"loss": 11.9677,
	"step": 60900
	},
	{
	"epoch": 46.74329501915709,
	"grad_norm": 1.2380534410476685,
	"learning_rate": 2.0796455938697318e-05,
	"loss": 12.0291,
	"step": 61000
	},
	{
	"epoch": 46.81992337164751,
	"grad_norm": 1.8375437259674072,
	"learning_rate": 2.074856321839081e-05,
	"loss": 11.9032,
	"step": 61100
	},
	{
	"epoch": 46.89655172413793,
	"grad_norm": 2.2188262939453125,
	"learning_rate": 2.0700670498084292e-05,
	"loss": 12.0465,
	"step": 61200
	},
	{
	"epoch": 46.97318007662835,
	"grad_norm": 1.1582258939743042,
	"learning_rate": 2.065277777777778e-05,
	"loss": 11.924,
	"step": 61300
	},
	{
	"epoch": 47.0,
	"eval_loss": 12.797731399536133,
	"eval_runtime": 44.1559,
	"eval_samples_per_second": 29.554,
	"eval_steps_per_second": 3.714,
	"step": 61335
	},
	{
	"epoch": 47.04980842911878,
	"grad_norm": 3.067289352416992,
	"learning_rate": 2.0604885057471266e-05,
	"loss": 11.8265,
	"step": 61400
	},
	{
	"epoch": 47.12643678160919,
	"grad_norm": 1.3472516536712646,
	"learning_rate": 2.0556992337164752e-05,
	"loss": 11.8763,
	"step": 61500
	},
	{
	"epoch": 47.20306513409962,
	"grad_norm": 1.4235740900039673,
	"learning_rate": 2.050909961685824e-05,
	"loss": 11.9473,
	"step": 61600
	},
	{
	"epoch": 47.27969348659004,
	"grad_norm": 1.3170359134674072,
	"learning_rate": 2.0461206896551723e-05,
	"loss": 11.9381,
	"step": 61700
	},
	{
	"epoch": 47.35632183908046,
	"grad_norm": 1.6014246940612793,
	"learning_rate": 2.0413314176245213e-05,
	"loss": 11.9074,
	"step": 61800
	},
	{
	"epoch": 47.43295019157088,
	"grad_norm": 1.3270535469055176,
	"learning_rate": 2.03654214559387e-05,
	"loss": 11.9903,
	"step": 61900
	},
	{
	"epoch": 47.509578544061306,
	"grad_norm": 1.1905503273010254,
	"learning_rate": 2.0317528735632187e-05,
	"loss": 11.9629,
	"step": 62000
	},
	{
	"epoch": 47.58620689655172,
	"grad_norm": 1.546738862991333,
	"learning_rate": 2.026963601532567e-05,
	"loss": 11.831,
	"step": 62100
	},
	{
	"epoch": 47.662835249042146,
	"grad_norm": 1.5887172222137451,
	"learning_rate": 2.0221743295019157e-05,
	"loss": 12.0534,
	"step": 62200
	},
	{
	"epoch": 47.73946360153257,
	"grad_norm": 1.3189942836761475,
	"learning_rate": 2.0173850574712644e-05,
	"loss": 11.9131,
	"step": 62300
	},
	{
	"epoch": 47.81609195402299,
	"grad_norm": 1.9591014385223389,
	"learning_rate": 2.012595785440613e-05,
	"loss": 11.8583,
	"step": 62400
	},
	{
	"epoch": 47.89272030651341,
	"grad_norm": 1.6344765424728394,
	"learning_rate": 2.0078065134099618e-05,
	"loss": 11.9921,
	"step": 62500
	},
	{
	"epoch": 47.969348659003835,
	"grad_norm": 1.1810266971588135,
	"learning_rate": 2.0030172413793105e-05,
	"loss": 11.9987,
	"step": 62600
	},
	{
	"epoch": 48.0,
	"eval_loss": 12.767735481262207,
	"eval_runtime": 44.144,
	"eval_samples_per_second": 29.562,
	"eval_steps_per_second": 3.715,
	"step": 62640
	},
	{
	"epoch": 48.04597701149425,
	"grad_norm": 1.4370075464248657,
	"learning_rate": 1.998227969348659e-05,
	"loss": 12.0014,
	"step": 62700
	},
	{
	"epoch": 48.122605363984675,
	"grad_norm": 1.2901791334152222,
	"learning_rate": 1.993438697318008e-05,
	"loss": 12.0385,
	"step": 62800
	},
	{
	"epoch": 48.1992337164751,
	"grad_norm": 1.2324562072753906,
	"learning_rate": 1.9886494252873565e-05,
	"loss": 11.9594,
	"step": 62900
	},
	{
	"epoch": 48.275862068965516,
	"grad_norm": 1.40041983127594,
	"learning_rate": 1.983860153256705e-05,
	"loss": 11.76,
	"step": 63000
	},
	{
	"epoch": 48.35249042145594,
	"grad_norm": 1.5981560945510864,
	"learning_rate": 1.9790708812260536e-05,
	"loss": 11.8416,
	"step": 63100
	},
	{
	"epoch": 48.42911877394636,
	"grad_norm": 1.5366255044937134,
	"learning_rate": 1.974329501915709e-05,
	"loss": 11.9168,
	"step": 63200
	},
	{
	"epoch": 48.50574712643678,
	"grad_norm": 2.1091346740722656,
	"learning_rate": 1.9695402298850578e-05,
	"loss": 11.7809,
	"step": 63300
	},
	{
	"epoch": 48.582375478927204,
	"grad_norm": 3.076678991317749,
	"learning_rate": 1.964750957854406e-05,
	"loss": 11.8881,
	"step": 63400
	},
	{
	"epoch": 48.65900383141762,
	"grad_norm": 1.6555073261260986,
	"learning_rate": 1.9599616858237548e-05,
	"loss": 11.6799,
	"step": 63500
	},
	{
	"epoch": 48.735632183908045,
	"grad_norm": 1.2696727514266968,
	"learning_rate": 1.9551724137931035e-05,
	"loss": 12.0306,
	"step": 63600
	},
	{
	"epoch": 48.81226053639847,
	"grad_norm": 1.739827275276184,
	"learning_rate": 1.9503831417624522e-05,
	"loss": 12.1005,
	"step": 63700
	},
	{
	"epoch": 48.888888888888886,
	"grad_norm": 1.187231421470642,
	"learning_rate": 1.945593869731801e-05,
	"loss": 11.9703,
	"step": 63800
	},
	{
	"epoch": 48.96551724137931,
	"grad_norm": 2.756282091140747,
	"learning_rate": 1.9408045977011496e-05,
	"loss": 12.0693,
	"step": 63900
	},
	{
	"epoch": 49.0,
	"eval_loss": 12.775006294250488,
	"eval_runtime": 44.1249,
	"eval_samples_per_second": 29.575,
	"eval_steps_per_second": 3.717,
	"step": 63945
	},
	{
	"epoch": 49.04214559386973,
	"grad_norm": 0.967854917049408,
	"learning_rate": 1.9360153256704983e-05,
	"loss": 11.9437,
	"step": 64000
	},
	{
	"epoch": 49.11877394636015,
	"grad_norm": 1.2055004835128784,
	"learning_rate": 1.931226053639847e-05,
	"loss": 11.9037,
	"step": 64100
	},
	{
	"epoch": 49.195402298850574,
	"grad_norm": 1.6203746795654297,
	"learning_rate": 1.9264367816091956e-05,
	"loss": 11.9823,
	"step": 64200
	},
	{
	"epoch": 49.272030651341,
	"grad_norm": 1.1399292945861816,
	"learning_rate": 1.921647509578544e-05,
	"loss": 12.0721,
	"step": 64300
	},
	{
	"epoch": 49.348659003831415,
	"grad_norm": 1.3431105613708496,
	"learning_rate": 1.9168582375478927e-05,
	"loss": 11.8897,
	"step": 64400
	},
	{
	"epoch": 49.42528735632184,
	"grad_norm": 1.316723346710205,
	"learning_rate": 1.9120689655172414e-05,
	"loss": 11.9025,
	"step": 64500
	},
	{
	"epoch": 49.50191570881226,
	"grad_norm": 1.8449369668960571,
	"learning_rate": 1.9072796934865904e-05,
	"loss": 11.6683,
	"step": 64600
	},
	{
	"epoch": 49.57854406130268,
	"grad_norm": 1.3772321939468384,
	"learning_rate": 1.9024904214559387e-05,
	"loss": 12.2022,
	"step": 64700
	},
	{
	"epoch": 49.6551724137931,
	"grad_norm": 2.2538058757781982,
	"learning_rate": 1.8977011494252874e-05,
	"loss": 11.8425,
	"step": 64800
	},
	{
	"epoch": 49.73180076628353,
	"grad_norm": 2.1310970783233643,
	"learning_rate": 1.892911877394636e-05,
	"loss": 11.9638,
	"step": 64900
	},
	{
	"epoch": 49.808429118773944,
	"grad_norm": 1.2570499181747437,
	"learning_rate": 1.8881226053639848e-05,
	"loss": 12.0367,
	"step": 65000
	},
	{
	"epoch": 49.88505747126437,
	"grad_norm": 1.6000453233718872,
	"learning_rate": 1.8833333333333335e-05,
	"loss": 12.0249,
	"step": 65100
	},
	{
	"epoch": 49.96168582375479,
	"grad_norm": 1.2556895017623901,
	"learning_rate": 1.878544061302682e-05,
	"loss": 11.9285,
	"step": 65200
	},
	{
	"epoch": 50.0,
	"eval_loss": 12.788679122924805,
	"eval_runtime": 44.0734,
	"eval_samples_per_second": 29.61,
	"eval_steps_per_second": 3.721,
	"step": 65250
	},
	{
	"epoch": 50.03831417624521,
	"grad_norm": 1.4611543416976929,
	"learning_rate": 1.873754789272031e-05,
	"loss": 12.0139,
	"step": 65300
	},
	{
	"epoch": 50.11494252873563,
	"grad_norm": 1.3939285278320312,
	"learning_rate": 1.869013409961686e-05,
	"loss": 12.1466,
	"step": 65400
	},
	{
	"epoch": 50.191570881226056,
	"grad_norm": 1.378446102142334,
	"learning_rate": 1.8642241379310347e-05,
	"loss": 12.0221,
	"step": 65500
	},
	{
	"epoch": 50.26819923371647,
	"grad_norm": 1.1458476781845093,
	"learning_rate": 1.859434865900383e-05,
	"loss": 11.98,
	"step": 65600
	},
	{
	"epoch": 50.3448275862069,
	"grad_norm": 1.2113792896270752,
	"learning_rate": 1.8546455938697318e-05,
	"loss": 11.7938,
	"step": 65700
	},
	{
	"epoch": 50.42145593869732,
	"grad_norm": 3.7647705078125,
	"learning_rate": 1.8498563218390804e-05,
	"loss": 12.046,
	"step": 65800
	},
	{
	"epoch": 50.49808429118774,
	"grad_norm": 1.4086334705352783,
	"learning_rate": 1.845067049808429e-05,
	"loss": 12.0137,
	"step": 65900
	},
	{
	"epoch": 50.57471264367816,
	"grad_norm": 2.212301254272461,
	"learning_rate": 1.8402777777777778e-05,
	"loss": 11.8535,
	"step": 66000
	},
	{
	"epoch": 50.651340996168585,
	"grad_norm": 1.1334259510040283,
	"learning_rate": 1.8354885057471265e-05,
	"loss": 11.7534,
	"step": 66100
	},
	{
	"epoch": 50.727969348659,
	"grad_norm": 1.3607604503631592,
	"learning_rate": 1.8306992337164752e-05,
	"loss": 12.1351,
	"step": 66200
	},
	{
	"epoch": 50.804597701149426,
	"grad_norm": 0.9516454935073853,
	"learning_rate": 1.825909961685824e-05,
	"loss": 11.8739,
	"step": 66300
	},
	{
	"epoch": 50.88122605363985,
	"grad_norm": 1.7874857187271118,
	"learning_rate": 1.8211206896551726e-05,
	"loss": 12.0046,
	"step": 66400
	},
	{
	"epoch": 50.95785440613027,
	"grad_norm": 1.1303731203079224,
	"learning_rate": 1.816331417624521e-05,
	"loss": 11.8135,
	"step": 66500
	},
	{
	"epoch": 51.0,
	"eval_loss": 12.762798309326172,
	"eval_runtime": 44.1477,
	"eval_samples_per_second": 29.56,
	"eval_steps_per_second": 3.715,
	"step": 66555
	},
	{
	"epoch": 51.03448275862069,
	"grad_norm": 2.8881723880767822,
	"learning_rate": 1.8115421455938696e-05,
	"loss": 11.8533,
	"step": 66600
	},
	{
	"epoch": 51.111111111111114,
	"grad_norm": 1.2278690338134766,
	"learning_rate": 1.8067528735632186e-05,
	"loss": 11.9214,
	"step": 66700
	},
	{
	"epoch": 51.18773946360153,
	"grad_norm": 1.9933656454086304,
	"learning_rate": 1.8019636015325673e-05,
	"loss": 11.8527,
	"step": 66800
	},
	{
	"epoch": 51.264367816091955,
	"grad_norm": 1.4205143451690674,
	"learning_rate": 1.7971743295019157e-05,
	"loss": 12.0251,
	"step": 66900
	},
	{
	"epoch": 51.34099616858238,
	"grad_norm": 1.319817304611206,
	"learning_rate": 1.7923850574712644e-05,
	"loss": 12.0983,
	"step": 67000
	},
	{
	"epoch": 51.417624521072796,
	"grad_norm": 1.6209360361099243,
	"learning_rate": 1.787595785440613e-05,
	"loss": 11.8053,
	"step": 67100
	},
	{
	"epoch": 51.49425287356322,
	"grad_norm": 1.0465126037597656,
	"learning_rate": 1.7828065134099617e-05,
	"loss": 12.0158,
	"step": 67200
	},
	{
	"epoch": 51.57088122605364,
	"grad_norm": 1.4087551832199097,
	"learning_rate": 1.7780172413793104e-05,
	"loss": 11.9305,
	"step": 67300
	},
	{
	"epoch": 51.64750957854406,
	"grad_norm": 1.121779203414917,
	"learning_rate": 1.773227969348659e-05,
	"loss": 12.1881,
	"step": 67400
	},
	{
	"epoch": 51.724137931034484,
	"grad_norm": 1.5989633798599243,
	"learning_rate": 1.7684386973180078e-05,
	"loss": 11.9698,
	"step": 67500
	},
	{
	"epoch": 51.8007662835249,
	"grad_norm": 1.1244069337844849,
	"learning_rate": 1.7636494252873565e-05,
	"loss": 11.7475,
	"step": 67600
	},
	{
	"epoch": 51.877394636015325,
	"grad_norm": 1.2594223022460938,
	"learning_rate": 1.7589080459770117e-05,
	"loss": 11.9611,
	"step": 67700
	},
	{
	"epoch": 51.95402298850575,
	"grad_norm": 1.6870946884155273,
	"learning_rate": 1.7541187739463604e-05,
	"loss": 11.7075,
	"step": 67800
	},
	{
	"epoch": 52.0,
	"eval_loss": 12.814347267150879,
	"eval_runtime": 44.0743,
	"eval_samples_per_second": 29.609,
	"eval_steps_per_second": 3.721,
	"step": 67860
	},
	{
	"epoch": 52.030651340996165,
	"grad_norm": 1.1319911479949951,
	"learning_rate": 1.7493295019157087e-05,
	"loss": 11.8327,
	"step": 67900
	},
	{
	"epoch": 52.10727969348659,
	"grad_norm": 1.0522786378860474,
	"learning_rate": 1.7445402298850574e-05,
	"loss": 11.858,
	"step": 68000
	},
	{
	"epoch": 52.18390804597701,
	"grad_norm": 1.7333852052688599,
	"learning_rate": 1.7397509578544064e-05,
	"loss": 12.037,
	"step": 68100
	},
	{
	"epoch": 52.26053639846743,
	"grad_norm": 1.7924898862838745,
	"learning_rate": 1.734961685823755e-05,
	"loss": 12.0778,
	"step": 68200
	},
	{
	"epoch": 52.337164750957854,
	"grad_norm": 1.221550464630127,
	"learning_rate": 1.7301724137931035e-05,
	"loss": 12.1365,
	"step": 68300
	},
	{
	"epoch": 52.41379310344828,
	"grad_norm": 1.6241466999053955,
	"learning_rate": 1.725383141762452e-05,
	"loss": 12.0267,
	"step": 68400
	},
	{
	"epoch": 52.490421455938694,
	"grad_norm": 1.7579493522644043,
	"learning_rate": 1.720593869731801e-05,
	"loss": 11.7834,
	"step": 68500
	},
	{
	"epoch": 52.56704980842912,
	"grad_norm": 1.4909967184066772,
	"learning_rate": 1.7158045977011495e-05,
	"loss": 11.9632,
	"step": 68600
	},
	{
	"epoch": 52.64367816091954,
	"grad_norm": 2.0708203315734863,
	"learning_rate": 1.7110153256704982e-05,
	"loss": 11.9318,
	"step": 68700
	},
	{
	"epoch": 52.72030651340996,
	"grad_norm": 1.1900310516357422,
	"learning_rate": 1.706226053639847e-05,
	"loss": 11.8145,
	"step": 68800
	},
	{
	"epoch": 52.79693486590038,
	"grad_norm": 1.2245934009552002,
	"learning_rate": 1.7014367816091956e-05,
	"loss": 11.6663,
	"step": 68900
	},
	{
	"epoch": 52.87356321839081,
	"grad_norm": 1.6178796291351318,
	"learning_rate": 1.6966475095785443e-05,
	"loss": 11.9844,
	"step": 69000
	},
	{
	"epoch": 52.95019157088122,
	"grad_norm": 1.2077674865722656,
	"learning_rate": 1.691858237547893e-05,
	"loss": 11.6393,
	"step": 69100
	},
	{
	"epoch": 53.0,
	"eval_loss": 12.77491283416748,
	"eval_runtime": 44.1152,
	"eval_samples_per_second": 29.582,
	"eval_steps_per_second": 3.718,
	"step": 69165
	},
	{
	"epoch": 53.02681992337165,
	"grad_norm": 1.2087703943252563,
	"learning_rate": 1.6870689655172413e-05,
	"loss": 11.8316,
	"step": 69200
	},
	{
	"epoch": 53.10344827586207,
	"grad_norm": 1.472959280014038,
	"learning_rate": 1.68227969348659e-05,
	"loss": 11.9068,
	"step": 69300
	},
	{
	"epoch": 53.18007662835249,
	"grad_norm": 1.2973859310150146,
	"learning_rate": 1.6774904214559387e-05,
	"loss": 11.8753,
	"step": 69400
	},
	{
	"epoch": 53.25670498084291,
	"grad_norm": 1.3909817934036255,
	"learning_rate": 1.6727011494252877e-05,
	"loss": 11.6868,
	"step": 69500
	},
	{
	"epoch": 53.333333333333336,
	"grad_norm": 1.1226869821548462,
	"learning_rate": 1.667911877394636e-05,
	"loss": 11.7399,
	"step": 69600
	},
	{
	"epoch": 53.40996168582375,
	"grad_norm": 1.6086245775222778,
	"learning_rate": 1.6631226053639847e-05,
	"loss": 11.9871,
	"step": 69700
	},
	{
	"epoch": 53.486590038314176,
	"grad_norm": 5.143097400665283,
	"learning_rate": 1.65838122605364e-05,
	"loss": 12.0991,
	"step": 69800
	},
	{
	"epoch": 53.5632183908046,
	"grad_norm": 1.1883777379989624,
	"learning_rate": 1.6535919540229886e-05,
	"loss": 11.7275,
	"step": 69900
	},
	{
	"epoch": 53.63984674329502,
	"grad_norm": 1.152468204498291,
	"learning_rate": 1.6488026819923373e-05,
	"loss": 11.9268,
	"step": 70000
	},
	{
	"epoch": 53.71647509578544,
	"grad_norm": 1.6981552839279175,
	"learning_rate": 1.6440134099616856e-05,
	"loss": 12.0293,
	"step": 70100
	},
	{
	"epoch": 53.793103448275865,
	"grad_norm": 1.6067506074905396,
	"learning_rate": 1.6392241379310347e-05,
	"loss": 11.9477,
	"step": 70200
	},
	{
	"epoch": 53.86973180076628,
	"grad_norm": 3.569709539413452,
	"learning_rate": 1.6344348659003834e-05,
	"loss": 11.8055,
	"step": 70300
	},
	{
	"epoch": 53.946360153256705,
	"grad_norm": 2.3322157859802246,
	"learning_rate": 1.629645593869732e-05,
	"loss": 12.027,
	"step": 70400
	},
	{
	"epoch": 54.0,
	"eval_loss": 12.753838539123535,
	"eval_runtime": 44.1081,
	"eval_samples_per_second": 29.586,
	"eval_steps_per_second": 3.718,
	"step": 70470
	},
	{
	"epoch": 54.02298850574713,
	"grad_norm": 1.4370397329330444,
	"learning_rate": 1.6248563218390804e-05,
	"loss": 12.0639,
	"step": 70500
	},
	{
	"epoch": 54.099616858237546,
	"grad_norm": 2.486645221710205,
	"learning_rate": 1.620067049808429e-05,
	"loss": 11.9231,
	"step": 70600
	},
	{
	"epoch": 54.17624521072797,
	"grad_norm": 2.0936434268951416,
	"learning_rate": 1.6152777777777778e-05,
	"loss": 11.9161,
	"step": 70700
	},
	{
	"epoch": 54.252873563218394,
	"grad_norm": 1.5211490392684937,
	"learning_rate": 1.6104885057471265e-05,
	"loss": 11.9338,
	"step": 70800
	},
	{
	"epoch": 54.32950191570881,
	"grad_norm": 1.035090684890747,
	"learning_rate": 1.605699233716475e-05,
	"loss": 11.7872,
	"step": 70900
	},
	{
	"epoch": 54.406130268199234,
	"grad_norm": 1.617077112197876,
	"learning_rate": 1.600909961685824e-05,
	"loss": 11.9772,
	"step": 71000
	},
	{
	"epoch": 54.48275862068966,
	"grad_norm": 1.3988826274871826,
	"learning_rate": 1.5961206896551725e-05,
	"loss": 12.0088,
	"step": 71100
	},
	{
	"epoch": 54.559386973180075,
	"grad_norm": 1.7126933336257935,
	"learning_rate": 1.5913314176245212e-05,
	"loss": 11.9831,
	"step": 71200
	},
	{
	"epoch": 54.6360153256705,
	"grad_norm": 2.3251850605010986,
	"learning_rate": 1.58654214559387e-05,
	"loss": 11.7345,
	"step": 71300
	},
	{
	"epoch": 54.71264367816092,
	"grad_norm": 1.6456447839736938,
	"learning_rate": 1.5817528735632183e-05,
	"loss": 12.0158,
	"step": 71400
	},
	{
	"epoch": 54.78927203065134,
	"grad_norm": 2.1808829307556152,
	"learning_rate": 1.576963601532567e-05,
	"loss": 12.0169,
	"step": 71500
	},
	{
	"epoch": 54.86590038314176,
	"grad_norm": 2.2233774662017822,
	"learning_rate": 1.572174329501916e-05,
	"loss": 11.9144,
	"step": 71600
	},
	{
	"epoch": 54.94252873563218,
	"grad_norm": 1.5419303178787231,
	"learning_rate": 1.5673850574712647e-05,
	"loss": 11.7915,
	"step": 71700
	},
	{
	"epoch": 55.0,
	"eval_loss": 12.735248565673828,
	"eval_runtime": 44.0526,
	"eval_samples_per_second": 29.624,
	"eval_steps_per_second": 3.723,
	"step": 71775
	},
	{
	"epoch": 55.019157088122604,
	"grad_norm": 2.4967896938323975,
	"learning_rate": 1.562595785440613e-05,
	"loss": 12.1777,
	"step": 71800
	},
	{
	"epoch": 55.09578544061303,
	"grad_norm": 1.6103179454803467,
	"learning_rate": 1.5578065134099617e-05,
	"loss": 12.0236,
	"step": 71900
	},
	{
	"epoch": 55.172413793103445,
	"grad_norm": 1.058643102645874,
	"learning_rate": 1.553065134099617e-05,
	"loss": 11.9485,
	"step": 72000
	},
	{
	"epoch": 55.24904214559387,
	"grad_norm": 1.1860133409500122,
	"learning_rate": 1.5482758620689656e-05,
	"loss": 11.7885,
	"step": 72100
	},
	{
	"epoch": 55.32567049808429,
	"grad_norm": 2.6516213417053223,
	"learning_rate": 1.5434865900383142e-05,
	"loss": 11.8373,
	"step": 72200
	},
	{
	"epoch": 55.40229885057471,
	"grad_norm": 1.3108186721801758,
	"learning_rate": 1.538697318007663e-05,
	"loss": 11.8938,
	"step": 72300
	},
	{
	"epoch": 55.47892720306513,
	"grad_norm": 2.721954345703125,
	"learning_rate": 1.5339080459770116e-05,
	"loss": 11.873,
	"step": 72400
	},
	{
	"epoch": 55.55555555555556,
	"grad_norm": 1.0352996587753296,
	"learning_rate": 1.5291187739463603e-05,
	"loss": 12.025,
	"step": 72500
	},
	{
	"epoch": 55.632183908045974,
	"grad_norm": 1.258169412612915,
	"learning_rate": 1.5243295019157088e-05,
	"loss": 11.9444,
	"step": 72600
	},
	{
	"epoch": 55.7088122605364,
	"grad_norm": 2.314866781234741,
	"learning_rate": 1.5195402298850575e-05,
	"loss": 11.711,
	"step": 72700
	},
	{
	"epoch": 55.78544061302682,
	"grad_norm": 1.308590292930603,
	"learning_rate": 1.5147509578544062e-05,
	"loss": 12.0446,
	"step": 72800
	},
	{
	"epoch": 55.86206896551724,
	"grad_norm": 2.928891897201538,
	"learning_rate": 1.5099616858237547e-05,
	"loss": 11.9413,
	"step": 72900
	},
	{
	"epoch": 55.93869731800766,
	"grad_norm": 1.048743724822998,
	"learning_rate": 1.5051724137931036e-05,
	"loss": 11.791,
	"step": 73000
	},
	{
	"epoch": 56.0,
	"eval_loss": 12.750344276428223,
	"eval_runtime": 44.088,
	"eval_samples_per_second": 29.6,
	"eval_steps_per_second": 3.72,
	"step": 73080
	},
	{
	"epoch": 56.015325670498086,
	"grad_norm": 3.6337478160858154,
	"learning_rate": 1.5003831417624523e-05,
	"loss": 11.9951,
	"step": 73100
	},
	{
	"epoch": 56.0919540229885,
	"grad_norm": 1.7665445804595947,
	"learning_rate": 1.495593869731801e-05,
	"loss": 12.1332,
	"step": 73200
	},
	{
	"epoch": 56.16858237547893,
	"grad_norm": 1.4894465208053589,
	"learning_rate": 1.4908045977011495e-05,
	"loss": 11.7198,
	"step": 73300
	},
	{
	"epoch": 56.24521072796935,
	"grad_norm": 1.0169578790664673,
	"learning_rate": 1.4860153256704982e-05,
	"loss": 12.0523,
	"step": 73400
	},
	{
	"epoch": 56.32183908045977,
	"grad_norm": 1.2872236967086792,
	"learning_rate": 1.4812260536398467e-05,
	"loss": 11.8438,
	"step": 73500
	},
	{
	"epoch": 56.39846743295019,
	"grad_norm": 1.1032931804656982,
	"learning_rate": 1.4764367816091954e-05,
	"loss": 11.9058,
	"step": 73600
	},
	{
	"epoch": 56.475095785440615,
	"grad_norm": 1.4371570348739624,
	"learning_rate": 1.4716475095785442e-05,
	"loss": 11.9199,
	"step": 73700
	},
	{
	"epoch": 56.55172413793103,
	"grad_norm": 1.9667787551879883,
	"learning_rate": 1.4668582375478929e-05,
	"loss": 11.899,
	"step": 73800
	},
	{
	"epoch": 56.628352490421456,
	"grad_norm": 1.2465131282806396,
	"learning_rate": 1.4620689655172414e-05,
	"loss": 11.9303,
	"step": 73900
	},
	{
	"epoch": 56.70498084291188,
	"grad_norm": 1.2738486528396606,
	"learning_rate": 1.4573275862068966e-05,
	"loss": 11.9897,
	"step": 74000
	},
	{
	"epoch": 56.7816091954023,
	"grad_norm": 1.7295411825180054,
	"learning_rate": 1.4525383141762453e-05,
	"loss": 11.989,
	"step": 74100
	},
	{
	"epoch": 56.85823754789272,
	"grad_norm": 3.2072668075561523,
	"learning_rate": 1.4477490421455938e-05,
	"loss": 11.8107,
	"step": 74200
	},
	{
	"epoch": 56.934865900383144,
	"grad_norm": 1.3828212022781372,
	"learning_rate": 1.4429597701149425e-05,
	"loss": 11.7899,
	"step": 74300
	},
	{
	"epoch": 57.0,
	"eval_loss": 12.746719360351562,
	"eval_runtime": 44.0689,
	"eval_samples_per_second": 29.613,
	"eval_steps_per_second": 3.721,
	"step": 74385
	},
	{
	"epoch": 57.01149425287356,
	"grad_norm": 1.1235148906707764,
	"learning_rate": 1.4381704980842914e-05,
	"loss": 11.9095,
	"step": 74400
	},
	{
	"epoch": 57.088122605363985,
	"grad_norm": 1.3013513088226318,
	"learning_rate": 1.43338122605364e-05,
	"loss": 11.8367,
	"step": 74500
	},
	{
	"epoch": 57.16475095785441,
	"grad_norm": 1.46478271484375,
	"learning_rate": 1.4285919540229886e-05,
	"loss": 11.8926,
	"step": 74600
	},
	{
	"epoch": 57.241379310344826,
	"grad_norm": 1.7883129119873047,
	"learning_rate": 1.4238026819923373e-05,
	"loss": 11.7109,
	"step": 74700
	},
	{
	"epoch": 57.31800766283525,
	"grad_norm": 2.2156434059143066,
	"learning_rate": 1.419013409961686e-05,
	"loss": 11.9904,
	"step": 74800
	},
	{
	"epoch": 57.39463601532567,
	"grad_norm": 1.963996410369873,
	"learning_rate": 1.4142241379310345e-05,
	"loss": 11.8243,
	"step": 74900
	},
	{
	"epoch": 57.47126436781609,
	"grad_norm": 1.5265462398529053,
	"learning_rate": 1.4094348659003831e-05,
	"loss": 11.982,
	"step": 75000
	},
	{
	"epoch": 57.547892720306514,
	"grad_norm": 1.5820256471633911,
	"learning_rate": 1.404645593869732e-05,
	"loss": 12.0055,
	"step": 75100
	},
	{
	"epoch": 57.62452107279694,
	"grad_norm": 1.2654030323028564,
	"learning_rate": 1.3998563218390807e-05,
	"loss": 11.8634,
	"step": 75200
	},
	{
	"epoch": 57.701149425287355,
	"grad_norm": 2.1730732917785645,
	"learning_rate": 1.3950670498084292e-05,
	"loss": 12.098,
	"step": 75300
	},
	{
	"epoch": 57.77777777777778,
	"grad_norm": 1.7732394933700562,
	"learning_rate": 1.3902777777777779e-05,
	"loss": 11.856,
	"step": 75400
	},
	{
	"epoch": 57.8544061302682,
	"grad_norm": 1.366039514541626,
	"learning_rate": 1.3854885057471264e-05,
	"loss": 12.0139,
	"step": 75500
	},
	{
	"epoch": 57.93103448275862,
	"grad_norm": 2.9070754051208496,
	"learning_rate": 1.3806992337164751e-05,
	"loss": 11.9716,
	"step": 75600
	},
	{
	"epoch": 58.0,
	"eval_loss": 12.731040000915527,
	"eval_runtime": 44.0877,
	"eval_samples_per_second": 29.6,
	"eval_steps_per_second": 3.72,
	"step": 75690
	},
	{
	"epoch": 58.00766283524904,
	"grad_norm": 2.1817991733551025,
	"learning_rate": 1.3759099616858236e-05,
	"loss": 11.906,
	"step": 75700
	},
	{
	"epoch": 58.08429118773947,
	"grad_norm": 1.2766177654266357,
	"learning_rate": 1.3711206896551726e-05,
	"loss": 12.0479,
	"step": 75800
	},
	{
	"epoch": 58.160919540229884,
	"grad_norm": 2.82973575592041,
	"learning_rate": 1.3663314176245212e-05,
	"loss": 11.947,
	"step": 75900
	},
	{
	"epoch": 58.23754789272031,
	"grad_norm": 1.2385036945343018,
	"learning_rate": 1.3615421455938699e-05,
	"loss": 11.9196,
	"step": 76000
	},
	{
	"epoch": 58.31417624521073,
	"grad_norm": 1.3823829889297485,
	"learning_rate": 1.3567528735632184e-05,
	"loss": 11.9057,
	"step": 76100
	},
	{
	"epoch": 58.39080459770115,
	"grad_norm": 1.472506046295166,
	"learning_rate": 1.351963601532567e-05,
	"loss": 11.9563,
	"step": 76200
	},
	{
	"epoch": 58.46743295019157,
	"grad_norm": 1.5811665058135986,
	"learning_rate": 1.3472222222222222e-05,
	"loss": 11.8257,
	"step": 76300
	},
	{
	"epoch": 58.54406130268199,
	"grad_norm": 1.5588597059249878,
	"learning_rate": 1.3424329501915708e-05,
	"loss": 11.8564,
	"step": 76400
	},
	{
	"epoch": 58.62068965517241,
	"grad_norm": 1.5810322761535645,
	"learning_rate": 1.3376436781609198e-05,
	"loss": 11.8566,
	"step": 76500
	},
	{
	"epoch": 58.69731800766284,
	"grad_norm": 1.5648218393325806,
	"learning_rate": 1.3328544061302683e-05,
	"loss": 11.9988,
	"step": 76600
	},
	{
	"epoch": 58.77394636015325,
	"grad_norm": 1.8077315092086792,
	"learning_rate": 1.328065134099617e-05,
	"loss": 11.7739,
	"step": 76700
	},
	{
	"epoch": 58.85057471264368,
	"grad_norm": 1.1517853736877441,
	"learning_rate": 1.3232758620689655e-05,
	"loss": 11.9046,
	"step": 76800
	},
	{
	"epoch": 58.9272030651341,
	"grad_norm": 1.4639145135879517,
	"learning_rate": 1.3184865900383142e-05,
	"loss": 11.99,
	"step": 76900
	},
	{
	"epoch": 59.0,
	"eval_loss": 12.737883567810059,
	"eval_runtime": 44.0757,
	"eval_samples_per_second": 29.608,
	"eval_steps_per_second": 3.721,
	"step": 76995
	},
	{
	"epoch": 59.00383141762452,
	"grad_norm": 0.9936187267303467,
	"learning_rate": 1.3136973180076629e-05,
	"loss": 11.9348,
	"step": 77000
	},
	{
	"epoch": 59.08045977011494,
	"grad_norm": 1.227501630783081,
	"learning_rate": 1.3089080459770114e-05,
	"loss": 11.9054,
	"step": 77100
	},
	{
	"epoch": 59.157088122605366,
	"grad_norm": 1.1214205026626587,
	"learning_rate": 1.3041187739463603e-05,
	"loss": 11.7912,
	"step": 77200
	},
	{
	"epoch": 59.23371647509578,
	"grad_norm": 1.3010284900665283,
	"learning_rate": 1.299329501915709e-05,
	"loss": 11.8542,
	"step": 77300
	},
	{
	"epoch": 59.310344827586206,
	"grad_norm": 1.291937232017517,
	"learning_rate": 1.2945402298850576e-05,
	"loss": 11.8613,
	"step": 77400
	},
	{
	"epoch": 59.38697318007663,
	"grad_norm": 1.224834680557251,
	"learning_rate": 1.2897509578544062e-05,
	"loss": 11.905,
	"step": 77500
	},
	{
	"epoch": 59.46360153256705,
	"grad_norm": 1.308899998664856,
	"learning_rate": 1.2849616858237548e-05,
	"loss": 11.9067,
	"step": 77600
	},
	{
	"epoch": 59.54022988505747,
	"grad_norm": 1.4333239793777466,
	"learning_rate": 1.2801724137931034e-05,
	"loss": 11.8825,
	"step": 77700
	},
	{
	"epoch": 59.616858237547895,
	"grad_norm": 1.0542117357254028,
	"learning_rate": 1.275383141762452e-05,
	"loss": 12.1948,
	"step": 77800
	},
	{
	"epoch": 59.69348659003831,
	"grad_norm": 1.9502829313278198,
	"learning_rate": 1.2705938697318009e-05,
	"loss": 11.9644,
	"step": 77900
	},
	{
	"epoch": 59.770114942528735,
	"grad_norm": 1.3281497955322266,
	"learning_rate": 1.2658045977011496e-05,
	"loss": 11.8953,
	"step": 78000
	},
	{
	"epoch": 59.84674329501916,
	"grad_norm": 1.2546237707138062,
	"learning_rate": 1.2610153256704981e-05,
	"loss": 11.8375,
	"step": 78100
	},
	{
	"epoch": 59.923371647509576,
	"grad_norm": 1.1630369424819946,
	"learning_rate": 1.2562260536398468e-05,
	"loss": 11.7133,
	"step": 78200
	},
	{
	"epoch": 60.0,
	"grad_norm": 1.7483701705932617,
	"learning_rate": 1.2514367816091955e-05,
	"loss": 12.2012,
	"step": 78300
	},
	{
	"epoch": 60.0,
	"eval_loss": 12.731696128845215,
	"eval_runtime": 44.1463,
	"eval_samples_per_second": 29.561,
	"eval_steps_per_second": 3.715,
	"step": 78300
	},
	{
	"epoch": 60.076628352490424,
	"grad_norm": 2.260547399520874,
	"learning_rate": 1.2466954022988505e-05,
	"loss": 11.9756,
	"step": 78400
	},
	{
	"epoch": 60.15325670498084,
	"grad_norm": 1.387416124343872,
	"learning_rate": 1.2419061302681993e-05,
	"loss": 11.9715,
	"step": 78500
	},
	{
	"epoch": 60.229885057471265,
	"grad_norm": 4.537426948547363,
	"learning_rate": 1.2371168582375479e-05,
	"loss": 11.6355,
	"step": 78600
	},
	{
	"epoch": 60.30651340996169,
	"grad_norm": 1.930817723274231,
	"learning_rate": 1.2323275862068966e-05,
	"loss": 11.6992,
	"step": 78700
	},
	{
	"epoch": 60.383141762452105,
	"grad_norm": 1.7206836938858032,
	"learning_rate": 1.2275383141762452e-05,
	"loss": 11.8606,
	"step": 78800
	},
	{
	"epoch": 60.45977011494253,
	"grad_norm": 1.7796626091003418,
	"learning_rate": 1.222749042145594e-05,
	"loss": 11.8648,
	"step": 78900
	},
	{
	"epoch": 60.53639846743295,
	"grad_norm": 1.6132935285568237,
	"learning_rate": 1.2179597701149426e-05,
	"loss": 11.7958,
	"step": 79000
	},
	{
	"epoch": 60.61302681992337,
	"grad_norm": 1.2063769102096558,
	"learning_rate": 1.2131704980842913e-05,
	"loss": 11.8877,
	"step": 79100
	},
	{
	"epoch": 60.689655172413794,
	"grad_norm": 1.6793837547302246,
	"learning_rate": 1.20838122605364e-05,
	"loss": 11.9401,
	"step": 79200
	},
	{
	"epoch": 60.76628352490422,
	"grad_norm": 2.0831589698791504,
	"learning_rate": 1.2035919540229885e-05,
	"loss": 11.832,
	"step": 79300
	},
	{
	"epoch": 60.842911877394634,
	"grad_norm": 1.4812095165252686,
	"learning_rate": 1.1988026819923372e-05,
	"loss": 12.0039,
	"step": 79400
	},
	{
	"epoch": 60.91954022988506,
	"grad_norm": 2.111269474029541,
	"learning_rate": 1.1940134099616859e-05,
	"loss": 12.0629,
	"step": 79500
	},
	{
	"epoch": 60.99616858237548,
	"grad_norm": 1.0717095136642456,
	"learning_rate": 1.1892241379310346e-05,
	"loss": 11.7839,
	"step": 79600
	},
	{
	"epoch": 61.0,
	"eval_loss": 12.74968433380127,
	"eval_runtime": 44.1528,
	"eval_samples_per_second": 29.556,
	"eval_steps_per_second": 3.714,
	"step": 79605
	},
	{
	"epoch": 61.0727969348659,
	"grad_norm": 2.625854969024658,
	"learning_rate": 1.1844348659003831e-05,
	"loss": 11.9218,
	"step": 79700
	},
	{
	"epoch": 61.14942528735632,
	"grad_norm": 1.9146480560302734,
	"learning_rate": 1.179645593869732e-05,
	"loss": 11.6761,
	"step": 79800
	},
	{
	"epoch": 61.22605363984675,
	"grad_norm": 0.9696165919303894,
	"learning_rate": 1.1748563218390805e-05,
	"loss": 11.9288,
	"step": 79900
	},
	{
	"epoch": 61.30268199233716,
	"grad_norm": 1.1847577095031738,
	"learning_rate": 1.1700670498084292e-05,
	"loss": 11.9674,
	"step": 80000
	},
	{
	"epoch": 61.37931034482759,
	"grad_norm": 1.3804477453231812,
	"learning_rate": 1.1652777777777778e-05,
	"loss": 11.812,
	"step": 80100
	},
	{
	"epoch": 61.45593869731801,
	"grad_norm": 1.6096410751342773,
	"learning_rate": 1.1604885057471265e-05,
	"loss": 11.8585,
	"step": 80200
	},
	{
	"epoch": 61.53256704980843,
	"grad_norm": 1.8098353147506714,
	"learning_rate": 1.1556992337164752e-05,
	"loss": 11.8667,
	"step": 80300
	},
	{
	"epoch": 61.60919540229885,
	"grad_norm": 6.6866068840026855,
	"learning_rate": 1.1509099616858237e-05,
	"loss": 11.8999,
	"step": 80400
	},
	{
	"epoch": 61.68582375478927,
	"grad_norm": 2.7860629558563232,
	"learning_rate": 1.1461206896551726e-05,
	"loss": 11.8976,
	"step": 80500
	},
	{
	"epoch": 61.76245210727969,
	"grad_norm": 1.7936979532241821,
	"learning_rate": 1.1413314176245211e-05,
	"loss": 11.913,
	"step": 80600
	},
	{
	"epoch": 61.839080459770116,
	"grad_norm": 1.7207527160644531,
	"learning_rate": 1.1365421455938698e-05,
	"loss": 12.0002,
	"step": 80700
	},
	{
	"epoch": 61.91570881226053,
	"grad_norm": 2.8500571250915527,
	"learning_rate": 1.1317528735632183e-05,
	"loss": 12.0012,
	"step": 80800
	},
	{
	"epoch": 61.99233716475096,
	"grad_norm": 2.1529831886291504,
	"learning_rate": 1.1269636015325672e-05,
	"loss": 11.9888,
	"step": 80900
	},
	{
	"epoch": 62.0,
	"eval_loss": 12.742037773132324,
	"eval_runtime": 44.1517,
	"eval_samples_per_second": 29.557,
	"eval_steps_per_second": 3.714,
	"step": 80910
	},
	{
	"epoch": 62.06896551724138,
	"grad_norm": 1.1954108476638794,
	"learning_rate": 1.1221743295019157e-05,
	"loss": 11.9691,
	"step": 81000
	},
	{
	"epoch": 62.1455938697318,
	"grad_norm": 1.253891944885254,
	"learning_rate": 1.1174329501915709e-05,
	"loss": 12.0618,
	"step": 81100
	},
	{
	"epoch": 62.22222222222222,
	"grad_norm": 1.5132429599761963,
	"learning_rate": 1.1126436781609197e-05,
	"loss": 11.9311,
	"step": 81200
	},
	{
	"epoch": 62.298850574712645,
	"grad_norm": 1.215069055557251,
	"learning_rate": 1.1078544061302683e-05,
	"loss": 11.7015,
	"step": 81300
	},
	{
	"epoch": 62.37547892720306,
	"grad_norm": 2.0881459712982178,
	"learning_rate": 1.103065134099617e-05,
	"loss": 12.0909,
	"step": 81400
	},
	{
	"epoch": 62.452107279693486,
	"grad_norm": 1.079714298248291,
	"learning_rate": 1.0982758620689655e-05,
	"loss": 11.9608,
	"step": 81500
	},
	{
	"epoch": 62.52873563218391,
	"grad_norm": 1.3947062492370605,
	"learning_rate": 1.0934865900383143e-05,
	"loss": 11.8452,
	"step": 81600
	},
	{
	"epoch": 62.60536398467433,
	"grad_norm": 1.0822895765304565,
	"learning_rate": 1.0886973180076628e-05,
	"loss": 11.8232,
	"step": 81700
	},
	{
	"epoch": 62.68199233716475,
	"grad_norm": 1.6000736951828003,
	"learning_rate": 1.0839080459770115e-05,
	"loss": 11.994,
	"step": 81800
	},
	{
	"epoch": 62.758620689655174,
	"grad_norm": 1.6020923852920532,
	"learning_rate": 1.0791187739463602e-05,
	"loss": 11.9019,
	"step": 81900
	},
	{
	"epoch": 62.83524904214559,
	"grad_norm": 1.4164994955062866,
	"learning_rate": 1.0743295019157089e-05,
	"loss": 11.8139,
	"step": 82000
	},
	{
	"epoch": 62.911877394636015,
	"grad_norm": 2.334690570831299,
	"learning_rate": 1.0695402298850576e-05,
	"loss": 12.0714,
	"step": 82100
	},
	{
	"epoch": 62.98850574712644,
	"grad_norm": 1.8338385820388794,
	"learning_rate": 1.0647509578544061e-05,
	"loss": 11.8382,
	"step": 82200
	},
	{
	"epoch": 63.0,
	"eval_loss": 12.733258247375488,
	"eval_runtime": 44.1527,
	"eval_samples_per_second": 29.557,
	"eval_steps_per_second": 3.714,
	"step": 82215
	},
	{
	"epoch": 63.065134099616856,
	"grad_norm": 3.91227650642395,
	"learning_rate": 1.059961685823755e-05,
	"loss": 11.9929,
	"step": 82300
	},
	{
	"epoch": 63.14176245210728,
	"grad_norm": 1.1621551513671875,
	"learning_rate": 1.0551724137931035e-05,
	"loss": 11.9456,
	"step": 82400
	},
	{
	"epoch": 63.2183908045977,
	"grad_norm": 1.4154562950134277,
	"learning_rate": 1.0503831417624522e-05,
	"loss": 12.0645,
	"step": 82500
	},
	{
	"epoch": 63.29501915708812,
	"grad_norm": 1.8987462520599365,
	"learning_rate": 1.0455938697318009e-05,
	"loss": 11.873,
	"step": 82600
	},
	{
	"epoch": 63.371647509578544,
	"grad_norm": 1.8300188779830933,
	"learning_rate": 1.0408045977011495e-05,
	"loss": 11.7687,
	"step": 82700
	},
	{
	"epoch": 63.44827586206897,
	"grad_norm": 1.4220359325408936,
	"learning_rate": 1.036015325670498e-05,
	"loss": 11.8298,
	"step": 82800
	},
	{
	"epoch": 63.524904214559385,
	"grad_norm": 1.1422735452651978,
	"learning_rate": 1.0312260536398468e-05,
	"loss": 11.9857,
	"step": 82900
	},
	{
	"epoch": 63.60153256704981,
	"grad_norm": 1.6723980903625488,
	"learning_rate": 1.0264367816091954e-05,
	"loss": 11.6692,
	"step": 83000
	},
	{
	"epoch": 63.67816091954023,
	"grad_norm": 1.3438162803649902,
	"learning_rate": 1.0216954022988506e-05,
	"loss": 11.8703,
	"step": 83100
	},
	{
	"epoch": 63.75478927203065,
	"grad_norm": 1.2540138959884644,
	"learning_rate": 1.0169061302681993e-05,
	"loss": 11.8198,
	"step": 83200
	},
	{
	"epoch": 63.83141762452107,
	"grad_norm": 1.439274787902832,
	"learning_rate": 1.012116858237548e-05,
	"loss": 11.8904,
	"step": 83300
	},
	{
	"epoch": 63.9080459770115,
	"grad_norm": 1.0765241384506226,
	"learning_rate": 1.0073275862068967e-05,
	"loss": 11.8521,
	"step": 83400
	},
	{
	"epoch": 63.984674329501914,
	"grad_norm": 1.066419005393982,
	"learning_rate": 1.0025383141762452e-05,
	"loss": 11.8361,
	"step": 83500
	},
	{
	"epoch": 64.0,
	"eval_loss": 12.740053176879883,
	"eval_runtime": 44.1473,
	"eval_samples_per_second": 29.56,
	"eval_steps_per_second": 3.715,
	"step": 83520
	},
	{
	"epoch": 64.06130268199233,
	"grad_norm": 1.2648850679397583,
	"learning_rate": 9.977490421455939e-06,
	"loss": 12.1,
	"step": 83600
	},
	{
	"epoch": 64.13793103448276,
	"grad_norm": 1.115157961845398,
	"learning_rate": 9.929597701149426e-06,
	"loss": 11.798,
	"step": 83700
	},
	{
	"epoch": 64.21455938697318,
	"grad_norm": 1.6352553367614746,
	"learning_rate": 9.881704980842913e-06,
	"loss": 11.9761,
	"step": 83800
	},
	{
	"epoch": 64.2911877394636,
	"grad_norm": 1.2003965377807617,
	"learning_rate": 9.833812260536398e-06,
	"loss": 11.9813,
	"step": 83900
	},
	{
	"epoch": 64.36781609195403,
	"grad_norm": 1.5004589557647705,
	"learning_rate": 9.785919540229886e-06,
	"loss": 11.7826,
	"step": 84000
	},
	{
	"epoch": 64.44444444444444,
	"grad_norm": 1.3350985050201416,
	"learning_rate": 9.738026819923372e-06,
	"loss": 11.8015,
	"step": 84100
	},
	{
	"epoch": 64.52107279693486,
	"grad_norm": 1.5985853672027588,
	"learning_rate": 9.690134099616858e-06,
	"loss": 11.6736,
	"step": 84200
	},
	{
	"epoch": 64.59770114942529,
	"grad_norm": 2.1115546226501465,
	"learning_rate": 9.642241379310345e-06,
	"loss": 11.7572,
	"step": 84300
	},
	{
	"epoch": 64.67432950191571,
	"grad_norm": 2.5769665241241455,
	"learning_rate": 9.594348659003832e-06,
	"loss": 11.8057,
	"step": 84400
	},
	{
	"epoch": 64.75095785440612,
	"grad_norm": 3.2280073165893555,
	"learning_rate": 9.546455938697319e-06,
	"loss": 11.9184,
	"step": 84500
	},
	{
	"epoch": 64.82758620689656,
	"grad_norm": 1.2311729192733765,
	"learning_rate": 9.498563218390804e-06,
	"loss": 11.9657,
	"step": 84600
	},
	{
	"epoch": 64.90421455938697,
	"grad_norm": 1.6303430795669556,
	"learning_rate": 9.450670498084293e-06,
	"loss": 11.9864,
	"step": 84700
	},
	{
	"epoch": 64.98084291187739,
	"grad_norm": 1.6421687602996826,
	"learning_rate": 9.402777777777778e-06,
	"loss": 11.8224,
	"step": 84800
	},
	{
	"epoch": 65.0,
	"eval_loss": 12.752345085144043,
	"eval_runtime": 44.1763,
	"eval_samples_per_second": 29.541,
	"eval_steps_per_second": 3.712,
	"step": 84825
	},
	{
	"epoch": 65.05747126436782,
	"grad_norm": 1.2040326595306396,
	"learning_rate": 9.354885057471265e-06,
	"loss": 11.7626,
	"step": 84900
	},
	{
	"epoch": 65.13409961685824,
	"grad_norm": 1.1865389347076416,
	"learning_rate": 9.30699233716475e-06,
	"loss": 12.015,
	"step": 85000
	},
	{
	"epoch": 65.21072796934865,
	"grad_norm": 2.0402724742889404,
	"learning_rate": 9.259099616858239e-06,
	"loss": 11.8473,
	"step": 85100
	},
	{
	"epoch": 65.28735632183908,
	"grad_norm": 1.8505759239196777,
	"learning_rate": 9.21168582375479e-06,
	"loss": 11.9353,
	"step": 85200
	},
	{
	"epoch": 65.3639846743295,
	"grad_norm": 2.3651750087738037,
	"learning_rate": 9.163793103448276e-06,
	"loss": 12.0637,
	"step": 85300
	},
	{
	"epoch": 65.44061302681992,
	"grad_norm": 1.9731732606887817,
	"learning_rate": 9.115900383141762e-06,
	"loss": 12.0013,
	"step": 85400
	},
	{
	"epoch": 65.51724137931035,
	"grad_norm": 1.3928194046020508,
	"learning_rate": 9.06800766283525e-06,
	"loss": 11.6937,
	"step": 85500
	},
	{
	"epoch": 65.59386973180077,
	"grad_norm": 1.580771565437317,
	"learning_rate": 9.020114942528736e-06,
	"loss": 11.5997,
	"step": 85600
	},
	{
	"epoch": 65.67049808429118,
	"grad_norm": 1.143648624420166,
	"learning_rate": 8.972222222222221e-06,
	"loss": 11.948,
	"step": 85700
	},
	{
	"epoch": 65.74712643678161,
	"grad_norm": 1.9105567932128906,
	"learning_rate": 8.92432950191571e-06,
	"loss": 11.9796,
	"step": 85800
	},
	{
	"epoch": 65.82375478927203,
	"grad_norm": 1.3926714658737183,
	"learning_rate": 8.876436781609195e-06,
	"loss": 11.7775,
	"step": 85900
	},
	{
	"epoch": 65.90038314176245,
	"grad_norm": 1.1419901847839355,
	"learning_rate": 8.828544061302682e-06,
	"loss": 11.7615,
	"step": 86000
	},
	{
	"epoch": 65.97701149425288,
	"grad_norm": 1.6939061880111694,
	"learning_rate": 8.780651340996169e-06,
	"loss": 11.8244,
	"step": 86100
	},
	{
	"epoch": 66.0,
	"eval_loss": 12.737361907958984,
	"eval_runtime": 44.1505,
	"eval_samples_per_second": 29.558,
	"eval_steps_per_second": 3.715,
	"step": 86130
	},
	{
	"epoch": 66.0536398467433,
	"grad_norm": 1.953165054321289,
	"learning_rate": 8.732758620689656e-06,
	"loss": 11.9442,
	"step": 86200
	},
	{
	"epoch": 66.13026819923371,
	"grad_norm": 2.1596179008483887,
	"learning_rate": 8.684865900383143e-06,
	"loss": 11.764,
	"step": 86300
	},
	{
	"epoch": 66.20689655172414,
	"grad_norm": 1.4609719514846802,
	"learning_rate": 8.636973180076628e-06,
	"loss": 12.1997,
	"step": 86400
	},
	{
	"epoch": 66.28352490421456,
	"grad_norm": 2.0631511211395264,
	"learning_rate": 8.589080459770116e-06,
	"loss": 11.8684,
	"step": 86500
	},
	{
	"epoch": 66.36015325670498,
	"grad_norm": 1.4530664682388306,
	"learning_rate": 8.541187739463602e-06,
	"loss": 11.8307,
	"step": 86600
	},
	{
	"epoch": 66.4367816091954,
	"grad_norm": 2.148606777191162,
	"learning_rate": 8.493295019157089e-06,
	"loss": 11.9725,
	"step": 86700
	},
	{
	"epoch": 66.51340996168582,
	"grad_norm": 1.8974863290786743,
	"learning_rate": 8.445402298850575e-06,
	"loss": 11.9907,
	"step": 86800
	},
	{
	"epoch": 66.59003831417624,
	"grad_norm": 2.369657278060913,
	"learning_rate": 8.397509578544062e-06,
	"loss": 11.9563,
	"step": 86900
	},
	{
	"epoch": 66.66666666666667,
	"grad_norm": 1.6854480504989624,
	"learning_rate": 8.349616858237547e-06,
	"loss": 11.9173,
	"step": 87000
	},
	{
	"epoch": 66.74329501915709,
	"grad_norm": 1.6539610624313354,
	"learning_rate": 8.301724137931034e-06,
	"loss": 11.9584,
	"step": 87100
	},
	{
	"epoch": 66.8199233716475,
	"grad_norm": 1.346731424331665,
	"learning_rate": 8.253831417624521e-06,
	"loss": 11.7909,
	"step": 87200
	},
	{
	"epoch": 66.89655172413794,
	"grad_norm": 1.6548290252685547,
	"learning_rate": 8.206417624521073e-06,
	"loss": 11.9346,
	"step": 87300
	},
	{
	"epoch": 66.97318007662835,
	"grad_norm": 1.1189563274383545,
	"learning_rate": 8.15852490421456e-06,
	"loss": 11.9832,
	"step": 87400
	},
	{
	"epoch": 67.0,
	"eval_loss": 12.747148513793945,
	"eval_runtime": 44.147,
	"eval_samples_per_second": 29.56,
	"eval_steps_per_second": 3.715,
	"step": 87435
	},
	{
	"epoch": 67.04980842911877,
	"grad_norm": 1.7302024364471436,
	"learning_rate": 8.110632183908045e-06,
	"loss": 11.8374,
	"step": 87500
	},
	{
	"epoch": 67.1264367816092,
	"grad_norm": 0.8793215751647949,
	"learning_rate": 8.062739463601534e-06,
	"loss": 11.7415,
	"step": 87600
	},
	{
	"epoch": 67.20306513409962,
	"grad_norm": 1.1903204917907715,
	"learning_rate": 8.014846743295019e-06,
	"loss": 11.8223,
	"step": 87700
	},
	{
	"epoch": 67.27969348659003,
	"grad_norm": 2.025223731994629,
	"learning_rate": 7.966954022988506e-06,
	"loss": 11.7065,
	"step": 87800
	},
	{
	"epoch": 67.35632183908046,
	"grad_norm": 1.2028359174728394,
	"learning_rate": 7.919061302681993e-06,
	"loss": 11.9446,
	"step": 87900
	},
	{
	"epoch": 67.43295019157088,
	"grad_norm": 1.56088387966156,
	"learning_rate": 7.87116858237548e-06,
	"loss": 12.0176,
	"step": 88000
	},
	{
	"epoch": 67.5095785440613,
	"grad_norm": 1.4466462135314941,
	"learning_rate": 7.823275862068966e-06,
	"loss": 11.8777,
	"step": 88100
	},
	{
	"epoch": 67.58620689655173,
	"grad_norm": 2.2348804473876953,
	"learning_rate": 7.775383141762453e-06,
	"loss": 11.8506,
	"step": 88200
	},
	{
	"epoch": 67.66283524904215,
	"grad_norm": 1.0889838933944702,
	"learning_rate": 7.72749042145594e-06,
	"loss": 11.9706,
	"step": 88300
	},
	{
	"epoch": 67.73946360153256,
	"grad_norm": 1.6289935111999512,
	"learning_rate": 7.679597701149425e-06,
	"loss": 11.9588,
	"step": 88400
	},
	{
	"epoch": 67.816091954023,
	"grad_norm": 1.2480045557022095,
	"learning_rate": 7.631704980842912e-06,
	"loss": 11.7933,
	"step": 88500
	},
	{
	"epoch": 67.89272030651341,
	"grad_norm": 1.5679010152816772,
	"learning_rate": 7.583812260536399e-06,
	"loss": 12.0495,
	"step": 88600
	},
	{
	"epoch": 67.96934865900383,
	"grad_norm": 1.2820953130722046,
	"learning_rate": 7.535919540229885e-06,
	"loss": 11.8478,
	"step": 88700
	},
	{
	"epoch": 68.0,
	"eval_loss": 12.716951370239258,
	"eval_runtime": 44.1526,
	"eval_samples_per_second": 29.557,
	"eval_steps_per_second": 3.714,
	"step": 88740
	},
	{
	"epoch": 68.04597701149426,
	"grad_norm": 1.0503605604171753,
	"learning_rate": 7.488026819923372e-06,
	"loss": 11.9092,
	"step": 88800
	},
	{
	"epoch": 68.12260536398468,
	"grad_norm": 1.5500402450561523,
	"learning_rate": 7.440134099616859e-06,
	"loss": 11.933,
	"step": 88900
	},
	{
	"epoch": 68.19923371647509,
	"grad_norm": 2.4164953231811523,
	"learning_rate": 7.392241379310346e-06,
	"loss": 11.8528,
	"step": 89000
	},
	{
	"epoch": 68.27586206896552,
	"grad_norm": 1.7877123355865479,
	"learning_rate": 7.344348659003832e-06,
	"loss": 11.8459,
	"step": 89100
	},
	{
	"epoch": 68.35249042145594,
	"grad_norm": 1.6601005792617798,
	"learning_rate": 7.296455938697318e-06,
	"loss": 11.8986,
	"step": 89200
	},
	{
	"epoch": 68.42911877394636,
	"grad_norm": 1.6431148052215576,
	"learning_rate": 7.24904214559387e-06,
	"loss": 11.8467,
	"step": 89300
	},
	{
	"epoch": 68.50574712643679,
	"grad_norm": 1.2147421836853027,
	"learning_rate": 7.201149425287357e-06,
	"loss": 11.9989,
	"step": 89400
	},
	{
	"epoch": 68.5823754789272,
	"grad_norm": 1.0646436214447021,
	"learning_rate": 7.153256704980843e-06,
	"loss": 11.6439,
	"step": 89500
	},
	{
	"epoch": 68.65900383141762,
	"grad_norm": 1.494936466217041,
	"learning_rate": 7.105363984674329e-06,
	"loss": 11.8232,
	"step": 89600
	},
	{
	"epoch": 68.73563218390805,
	"grad_norm": 1.1928653717041016,
	"learning_rate": 7.057471264367817e-06,
	"loss": 12.032,
	"step": 89700
	},
	{
	"epoch": 68.81226053639847,
	"grad_norm": 1.2193999290466309,
	"learning_rate": 7.009578544061303e-06,
	"loss": 11.8999,
	"step": 89800
	},
	{
	"epoch": 68.88888888888889,
	"grad_norm": 1.418272852897644,
	"learning_rate": 6.961685823754789e-06,
	"loss": 12.0139,
	"step": 89900
	},
	{
	"epoch": 68.96551724137932,
	"grad_norm": 2.331040620803833,
	"learning_rate": 6.913793103448277e-06,
	"loss": 12.0201,
	"step": 90000
	},
	{
	"epoch": 69.0,
	"eval_loss": 12.731438636779785,
	"eval_runtime": 44.1419,
	"eval_samples_per_second": 29.564,
	"eval_steps_per_second": 3.715,
	"step": 90045
	},
	{
	"epoch": 69.04214559386973,
	"grad_norm": 1.2469091415405273,
	"learning_rate": 6.865900383141763e-06,
	"loss": 11.7182,
	"step": 90100
	},
	{
	"epoch": 69.11877394636015,
	"grad_norm": 1.299902319908142,
	"learning_rate": 6.818007662835249e-06,
	"loss": 11.908,
	"step": 90200
	},
	{
	"epoch": 69.19540229885058,
	"grad_norm": 2.0446414947509766,
	"learning_rate": 6.770114942528737e-06,
	"loss": 11.8736,
	"step": 90300
	},
	{
	"epoch": 69.272030651341,
	"grad_norm": 2.1058554649353027,
	"learning_rate": 6.722222222222223e-06,
	"loss": 11.7726,
	"step": 90400
	},
	{
	"epoch": 69.34865900383141,
	"grad_norm": 1.222571849822998,
	"learning_rate": 6.674329501915709e-06,
	"loss": 12.1008,
	"step": 90500
	},
	{
	"epoch": 69.42528735632185,
	"grad_norm": 1.2086107730865479,
	"learning_rate": 6.6264367816091955e-06,
	"loss": 11.9332,
	"step": 90600
	},
	{
	"epoch": 69.50191570881226,
	"grad_norm": 1.188658356666565,
	"learning_rate": 6.578544061302682e-06,
	"loss": 11.9603,
	"step": 90700
	},
	{
	"epoch": 69.57854406130268,
	"grad_norm": 1.1233985424041748,
	"learning_rate": 6.530651340996169e-06,
	"loss": 11.7879,
	"step": 90800
	},
	{
	"epoch": 69.65517241379311,
	"grad_norm": 1.8599299192428589,
	"learning_rate": 6.482758620689655e-06,
	"loss": 12.0864,
	"step": 90900
	},
	{
	"epoch": 69.73180076628353,
	"grad_norm": 1.213908076286316,
	"learning_rate": 6.434865900383143e-06,
	"loss": 11.7091,
	"step": 91000
	},
	{
	"epoch": 69.80842911877394,
	"grad_norm": 1.2682372331619263,
	"learning_rate": 6.386973180076629e-06,
	"loss": 11.8762,
	"step": 91100
	},
	{
	"epoch": 69.88505747126437,
	"grad_norm": 1.940184473991394,
	"learning_rate": 6.339080459770115e-06,
	"loss": 11.6487,
	"step": 91200
	},
	{
	"epoch": 69.96168582375479,
	"grad_norm": 1.4338123798370361,
	"learning_rate": 6.291187739463601e-06,
	"loss": 12.152,
	"step": 91300
	},
	{
	"epoch": 70.0,
	"eval_loss": 12.735883712768555,
	"eval_runtime": 44.179,
	"eval_samples_per_second": 29.539,
	"eval_steps_per_second": 3.712,
	"step": 91350
	},
	{
	"epoch": 70.03831417624521,
	"grad_norm": 2.018376111984253,
	"learning_rate": 6.243295019157088e-06,
	"loss": 11.9978,
	"step": 91400
	},
	{
	"epoch": 70.11494252873563,
	"grad_norm": 1.4965932369232178,
	"learning_rate": 6.195881226053641e-06,
	"loss": 11.9588,
	"step": 91500
	},
	{
	"epoch": 70.19157088122606,
	"grad_norm": 1.5459176301956177,
	"learning_rate": 6.147988505747127e-06,
	"loss": 11.7513,
	"step": 91600
	},
	{
	"epoch": 70.26819923371647,
	"grad_norm": 1.6559784412384033,
	"learning_rate": 6.1000957854406135e-06,
	"loss": 11.8124,
	"step": 91700
	},
	{
	"epoch": 70.34482758620689,
	"grad_norm": 2.100288152694702,
	"learning_rate": 6.0522030651341e-06,
	"loss": 11.8001,
	"step": 91800
	},
	{
	"epoch": 70.42145593869732,
	"grad_norm": 2.0167760848999023,
	"learning_rate": 6.0043103448275864e-06,
	"loss": 11.7079,
	"step": 91900
	},
	{
	"epoch": 70.49808429118774,
	"grad_norm": 1.2484099864959717,
	"learning_rate": 5.956417624521073e-06,
	"loss": 11.8747,
	"step": 92000
	},
	{
	"epoch": 70.57471264367815,
	"grad_norm": 1.4585705995559692,
	"learning_rate": 5.908524904214559e-06,
	"loss": 11.6371,
	"step": 92100
	},
	{
	"epoch": 70.65134099616859,
	"grad_norm": 1.2680083513259888,
	"learning_rate": 5.860632183908046e-06,
	"loss": 11.8783,
	"step": 92200
	},
	{
	"epoch": 70.727969348659,
	"grad_norm": 3.2429590225219727,
	"learning_rate": 5.812739463601532e-06,
	"loss": 12.0867,
	"step": 92300
	},
	{
	"epoch": 70.80459770114942,
	"grad_norm": 1.6496800184249878,
	"learning_rate": 5.764846743295019e-06,
	"loss": 11.8665,
	"step": 92400
	},
	{
	"epoch": 70.88122605363985,
	"grad_norm": 1.7092400789260864,
	"learning_rate": 5.716954022988506e-06,
	"loss": 11.8957,
	"step": 92500
	},
	{
	"epoch": 70.95785440613027,
	"grad_norm": 1.308349370956421,
	"learning_rate": 5.669061302681993e-06,
	"loss": 11.6562,
	"step": 92600
	},
	{
	"epoch": 71.0,
	"eval_loss": 12.738100051879883,
	"eval_runtime": 44.1855,
	"eval_samples_per_second": 29.535,
	"eval_steps_per_second": 3.712,
	"step": 92655
	},
	{
	"epoch": 71.03448275862068,
	"grad_norm": 1.4456454515457153,
	"learning_rate": 5.62116858237548e-06,
	"loss": 11.9577,
	"step": 92700
	},
	{
	"epoch": 71.11111111111111,
	"grad_norm": 1.178861141204834,
	"learning_rate": 5.573275862068966e-06,
	"loss": 11.7769,
	"step": 92800
	},
	{
	"epoch": 71.18773946360153,
	"grad_norm": 1.2721989154815674,
	"learning_rate": 5.525383141762453e-06,
	"loss": 12.0604,
	"step": 92900
	},
	{
	"epoch": 71.26436781609195,
	"grad_norm": 1.4360485076904297,
	"learning_rate": 5.4774904214559396e-06,
	"loss": 11.853,
	"step": 93000
	},
	{
	"epoch": 71.34099616858238,
	"grad_norm": 1.1324783563613892,
	"learning_rate": 5.429597701149426e-06,
	"loss": 12.0389,
	"step": 93100
	},
	{
	"epoch": 71.4176245210728,
	"grad_norm": 1.327430009841919,
	"learning_rate": 5.3817049808429125e-06,
	"loss": 12.1736,
	"step": 93200
	},
	{
	"epoch": 71.49425287356321,
	"grad_norm": 1.7536532878875732,
	"learning_rate": 5.3338122605363985e-06,
	"loss": 11.8394,
	"step": 93300
	},
	{
	"epoch": 71.57088122605364,
	"grad_norm": 1.2314512729644775,
	"learning_rate": 5.285919540229885e-06,
	"loss": 11.8958,
	"step": 93400
	},
	{
	"epoch": 71.64750957854406,
	"grad_norm": 1.3814700841903687,
	"learning_rate": 5.2380268199233714e-06,
	"loss": 11.8036,
	"step": 93500
	},
	{
	"epoch": 71.72413793103448,
	"grad_norm": 1.6986061334609985,
	"learning_rate": 5.190134099616858e-06,
	"loss": 11.7598,
	"step": 93600
	},
	{
	"epoch": 71.80076628352491,
	"grad_norm": 1.1988410949707031,
	"learning_rate": 5.142241379310345e-06,
	"loss": 11.7643,
	"step": 93700
	},
	{
	"epoch": 71.87739463601532,
	"grad_norm": 1.005979061126709,
	"learning_rate": 5.094827586206897e-06,
	"loss": 11.8694,
	"step": 93800
	},
	{
	"epoch": 71.95402298850574,
	"grad_norm": 1.8171489238739014,
	"learning_rate": 5.046934865900384e-06,
	"loss": 11.7541,
	"step": 93900
	},
	{
	"epoch": 72.0,
	"eval_loss": 12.730957984924316,
	"eval_runtime": 44.1811,
	"eval_samples_per_second": 29.538,
	"eval_steps_per_second": 3.712,
	"step": 93960
	},
	{
	"epoch": 72.03065134099617,
	"grad_norm": 1.2113227844238281,
	"learning_rate": 4.99904214559387e-06,
	"loss": 11.8434,
	"step": 94000
	},
	{
	"epoch": 72.10727969348659,
	"grad_norm": 1.9516360759735107,
	"learning_rate": 4.951149425287357e-06,
	"loss": 12.0732,
	"step": 94100
	},
	{
	"epoch": 72.183908045977,
	"grad_norm": 1.6725817918777466,
	"learning_rate": 4.903256704980843e-06,
	"loss": 11.9187,
	"step": 94200
	},
	{
	"epoch": 72.26053639846744,
	"grad_norm": 1.5325151681900024,
	"learning_rate": 4.85536398467433e-06,
	"loss": 11.8286,
	"step": 94300
	},
	{
	"epoch": 72.33716475095785,
	"grad_norm": 1.4346359968185425,
	"learning_rate": 4.807471264367816e-06,
	"loss": 11.9449,
	"step": 94400
	},
	{
	"epoch": 72.41379310344827,
	"grad_norm": 1.8294119834899902,
	"learning_rate": 4.7595785440613025e-06,
	"loss": 11.7885,
	"step": 94500
	},
	{
	"epoch": 72.4904214559387,
	"grad_norm": 3.0054831504821777,
	"learning_rate": 4.7116858237547894e-06,
	"loss": 11.9011,
	"step": 94600
	},
	{
	"epoch": 72.56704980842912,
	"grad_norm": 3.023944616317749,
	"learning_rate": 4.663793103448276e-06,
	"loss": 11.7951,
	"step": 94700
	},
	{
	"epoch": 72.64367816091954,
	"grad_norm": 1.6727356910705566,
	"learning_rate": 4.615900383141763e-06,
	"loss": 11.6363,
	"step": 94800
	},
	{
	"epoch": 72.72030651340997,
	"grad_norm": 2.4141032695770264,
	"learning_rate": 4.568007662835249e-06,
	"loss": 11.8062,
	"step": 94900
	},
	{
	"epoch": 72.79693486590038,
	"grad_norm": 1.810632348060608,
	"learning_rate": 4.520114942528736e-06,
	"loss": 11.7885,
	"step": 95000
	},
	{
	"epoch": 72.8735632183908,
	"grad_norm": 1.2663646936416626,
	"learning_rate": 4.472222222222222e-06,
	"loss": 11.8532,
	"step": 95100
	},
	{
	"epoch": 72.95019157088123,
	"grad_norm": 1.1440293788909912,
	"learning_rate": 4.424329501915709e-06,
	"loss": 11.9398,
	"step": 95200
	},
	{
	"epoch": 73.0,
	"eval_loss": 12.724422454833984,
	"eval_runtime": 44.1981,
	"eval_samples_per_second": 29.526,
	"eval_steps_per_second": 3.711,
	"step": 95265
	},
	{
	"epoch": 73.02681992337165,
	"grad_norm": 1.0655268430709839,
	"learning_rate": 4.376436781609196e-06,
	"loss": 11.9855,
	"step": 95300
	},
	{
	"epoch": 73.10344827586206,
	"grad_norm": 1.2701817750930786,
	"learning_rate": 4.328544061302682e-06,
	"loss": 11.7504,
	"step": 95400
	},
	{
	"epoch": 73.1800766283525,
	"grad_norm": 1.4740400314331055,
	"learning_rate": 4.280651340996169e-06,
	"loss": 11.8391,
	"step": 95500
	},
	{
	"epoch": 73.25670498084291,
	"grad_norm": 2.1387853622436523,
	"learning_rate": 4.232758620689655e-06,
	"loss": 11.8052,
	"step": 95600
	},
	{
	"epoch": 73.33333333333333,
	"grad_norm": 1.295242190361023,
	"learning_rate": 4.184865900383142e-06,
	"loss": 11.9859,
	"step": 95700
	},
	{
	"epoch": 73.40996168582376,
	"grad_norm": 1.4711384773254395,
	"learning_rate": 4.136973180076629e-06,
	"loss": 12.1523,
	"step": 95800
	},
	{
	"epoch": 73.48659003831418,
	"grad_norm": 1.7779674530029297,
	"learning_rate": 4.089080459770115e-06,
	"loss": 11.698,
	"step": 95900
	},
	{
	"epoch": 73.5632183908046,
	"grad_norm": 2.6070003509521484,
	"learning_rate": 4.0411877394636015e-06,
	"loss": 11.9877,
	"step": 96000
	},
	{
	"epoch": 73.63984674329502,
	"grad_norm": 1.4775136709213257,
	"learning_rate": 3.993295019157088e-06,
	"loss": 11.7928,
	"step": 96100
	},
	{
	"epoch": 73.71647509578544,
	"grad_norm": 1.7105778455734253,
	"learning_rate": 3.945402298850575e-06,
	"loss": 12.0444,
	"step": 96200
	},
	{
	"epoch": 73.79310344827586,
	"grad_norm": 1.6719238758087158,
	"learning_rate": 3.897988505747126e-06,
	"loss": 11.9407,
	"step": 96300
	},
	{
	"epoch": 73.86973180076629,
	"grad_norm": 1.312474250793457,
	"learning_rate": 3.850095785440613e-06,
	"loss": 11.7468,
	"step": 96400
	},
	{
	"epoch": 73.9463601532567,
	"grad_norm": 0.9431168437004089,
	"learning_rate": 3.8022030651340995e-06,
	"loss": 11.8737,
	"step": 96500
	},
	{
	"epoch": 74.0,
	"eval_loss": 12.720576286315918,
	"eval_runtime": 44.1482,
	"eval_samples_per_second": 29.56,
	"eval_steps_per_second": 3.715,
	"step": 96570
	},
	{
	"epoch": 74.02298850574712,
	"grad_norm": 1.6064398288726807,
	"learning_rate": 3.7543103448275864e-06,
	"loss": 11.8828,
	"step": 96600
	},
	{
	"epoch": 74.09961685823755,
	"grad_norm": 2.088803768157959,
	"learning_rate": 3.7064176245210733e-06,
	"loss": 11.7576,
	"step": 96700
	},
	{
	"epoch": 74.17624521072797,
	"grad_norm": 1.5417454242706299,
	"learning_rate": 3.6585249042145593e-06,
	"loss": 11.9239,
	"step": 96800
	},
	{
	"epoch": 74.25287356321839,
	"grad_norm": 1.5983319282531738,
	"learning_rate": 3.610632183908046e-06,
	"loss": 11.8119,
	"step": 96900
	},
	{
	"epoch": 74.32950191570882,
	"grad_norm": 3.7642099857330322,
	"learning_rate": 3.5627394636015326e-06,
	"loss": 11.8259,
	"step": 97000
	},
	{
	"epoch": 74.40613026819923,
	"grad_norm": 1.5149072408676147,
	"learning_rate": 3.5148467432950195e-06,
	"loss": 11.9898,
	"step": 97100
	},
	{
	"epoch": 74.48275862068965,
	"grad_norm": 0.9915036559104919,
	"learning_rate": 3.4669540229885055e-06,
	"loss": 11.7665,
	"step": 97200
	},
	{
	"epoch": 74.55938697318008,
	"grad_norm": 1.2745176553726196,
	"learning_rate": 3.4190613026819924e-06,
	"loss": 11.9657,
	"step": 97300
	},
	{
	"epoch": 74.6360153256705,
	"grad_norm": 2.390751600265503,
	"learning_rate": 3.3711685823754793e-06,
	"loss": 11.6856,
	"step": 97400
	},
	{
	"epoch": 74.71264367816092,
	"grad_norm": 2.2279295921325684,
	"learning_rate": 3.3232758620689653e-06,
	"loss": 11.7551,
	"step": 97500
	},
	{
	"epoch": 74.78927203065135,
	"grad_norm": 1.8389006853103638,
	"learning_rate": 3.275383141762452e-06,
	"loss": 12.0037,
	"step": 97600
	},
	{
	"epoch": 74.86590038314176,
	"grad_norm": 1.4288936853408813,
	"learning_rate": 3.2274904214559387e-06,
	"loss": 12.0561,
	"step": 97700
	},
	{
	"epoch": 74.94252873563218,
	"grad_norm": 1.037800669670105,
	"learning_rate": 3.1795977011494255e-06,
	"loss": 11.9257,
	"step": 97800
	},
	{
	"epoch": 75.0,
	"eval_loss": 12.724896430969238,
	"eval_runtime": 44.1538,
	"eval_samples_per_second": 29.556,
	"eval_steps_per_second": 3.714,
	"step": 97875
	},
	{
	"epoch": 75.01915708812261,
	"grad_norm": 0.9783554673194885,
	"learning_rate": 3.1317049808429124e-06,
	"loss": 11.7455,
	"step": 97900
	},
	{
	"epoch": 75.09578544061303,
	"grad_norm": 1.4434301853179932,
	"learning_rate": 3.0838122605363985e-06,
	"loss": 11.99,
	"step": 98000
	},
	{
	"epoch": 75.17241379310344,
	"grad_norm": 1.2560200691223145,
	"learning_rate": 3.035919540229885e-06,
	"loss": 11.8445,
	"step": 98100
	},
	{
	"epoch": 75.24904214559388,
	"grad_norm": 1.123687982559204,
	"learning_rate": 2.988026819923372e-06,
	"loss": 11.8894,
	"step": 98200
	},
	{
	"epoch": 75.32567049808429,
	"grad_norm": 1.2393250465393066,
	"learning_rate": 2.9401340996168583e-06,
	"loss": 11.7591,
	"step": 98300
	},
	{
	"epoch": 75.40229885057471,
	"grad_norm": 2.023070812225342,
	"learning_rate": 2.892241379310345e-06,
	"loss": 11.7083,
	"step": 98400
	},
	{
	"epoch": 75.47892720306514,
	"grad_norm": 1.7746585607528687,
	"learning_rate": 2.8443486590038316e-06,
	"loss": 12.0237,
	"step": 98500
	},
	{
	"epoch": 75.55555555555556,
	"grad_norm": 1.6215800046920776,
	"learning_rate": 2.796455938697318e-06,
	"loss": 11.8271,
	"step": 98600
	},
	{
	"epoch": 75.63218390804597,
	"grad_norm": 2.3727614879608154,
	"learning_rate": 2.7490421455938698e-06,
	"loss": 11.9133,
	"step": 98700
	},
	{
	"epoch": 75.7088122605364,
	"grad_norm": 1.562569260597229,
	"learning_rate": 2.7011494252873562e-06,
	"loss": 11.8886,
	"step": 98800
	},
	{
	"epoch": 75.78544061302682,
	"grad_norm": 0.8996521830558777,
	"learning_rate": 2.653256704980843e-06,
	"loss": 11.6606,
	"step": 98900
	},
	{
	"epoch": 75.86206896551724,
	"grad_norm": 1.6331411600112915,
	"learning_rate": 2.6053639846743296e-06,
	"loss": 12.057,
	"step": 99000
	},
	{
	"epoch": 75.93869731800767,
	"grad_norm": 1.2690104246139526,
	"learning_rate": 2.5574712643678165e-06,
	"loss": 11.9791,
	"step": 99100
	},
	{
	"epoch": 76.0,
	"eval_loss": 12.717323303222656,
	"eval_runtime": 44.1546,
	"eval_samples_per_second": 29.555,
	"eval_steps_per_second": 3.714,
	"step": 99180
	},
	{
	"epoch": 76.01532567049809,
	"grad_norm": 1.737823724746704,
	"learning_rate": 2.509578544061303e-06,
	"loss": 11.8981,
	"step": 99200
	},
	{
	"epoch": 76.0919540229885,
	"grad_norm": 1.0878353118896484,
	"learning_rate": 2.4616858237547894e-06,
	"loss": 11.8443,
	"step": 99300
	},
	{
	"epoch": 76.16858237547893,
	"grad_norm": 2.0454564094543457,
	"learning_rate": 2.413793103448276e-06,
	"loss": 11.8515,
	"step": 99400
	},
	{
	"epoch": 76.24521072796935,
	"grad_norm": 1.3210684061050415,
	"learning_rate": 2.3659003831417623e-06,
	"loss": 12.0233,
	"step": 99500
	},
	{
	"epoch": 76.32183908045977,
	"grad_norm": 1.1547104120254517,
	"learning_rate": 2.318007662835249e-06,
	"loss": 11.7145,
	"step": 99600
	},
	{
	"epoch": 76.3984674329502,
	"grad_norm": 1.3948626518249512,
	"learning_rate": 2.270114942528736e-06,
	"loss": 11.7098,
	"step": 99700
	},
	{
	"epoch": 76.47509578544062,
	"grad_norm": 1.2874501943588257,
	"learning_rate": 2.2222222222222225e-06,
	"loss": 11.8953,
	"step": 99800
	},
	{
	"epoch": 76.55172413793103,
	"grad_norm": 1.8570905923843384,
	"learning_rate": 2.174329501915709e-06,
	"loss": 11.9397,
	"step": 99900
	},
	{
	"epoch": 76.62835249042146,
	"grad_norm": 1.3673057556152344,
	"learning_rate": 2.1264367816091954e-06,
	"loss": 11.8056,
	"step": 100000
	},
	{
	"epoch": 76.70498084291188,
	"grad_norm": 2.1938419342041016,
	"learning_rate": 2.078544061302682e-06,
	"loss": 11.9414,
	"step": 100100
	},
	{
	"epoch": 76.7816091954023,
	"grad_norm": 1.9171061515808105,
	"learning_rate": 2.0306513409961687e-06,
	"loss": 11.8369,
	"step": 100200
	},
	{
	"epoch": 76.85823754789271,
	"grad_norm": 1.0486401319503784,
	"learning_rate": 1.982758620689655e-06,
	"loss": 11.8322,
	"step": 100300
	},
	{
	"epoch": 76.93486590038314,
	"grad_norm": 1.6005215644836426,
	"learning_rate": 1.934865900383142e-06,
	"loss": 11.8781,
	"step": 100400
	},
	{
	"epoch": 77.0,
	"eval_loss": 12.72097396850586,
	"eval_runtime": 44.1751,
	"eval_samples_per_second": 29.542,
	"eval_steps_per_second": 3.712,
	"step": 100485
	}
	],
	"logging_steps": 100,
	"max_steps": 104400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 80,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 9
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.681650983960218e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}