t5-query-expansion-model / trainer_state.json

Upload folder using huggingface_hub

e6d40bd verified 3 months ago

41.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 2260,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04424778761061947,
	"grad_norm": NaN,
	"learning_rate": 0.0009973451327433627,
	"loss": 14.6523,
	"step": 10
	},
	{
	"epoch": 0.08849557522123894,
	"grad_norm": 0.9945968985557556,
	"learning_rate": 0.000992920353982301,
	"loss": 4.8948,
	"step": 20
	},
	{
	"epoch": 0.13274336283185842,
	"grad_norm": 0.3495340645313263,
	"learning_rate": 0.000988495575221239,
	"loss": 0.6469,
	"step": 30
	},
	{
	"epoch": 0.17699115044247787,
	"grad_norm": 0.22641977667808533,
	"learning_rate": 0.000984070796460177,
	"loss": 0.5221,
	"step": 40
	},
	{
	"epoch": 0.22123893805309736,
	"grad_norm": 0.25233855843544006,
	"learning_rate": 0.000979646017699115,
	"loss": 0.4094,
	"step": 50
	},
	{
	"epoch": 0.26548672566371684,
	"grad_norm": 0.37399861216545105,
	"learning_rate": 0.0009752212389380531,
	"loss": 0.3958,
	"step": 60
	},
	{
	"epoch": 0.30973451327433627,
	"grad_norm": 0.18545609712600708,
	"learning_rate": 0.0009707964601769911,
	"loss": 0.3405,
	"step": 70
	},
	{
	"epoch": 0.35398230088495575,
	"grad_norm": 0.2712928354740143,
	"learning_rate": 0.0009663716814159293,
	"loss": 0.3242,
	"step": 80
	},
	{
	"epoch": 0.39823008849557523,
	"grad_norm": 0.2340475469827652,
	"learning_rate": 0.0009619469026548673,
	"loss": 0.3007,
	"step": 90
	},
	{
	"epoch": 0.4424778761061947,
	"grad_norm": 0.18099136650562286,
	"learning_rate": 0.0009575221238938053,
	"loss": 0.2567,
	"step": 100
	},
	{
	"epoch": 0.48672566371681414,
	"grad_norm": 0.23833367228507996,
	"learning_rate": 0.0009530973451327434,
	"loss": 0.2734,
	"step": 110
	},
	{
	"epoch": 0.5309734513274337,
	"grad_norm": 0.20163732767105103,
	"learning_rate": 0.0009486725663716814,
	"loss": 0.2326,
	"step": 120
	},
	{
	"epoch": 0.5752212389380531,
	"grad_norm": 0.1758851557970047,
	"learning_rate": 0.0009442477876106195,
	"loss": 0.2914,
	"step": 130
	},
	{
	"epoch": 0.6194690265486725,
	"grad_norm": 0.211241215467453,
	"learning_rate": 0.0009398230088495575,
	"loss": 0.2667,
	"step": 140
	},
	{
	"epoch": 0.6637168141592921,
	"grad_norm": 0.22571340203285217,
	"learning_rate": 0.0009353982300884956,
	"loss": 0.2268,
	"step": 150
	},
	{
	"epoch": 0.7079646017699115,
	"grad_norm": 0.20469224452972412,
	"learning_rate": 0.0009309734513274336,
	"loss": 0.2386,
	"step": 160
	},
	{
	"epoch": 0.7522123893805309,
	"grad_norm": 0.21183688938617706,
	"learning_rate": 0.0009265486725663716,
	"loss": 0.282,
	"step": 170
	},
	{
	"epoch": 0.7964601769911505,
	"grad_norm": 0.17585916817188263,
	"learning_rate": 0.0009221238938053097,
	"loss": 0.3046,
	"step": 180
	},
	{
	"epoch": 0.8407079646017699,
	"grad_norm": 0.17937427759170532,
	"learning_rate": 0.0009176991150442479,
	"loss": 0.2693,
	"step": 190
	},
	{
	"epoch": 0.8849557522123894,
	"grad_norm": 0.19432350993156433,
	"learning_rate": 0.0009132743362831859,
	"loss": 0.252,
	"step": 200
	},
	{
	"epoch": 0.9292035398230089,
	"grad_norm": 0.18185169994831085,
	"learning_rate": 0.0009088495575221239,
	"loss": 0.2793,
	"step": 210
	},
	{
	"epoch": 0.9734513274336283,
	"grad_norm": 0.18515343964099884,
	"learning_rate": 0.000904424778761062,
	"loss": 0.2644,
	"step": 220
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.22543948888778687,
	"eval_runtime": 3.0243,
	"eval_samples_per_second": 33.066,
	"eval_steps_per_second": 8.266,
	"step": 226
	},
	{
	"epoch": 1.0176991150442478,
	"grad_norm": 0.2031005322933197,
	"learning_rate": 0.0009000000000000001,
	"loss": 0.2704,
	"step": 230
	},
	{
	"epoch": 1.0619469026548674,
	"grad_norm": 0.26087555289268494,
	"learning_rate": 0.0008955752212389381,
	"loss": 0.2526,
	"step": 240
	},
	{
	"epoch": 1.1061946902654867,
	"grad_norm": 0.1796620637178421,
	"learning_rate": 0.0008911504424778761,
	"loss": 0.2605,
	"step": 250
	},
	{
	"epoch": 1.1504424778761062,
	"grad_norm": 0.22667303681373596,
	"learning_rate": 0.0008867256637168141,
	"loss": 0.261,
	"step": 260
	},
	{
	"epoch": 1.1946902654867257,
	"grad_norm": 0.22089733183383942,
	"learning_rate": 0.0008823008849557523,
	"loss": 0.2762,
	"step": 270
	},
	{
	"epoch": 1.238938053097345,
	"grad_norm": 0.19162122905254364,
	"learning_rate": 0.0008778761061946903,
	"loss": 0.2325,
	"step": 280
	},
	{
	"epoch": 1.2831858407079646,
	"grad_norm": 0.1732087880373001,
	"learning_rate": 0.0008734513274336283,
	"loss": 0.2455,
	"step": 290
	},
	{
	"epoch": 1.3274336283185841,
	"grad_norm": 0.15953731536865234,
	"learning_rate": 0.0008690265486725663,
	"loss": 0.2155,
	"step": 300
	},
	{
	"epoch": 1.3716814159292037,
	"grad_norm": 0.229411318898201,
	"learning_rate": 0.0008646017699115044,
	"loss": 0.2289,
	"step": 310
	},
	{
	"epoch": 1.415929203539823,
	"grad_norm": 0.20390523970127106,
	"learning_rate": 0.0008601769911504425,
	"loss": 0.2429,
	"step": 320
	},
	{
	"epoch": 1.4601769911504425,
	"grad_norm": 0.23142680525779724,
	"learning_rate": 0.0008557522123893805,
	"loss": 0.2291,
	"step": 330
	},
	{
	"epoch": 1.504424778761062,
	"grad_norm": 0.22689059376716614,
	"learning_rate": 0.0008513274336283185,
	"loss": 0.2369,
	"step": 340
	},
	{
	"epoch": 1.5486725663716814,
	"grad_norm": 0.18759772181510925,
	"learning_rate": 0.0008469026548672567,
	"loss": 0.1887,
	"step": 350
	},
	{
	"epoch": 1.592920353982301,
	"grad_norm": 0.17289893329143524,
	"learning_rate": 0.0008424778761061948,
	"loss": 0.2547,
	"step": 360
	},
	{
	"epoch": 1.6371681415929205,
	"grad_norm": 0.20804202556610107,
	"learning_rate": 0.0008380530973451328,
	"loss": 0.2446,
	"step": 370
	},
	{
	"epoch": 1.6814159292035398,
	"grad_norm": 0.2161918580532074,
	"learning_rate": 0.0008336283185840708,
	"loss": 0.2262,
	"step": 380
	},
	{
	"epoch": 1.7256637168141593,
	"grad_norm": 0.27487823367118835,
	"learning_rate": 0.0008292035398230089,
	"loss": 0.2673,
	"step": 390
	},
	{
	"epoch": 1.7699115044247788,
	"grad_norm": 0.20181554555892944,
	"learning_rate": 0.0008247787610619469,
	"loss": 0.252,
	"step": 400
	},
	{
	"epoch": 1.8141592920353982,
	"grad_norm": 0.21222522854804993,
	"learning_rate": 0.000820353982300885,
	"loss": 0.23,
	"step": 410
	},
	{
	"epoch": 1.8584070796460177,
	"grad_norm": 0.21409285068511963,
	"learning_rate": 0.000815929203539823,
	"loss": 0.235,
	"step": 420
	},
	{
	"epoch": 1.9026548672566372,
	"grad_norm": 0.2830056846141815,
	"learning_rate": 0.0008115044247787611,
	"loss": 0.2335,
	"step": 430
	},
	{
	"epoch": 1.9469026548672566,
	"grad_norm": 0.22915257513523102,
	"learning_rate": 0.0008070796460176991,
	"loss": 0.2303,
	"step": 440
	},
	{
	"epoch": 1.991150442477876,
	"grad_norm": 0.19883762300014496,
	"learning_rate": 0.0008026548672566371,
	"loss": 0.2222,
	"step": 450
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.21643634140491486,
	"eval_runtime": 2.7454,
	"eval_samples_per_second": 36.424,
	"eval_steps_per_second": 9.106,
	"step": 452
	},
	{
	"epoch": 2.0353982300884956,
	"grad_norm": 0.2121458351612091,
	"learning_rate": 0.0007982300884955752,
	"loss": 0.2403,
	"step": 460
	},
	{
	"epoch": 2.079646017699115,
	"grad_norm": 0.17018261551856995,
	"learning_rate": 0.0007938053097345133,
	"loss": 0.213,
	"step": 470
	},
	{
	"epoch": 2.1238938053097347,
	"grad_norm": 0.22500459849834442,
	"learning_rate": 0.0007893805309734513,
	"loss": 0.2239,
	"step": 480
	},
	{
	"epoch": 2.168141592920354,
	"grad_norm": 0.19334179162979126,
	"learning_rate": 0.0007849557522123893,
	"loss": 0.2106,
	"step": 490
	},
	{
	"epoch": 2.2123893805309733,
	"grad_norm": 0.1906515508890152,
	"learning_rate": 0.0007805309734513274,
	"loss": 0.2037,
	"step": 500
	},
	{
	"epoch": 2.256637168141593,
	"grad_norm": 0.2478450983762741,
	"learning_rate": 0.0007761061946902656,
	"loss": 0.2164,
	"step": 510
	},
	{
	"epoch": 2.3008849557522124,
	"grad_norm": 0.2270224243402481,
	"learning_rate": 0.0007716814159292036,
	"loss": 0.2253,
	"step": 520
	},
	{
	"epoch": 2.3451327433628317,
	"grad_norm": 0.2539624273777008,
	"learning_rate": 0.0007672566371681416,
	"loss": 0.2016,
	"step": 530
	},
	{
	"epoch": 2.3893805309734515,
	"grad_norm": 0.33118170499801636,
	"learning_rate": 0.0007628318584070797,
	"loss": 0.2239,
	"step": 540
	},
	{
	"epoch": 2.433628318584071,
	"grad_norm": 0.24022382497787476,
	"learning_rate": 0.0007584070796460178,
	"loss": 0.2339,
	"step": 550
	},
	{
	"epoch": 2.47787610619469,
	"grad_norm": 0.22129379212856293,
	"learning_rate": 0.0007539823008849558,
	"loss": 0.2079,
	"step": 560
	},
	{
	"epoch": 2.52212389380531,
	"grad_norm": 0.20302246510982513,
	"learning_rate": 0.0007495575221238938,
	"loss": 0.2012,
	"step": 570
	},
	{
	"epoch": 2.566371681415929,
	"grad_norm": 0.28677117824554443,
	"learning_rate": 0.0007451327433628319,
	"loss": 0.2281,
	"step": 580
	},
	{
	"epoch": 2.6106194690265485,
	"grad_norm": 0.2567579746246338,
	"learning_rate": 0.0007407079646017699,
	"loss": 0.2374,
	"step": 590
	},
	{
	"epoch": 2.6548672566371683,
	"grad_norm": 0.2306365817785263,
	"learning_rate": 0.000736283185840708,
	"loss": 0.2144,
	"step": 600
	},
	{
	"epoch": 2.6991150442477876,
	"grad_norm": 0.23293821513652802,
	"learning_rate": 0.000731858407079646,
	"loss": 0.2381,
	"step": 610
	},
	{
	"epoch": 2.7433628318584073,
	"grad_norm": 0.2173946499824524,
	"learning_rate": 0.0007274336283185841,
	"loss": 0.2155,
	"step": 620
	},
	{
	"epoch": 2.7876106194690267,
	"grad_norm": 0.30976563692092896,
	"learning_rate": 0.0007230088495575221,
	"loss": 0.2262,
	"step": 630
	},
	{
	"epoch": 2.831858407079646,
	"grad_norm": 0.19489358365535736,
	"learning_rate": 0.0007185840707964601,
	"loss": 0.2194,
	"step": 640
	},
	{
	"epoch": 2.8761061946902657,
	"grad_norm": 0.21821223199367523,
	"learning_rate": 0.0007141592920353982,
	"loss": 0.1967,
	"step": 650
	},
	{
	"epoch": 2.920353982300885,
	"grad_norm": 0.23535631597042084,
	"learning_rate": 0.0007097345132743363,
	"loss": 0.2353,
	"step": 660
	},
	{
	"epoch": 2.9646017699115044,
	"grad_norm": 0.20547734200954437,
	"learning_rate": 0.0007053097345132744,
	"loss": 0.2119,
	"step": 670
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.21383462846279144,
	"eval_runtime": 2.6363,
	"eval_samples_per_second": 37.932,
	"eval_steps_per_second": 9.483,
	"step": 678
	},
	{
	"epoch": 3.0088495575221237,
	"grad_norm": 0.21669970452785492,
	"learning_rate": 0.0007008849557522124,
	"loss": 0.2198,
	"step": 680
	},
	{
	"epoch": 3.0530973451327434,
	"grad_norm": 0.20589256286621094,
	"learning_rate": 0.0006964601769911505,
	"loss": 0.2002,
	"step": 690
	},
	{
	"epoch": 3.0973451327433628,
	"grad_norm": 0.23902471363544464,
	"learning_rate": 0.0006920353982300886,
	"loss": 0.1804,
	"step": 700
	},
	{
	"epoch": 3.1415929203539825,
	"grad_norm": 0.2881176173686981,
	"learning_rate": 0.0006876106194690266,
	"loss": 0.2162,
	"step": 710
	},
	{
	"epoch": 3.185840707964602,
	"grad_norm": 0.22364391386508942,
	"learning_rate": 0.0006831858407079646,
	"loss": 0.2185,
	"step": 720
	},
	{
	"epoch": 3.230088495575221,
	"grad_norm": 0.23607216775417328,
	"learning_rate": 0.0006787610619469026,
	"loss": 0.2124,
	"step": 730
	},
	{
	"epoch": 3.274336283185841,
	"grad_norm": 0.18838390707969666,
	"learning_rate": 0.0006743362831858408,
	"loss": 0.179,
	"step": 740
	},
	{
	"epoch": 3.3185840707964602,
	"grad_norm": 0.3451661765575409,
	"learning_rate": 0.0006699115044247788,
	"loss": 0.2135,
	"step": 750
	},
	{
	"epoch": 3.3628318584070795,
	"grad_norm": 0.2281007319688797,
	"learning_rate": 0.0006654867256637168,
	"loss": 0.2071,
	"step": 760
	},
	{
	"epoch": 3.4070796460176993,
	"grad_norm": 0.20740865170955658,
	"learning_rate": 0.0006610619469026548,
	"loss": 0.2081,
	"step": 770
	},
	{
	"epoch": 3.4513274336283186,
	"grad_norm": 0.27458012104034424,
	"learning_rate": 0.0006566371681415929,
	"loss": 0.2026,
	"step": 780
	},
	{
	"epoch": 3.495575221238938,
	"grad_norm": 0.19083356857299805,
	"learning_rate": 0.000652212389380531,
	"loss": 0.1946,
	"step": 790
	},
	{
	"epoch": 3.5398230088495577,
	"grad_norm": 0.2667248845100403,
	"learning_rate": 0.000647787610619469,
	"loss": 0.2141,
	"step": 800
	},
	{
	"epoch": 3.584070796460177,
	"grad_norm": 0.22773493826389313,
	"learning_rate": 0.000643362831858407,
	"loss": 0.2294,
	"step": 810
	},
	{
	"epoch": 3.6283185840707963,
	"grad_norm": 0.24344410002231598,
	"learning_rate": 0.0006389380530973451,
	"loss": 0.1799,
	"step": 820
	},
	{
	"epoch": 3.672566371681416,
	"grad_norm": 0.3232133984565735,
	"learning_rate": 0.0006345132743362833,
	"loss": 0.1807,
	"step": 830
	},
	{
	"epoch": 3.7168141592920354,
	"grad_norm": 0.22465798258781433,
	"learning_rate": 0.0006300884955752213,
	"loss": 0.2005,
	"step": 840
	},
	{
	"epoch": 3.7610619469026547,
	"grad_norm": 0.24152274429798126,
	"learning_rate": 0.0006256637168141594,
	"loss": 0.2001,
	"step": 850
	},
	{
	"epoch": 3.8053097345132745,
	"grad_norm": 0.2764975130558014,
	"learning_rate": 0.0006212389380530974,
	"loss": 0.1691,
	"step": 860
	},
	{
	"epoch": 3.849557522123894,
	"grad_norm": 0.23789626359939575,
	"learning_rate": 0.0006168141592920354,
	"loss": 0.2318,
	"step": 870
	},
	{
	"epoch": 3.893805309734513,
	"grad_norm": 0.21235798299312592,
	"learning_rate": 0.0006123893805309735,
	"loss": 0.1867,
	"step": 880
	},
	{
	"epoch": 3.938053097345133,
	"grad_norm": 0.23083995282649994,
	"learning_rate": 0.0006079646017699116,
	"loss": 0.2135,
	"step": 890
	},
	{
	"epoch": 3.982300884955752,
	"grad_norm": 0.22863389551639557,
	"learning_rate": 0.0006035398230088496,
	"loss": 0.2188,
	"step": 900
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.20991046726703644,
	"eval_runtime": 2.9553,
	"eval_samples_per_second": 33.837,
	"eval_steps_per_second": 8.459,
	"step": 904
	},
	{
	"epoch": 4.0265486725663715,
	"grad_norm": 0.22170217335224152,
	"learning_rate": 0.0005991150442477876,
	"loss": 0.2186,
	"step": 910
	},
	{
	"epoch": 4.070796460176991,
	"grad_norm": 0.2190970778465271,
	"learning_rate": 0.0005946902654867256,
	"loss": 0.1978,
	"step": 920
	},
	{
	"epoch": 4.115044247787611,
	"grad_norm": 0.1924510896205902,
	"learning_rate": 0.0005902654867256638,
	"loss": 0.1787,
	"step": 930
	},
	{
	"epoch": 4.15929203539823,
	"grad_norm": 0.2868868112564087,
	"learning_rate": 0.0005858407079646018,
	"loss": 0.172,
	"step": 940
	},
	{
	"epoch": 4.20353982300885,
	"grad_norm": 0.18888860940933228,
	"learning_rate": 0.0005814159292035398,
	"loss": 0.1761,
	"step": 950
	},
	{
	"epoch": 4.247787610619469,
	"grad_norm": 0.21858586370944977,
	"learning_rate": 0.0005769911504424778,
	"loss": 0.1871,
	"step": 960
	},
	{
	"epoch": 4.292035398230088,
	"grad_norm": 0.305698961019516,
	"learning_rate": 0.0005725663716814159,
	"loss": 0.1886,
	"step": 970
	},
	{
	"epoch": 4.336283185840708,
	"grad_norm": 0.23597249388694763,
	"learning_rate": 0.000568141592920354,
	"loss": 0.1865,
	"step": 980
	},
	{
	"epoch": 4.380530973451328,
	"grad_norm": 0.271823912858963,
	"learning_rate": 0.0005637168141592921,
	"loss": 0.1709,
	"step": 990
	},
	{
	"epoch": 4.424778761061947,
	"grad_norm": 0.19630669057369232,
	"learning_rate": 0.0005592920353982301,
	"loss": 0.2429,
	"step": 1000
	},
	{
	"epoch": 4.469026548672566,
	"grad_norm": 0.29825878143310547,
	"learning_rate": 0.0005548672566371682,
	"loss": 0.1879,
	"step": 1010
	},
	{
	"epoch": 4.513274336283186,
	"grad_norm": 0.21552462875843048,
	"learning_rate": 0.0005504424778761063,
	"loss": 0.1905,
	"step": 1020
	},
	{
	"epoch": 4.557522123893805,
	"grad_norm": 0.28668805956840515,
	"learning_rate": 0.0005460176991150443,
	"loss": 0.1951,
	"step": 1030
	},
	{
	"epoch": 4.601769911504425,
	"grad_norm": 0.27180853486061096,
	"learning_rate": 0.0005415929203539823,
	"loss": 0.1758,
	"step": 1040
	},
	{
	"epoch": 4.646017699115045,
	"grad_norm": 0.3072490394115448,
	"learning_rate": 0.0005371681415929204,
	"loss": 0.1852,
	"step": 1050
	},
	{
	"epoch": 4.6902654867256635,
	"grad_norm": 0.2913398742675781,
	"learning_rate": 0.0005327433628318584,
	"loss": 0.201,
	"step": 1060
	},
	{
	"epoch": 4.734513274336283,
	"grad_norm": 0.29055866599082947,
	"learning_rate": 0.0005283185840707965,
	"loss": 0.1932,
	"step": 1070
	},
	{
	"epoch": 4.778761061946903,
	"grad_norm": 0.2742849290370941,
	"learning_rate": 0.0005238938053097345,
	"loss": 0.183,
	"step": 1080
	},
	{
	"epoch": 4.823008849557522,
	"grad_norm": 0.2370535433292389,
	"learning_rate": 0.0005194690265486726,
	"loss": 0.1849,
	"step": 1090
	},
	{
	"epoch": 4.867256637168142,
	"grad_norm": 0.31343671679496765,
	"learning_rate": 0.0005150442477876106,
	"loss": 0.2195,
	"step": 1100
	},
	{
	"epoch": 4.911504424778761,
	"grad_norm": 0.3136596381664276,
	"learning_rate": 0.0005106194690265486,
	"loss": 0.1907,
	"step": 1110
	},
	{
	"epoch": 4.95575221238938,
	"grad_norm": 0.2071835845708847,
	"learning_rate": 0.0005061946902654867,
	"loss": 0.1969,
	"step": 1120
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.25057336688041687,
	"learning_rate": 0.0005017699115044248,
	"loss": 0.1916,
	"step": 1130
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.21029528975486755,
	"eval_runtime": 2.628,
	"eval_samples_per_second": 38.052,
	"eval_steps_per_second": 9.513,
	"step": 1130
	},
	{
	"epoch": 5.04424778761062,
	"grad_norm": 0.21927224099636078,
	"learning_rate": 0.0004973451327433628,
	"loss": 0.155,
	"step": 1140
	},
	{
	"epoch": 5.088495575221239,
	"grad_norm": 0.3175056576728821,
	"learning_rate": 0.0004929203539823009,
	"loss": 0.189,
	"step": 1150
	},
	{
	"epoch": 5.132743362831858,
	"grad_norm": 0.2786344587802887,
	"learning_rate": 0.0004884955752212389,
	"loss": 0.1679,
	"step": 1160
	},
	{
	"epoch": 5.176991150442478,
	"grad_norm": 0.2475520521402359,
	"learning_rate": 0.00048407079646017696,
	"loss": 0.1855,
	"step": 1170
	},
	{
	"epoch": 5.221238938053097,
	"grad_norm": 0.24603202939033508,
	"learning_rate": 0.00047964601769911504,
	"loss": 0.1755,
	"step": 1180
	},
	{
	"epoch": 5.265486725663717,
	"grad_norm": 0.26339662075042725,
	"learning_rate": 0.00047522123893805305,
	"loss": 0.1644,
	"step": 1190
	},
	{
	"epoch": 5.3097345132743365,
	"grad_norm": 0.20065292716026306,
	"learning_rate": 0.0004707964601769912,
	"loss": 0.1555,
	"step": 1200
	},
	{
	"epoch": 5.353982300884955,
	"grad_norm": 0.34847521781921387,
	"learning_rate": 0.00046637168141592925,
	"loss": 0.1644,
	"step": 1210
	},
	{
	"epoch": 5.398230088495575,
	"grad_norm": 0.41893231868743896,
	"learning_rate": 0.00046194690265486727,
	"loss": 0.1661,
	"step": 1220
	},
	{
	"epoch": 5.442477876106195,
	"grad_norm": 0.2889445424079895,
	"learning_rate": 0.00045752212389380535,
	"loss": 0.1924,
	"step": 1230
	},
	{
	"epoch": 5.486725663716814,
	"grad_norm": 0.24809350073337555,
	"learning_rate": 0.00045309734513274336,
	"loss": 0.1941,
	"step": 1240
	},
	{
	"epoch": 5.530973451327434,
	"grad_norm": 0.27125945687294006,
	"learning_rate": 0.00044867256637168144,
	"loss": 0.1731,
	"step": 1250
	},
	{
	"epoch": 5.575221238938053,
	"grad_norm": 0.3384355902671814,
	"learning_rate": 0.00044424778761061946,
	"loss": 0.164,
	"step": 1260
	},
	{
	"epoch": 5.619469026548672,
	"grad_norm": 0.3089454174041748,
	"learning_rate": 0.00043982300884955753,
	"loss": 0.1823,
	"step": 1270
	},
	{
	"epoch": 5.663716814159292,
	"grad_norm": 0.26540765166282654,
	"learning_rate": 0.0004353982300884956,
	"loss": 0.1762,
	"step": 1280
	},
	{
	"epoch": 5.707964601769912,
	"grad_norm": 0.22383682429790497,
	"learning_rate": 0.0004309734513274337,
	"loss": 0.2063,
	"step": 1290
	},
	{
	"epoch": 5.752212389380531,
	"grad_norm": 0.24541282653808594,
	"learning_rate": 0.0004265486725663717,
	"loss": 0.1799,
	"step": 1300
	},
	{
	"epoch": 5.79646017699115,
	"grad_norm": 0.33302921056747437,
	"learning_rate": 0.00042212389380530976,
	"loss": 0.1749,
	"step": 1310
	},
	{
	"epoch": 5.84070796460177,
	"grad_norm": 0.274087131023407,
	"learning_rate": 0.0004176991150442478,
	"loss": 0.1982,
	"step": 1320
	},
	{
	"epoch": 5.88495575221239,
	"grad_norm": 0.3344975411891937,
	"learning_rate": 0.00041327433628318586,
	"loss": 0.1962,
	"step": 1330
	},
	{
	"epoch": 5.929203539823009,
	"grad_norm": 0.28589603304862976,
	"learning_rate": 0.0004088495575221239,
	"loss": 0.2078,
	"step": 1340
	},
	{
	"epoch": 5.9734513274336285,
	"grad_norm": 0.18417391180992126,
	"learning_rate": 0.00040442477876106195,
	"loss": 0.1806,
	"step": 1350
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.20804466307163239,
	"eval_runtime": 2.6659,
	"eval_samples_per_second": 37.511,
	"eval_steps_per_second": 9.378,
	"step": 1356
	},
	{
	"epoch": 6.017699115044247,
	"grad_norm": 0.24382148683071136,
	"learning_rate": 0.0004,
	"loss": 0.1675,
	"step": 1360
	},
	{
	"epoch": 6.061946902654867,
	"grad_norm": 0.2718934714794159,
	"learning_rate": 0.0003955752212389381,
	"loss": 0.1546,
	"step": 1370
	},
	{
	"epoch": 6.106194690265487,
	"grad_norm": 0.321180135011673,
	"learning_rate": 0.0003911504424778761,
	"loss": 0.1828,
	"step": 1380
	},
	{
	"epoch": 6.150442477876107,
	"grad_norm": 0.31438615918159485,
	"learning_rate": 0.0003867256637168142,
	"loss": 0.1793,
	"step": 1390
	},
	{
	"epoch": 6.1946902654867255,
	"grad_norm": 0.24199295043945312,
	"learning_rate": 0.0003823008849557522,
	"loss": 0.1627,
	"step": 1400
	},
	{
	"epoch": 6.238938053097345,
	"grad_norm": 0.3219399154186249,
	"learning_rate": 0.0003778761061946903,
	"loss": 0.1557,
	"step": 1410
	},
	{
	"epoch": 6.283185840707965,
	"grad_norm": 0.20730754733085632,
	"learning_rate": 0.0003734513274336283,
	"loss": 0.1728,
	"step": 1420
	},
	{
	"epoch": 6.327433628318584,
	"grad_norm": 0.30667644739151,
	"learning_rate": 0.00036902654867256637,
	"loss": 0.1601,
	"step": 1430
	},
	{
	"epoch": 6.371681415929204,
	"grad_norm": 0.364202082157135,
	"learning_rate": 0.00036460176991150444,
	"loss": 0.166,
	"step": 1440
	},
	{
	"epoch": 6.415929203539823,
	"grad_norm": 0.2910124659538269,
	"learning_rate": 0.0003601769911504425,
	"loss": 0.18,
	"step": 1450
	},
	{
	"epoch": 6.460176991150442,
	"grad_norm": 0.3251543939113617,
	"learning_rate": 0.00035575221238938053,
	"loss": 0.1666,
	"step": 1460
	},
	{
	"epoch": 6.504424778761062,
	"grad_norm": 0.31853803992271423,
	"learning_rate": 0.0003513274336283186,
	"loss": 0.1683,
	"step": 1470
	},
	{
	"epoch": 6.548672566371682,
	"grad_norm": 0.3730286657810211,
	"learning_rate": 0.0003469026548672566,
	"loss": 0.163,
	"step": 1480
	},
	{
	"epoch": 6.592920353982301,
	"grad_norm": 0.3070693910121918,
	"learning_rate": 0.0003424778761061947,
	"loss": 0.1492,
	"step": 1490
	},
	{
	"epoch": 6.6371681415929205,
	"grad_norm": 0.25525256991386414,
	"learning_rate": 0.0003380530973451327,
	"loss": 0.1587,
	"step": 1500
	},
	{
	"epoch": 6.68141592920354,
	"grad_norm": 0.34361934661865234,
	"learning_rate": 0.0003336283185840708,
	"loss": 0.161,
	"step": 1510
	},
	{
	"epoch": 6.725663716814159,
	"grad_norm": 0.2400776594877243,
	"learning_rate": 0.00032920353982300886,
	"loss": 0.1534,
	"step": 1520
	},
	{
	"epoch": 6.769911504424779,
	"grad_norm": 0.3599693477153778,
	"learning_rate": 0.00032477876106194693,
	"loss": 0.1699,
	"step": 1530
	},
	{
	"epoch": 6.814159292035399,
	"grad_norm": 0.26774442195892334,
	"learning_rate": 0.00032035398230088495,
	"loss": 0.1567,
	"step": 1540
	},
	{
	"epoch": 6.8584070796460175,
	"grad_norm": 0.32396429777145386,
	"learning_rate": 0.000315929203539823,
	"loss": 0.1929,
	"step": 1550
	},
	{
	"epoch": 6.902654867256637,
	"grad_norm": 0.3491114377975464,
	"learning_rate": 0.00031150442477876104,
	"loss": 0.1784,
	"step": 1560
	},
	{
	"epoch": 6.946902654867257,
	"grad_norm": 0.372086763381958,
	"learning_rate": 0.0003070796460176991,
	"loss": 0.193,
	"step": 1570
	},
	{
	"epoch": 6.991150442477876,
	"grad_norm": 0.2936050593852997,
	"learning_rate": 0.00030265486725663713,
	"loss": 0.1899,
	"step": 1580
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.20992980897426605,
	"eval_runtime": 3.174,
	"eval_samples_per_second": 31.506,
	"eval_steps_per_second": 7.877,
	"step": 1582
	},
	{
	"epoch": 7.035398230088496,
	"grad_norm": 0.3688855767250061,
	"learning_rate": 0.0002982300884955752,
	"loss": 0.1813,
	"step": 1590
	},
	{
	"epoch": 7.079646017699115,
	"grad_norm": 0.32831940054893494,
	"learning_rate": 0.00029380530973451333,
	"loss": 0.1472,
	"step": 1600
	},
	{
	"epoch": 7.123893805309734,
	"grad_norm": 0.32714003324508667,
	"learning_rate": 0.00028938053097345135,
	"loss": 0.1704,
	"step": 1610
	},
	{
	"epoch": 7.168141592920354,
	"grad_norm": 0.49076274037361145,
	"learning_rate": 0.0002849557522123894,
	"loss": 0.1559,
	"step": 1620
	},
	{
	"epoch": 7.212389380530974,
	"grad_norm": 0.2076297253370285,
	"learning_rate": 0.00028053097345132744,
	"loss": 0.1571,
	"step": 1630
	},
	{
	"epoch": 7.256637168141593,
	"grad_norm": 0.30924052000045776,
	"learning_rate": 0.0002761061946902655,
	"loss": 0.1497,
	"step": 1640
	},
	{
	"epoch": 7.300884955752212,
	"grad_norm": 0.29587677121162415,
	"learning_rate": 0.00027168141592920353,
	"loss": 0.1506,
	"step": 1650
	},
	{
	"epoch": 7.345132743362832,
	"grad_norm": 0.339077889919281,
	"learning_rate": 0.0002672566371681416,
	"loss": 0.152,
	"step": 1660
	},
	{
	"epoch": 7.389380530973451,
	"grad_norm": 0.2390238344669342,
	"learning_rate": 0.0002628318584070796,
	"loss": 0.1634,
	"step": 1670
	},
	{
	"epoch": 7.433628318584071,
	"grad_norm": 0.3401966392993927,
	"learning_rate": 0.00025840707964601775,
	"loss": 0.1437,
	"step": 1680
	},
	{
	"epoch": 7.477876106194691,
	"grad_norm": 0.3273468017578125,
	"learning_rate": 0.00025398230088495577,
	"loss": 0.1421,
	"step": 1690
	},
	{
	"epoch": 7.522123893805309,
	"grad_norm": 0.2576355040073395,
	"learning_rate": 0.00024955752212389384,
	"loss": 0.1606,
	"step": 1700
	},
	{
	"epoch": 7.566371681415929,
	"grad_norm": 0.3079942464828491,
	"learning_rate": 0.00024513274336283186,
	"loss": 0.1662,
	"step": 1710
	},
	{
	"epoch": 7.610619469026549,
	"grad_norm": 0.35095077753067017,
	"learning_rate": 0.0002407079646017699,
	"loss": 0.1449,
	"step": 1720
	},
	{
	"epoch": 7.654867256637168,
	"grad_norm": 0.2713673412799835,
	"learning_rate": 0.00023628318584070795,
	"loss": 0.1666,
	"step": 1730
	},
	{
	"epoch": 7.699115044247788,
	"grad_norm": 0.3343076705932617,
	"learning_rate": 0.00023185840707964602,
	"loss": 0.1657,
	"step": 1740
	},
	{
	"epoch": 7.743362831858407,
	"grad_norm": 0.27280741930007935,
	"learning_rate": 0.00022743362831858407,
	"loss": 0.1584,
	"step": 1750
	},
	{
	"epoch": 7.787610619469026,
	"grad_norm": 0.3658842146396637,
	"learning_rate": 0.0002230088495575221,
	"loss": 0.178,
	"step": 1760
	},
	{
	"epoch": 7.831858407079646,
	"grad_norm": 0.2327466607093811,
	"learning_rate": 0.00021858407079646016,
	"loss": 0.1394,
	"step": 1770
	},
	{
	"epoch": 7.876106194690266,
	"grad_norm": 0.2981870174407959,
	"learning_rate": 0.00021415929203539826,
	"loss": 0.1555,
	"step": 1780
	},
	{
	"epoch": 7.920353982300885,
	"grad_norm": 0.32251453399658203,
	"learning_rate": 0.0002097345132743363,
	"loss": 0.1817,
	"step": 1790
	},
	{
	"epoch": 7.964601769911504,
	"grad_norm": 0.34020307660102844,
	"learning_rate": 0.00020530973451327435,
	"loss": 0.1667,
	"step": 1800
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.2127797156572342,
	"eval_runtime": 2.6346,
	"eval_samples_per_second": 37.957,
	"eval_steps_per_second": 9.489,
	"step": 1808
	},
	{
	"epoch": 8.008849557522124,
	"grad_norm": 0.2688687741756439,
	"learning_rate": 0.0002008849557522124,
	"loss": 0.1726,
	"step": 1810
	},
	{
	"epoch": 8.053097345132743,
	"grad_norm": 0.26508933305740356,
	"learning_rate": 0.00019646017699115047,
	"loss": 0.1573,
	"step": 1820
	},
	{
	"epoch": 8.097345132743364,
	"grad_norm": 0.38828426599502563,
	"learning_rate": 0.0001920353982300885,
	"loss": 0.1593,
	"step": 1830
	},
	{
	"epoch": 8.141592920353983,
	"grad_norm": 0.28579315543174744,
	"learning_rate": 0.00018761061946902656,
	"loss": 0.139,
	"step": 1840
	},
	{
	"epoch": 8.185840707964601,
	"grad_norm": 0.29282671213150024,
	"learning_rate": 0.0001831858407079646,
	"loss": 0.1576,
	"step": 1850
	},
	{
	"epoch": 8.230088495575222,
	"grad_norm": 0.39632460474967957,
	"learning_rate": 0.00017876106194690268,
	"loss": 0.1599,
	"step": 1860
	},
	{
	"epoch": 8.274336283185841,
	"grad_norm": 0.8853453993797302,
	"learning_rate": 0.00017433628318584072,
	"loss": 0.1415,
	"step": 1870
	},
	{
	"epoch": 8.31858407079646,
	"grad_norm": 0.28350165486335754,
	"learning_rate": 0.00016991150442477877,
	"loss": 0.1601,
	"step": 1880
	},
	{
	"epoch": 8.36283185840708,
	"grad_norm": 0.32908403873443604,
	"learning_rate": 0.00016548672566371681,
	"loss": 0.1502,
	"step": 1890
	},
	{
	"epoch": 8.4070796460177,
	"grad_norm": 0.26707422733306885,
	"learning_rate": 0.0001610619469026549,
	"loss": 0.144,
	"step": 1900
	},
	{
	"epoch": 8.451327433628318,
	"grad_norm": 0.2607186436653137,
	"learning_rate": 0.00015663716814159293,
	"loss": 0.1497,
	"step": 1910
	},
	{
	"epoch": 8.495575221238939,
	"grad_norm": 0.3008362650871277,
	"learning_rate": 0.00015221238938053098,
	"loss": 0.1519,
	"step": 1920
	},
	{
	"epoch": 8.539823008849558,
	"grad_norm": 0.3770766854286194,
	"learning_rate": 0.00014778761061946902,
	"loss": 0.1486,
	"step": 1930
	},
	{
	"epoch": 8.584070796460177,
	"grad_norm": 0.24154478311538696,
	"learning_rate": 0.0001433628318584071,
	"loss": 0.1504,
	"step": 1940
	},
	{
	"epoch": 8.628318584070797,
	"grad_norm": 0.28921449184417725,
	"learning_rate": 0.00013893805309734514,
	"loss": 0.1636,
	"step": 1950
	},
	{
	"epoch": 8.672566371681416,
	"grad_norm": 0.32194775342941284,
	"learning_rate": 0.0001345132743362832,
	"loss": 0.1746,
	"step": 1960
	},
	{
	"epoch": 8.716814159292035,
	"grad_norm": 0.2882642149925232,
	"learning_rate": 0.00013008849557522123,
	"loss": 0.1305,
	"step": 1970
	},
	{
	"epoch": 8.761061946902656,
	"grad_norm": 0.30995509028434753,
	"learning_rate": 0.0001256637168141593,
	"loss": 0.1484,
	"step": 1980
	},
	{
	"epoch": 8.805309734513274,
	"grad_norm": 0.32381975650787354,
	"learning_rate": 0.00012123893805309735,
	"loss": 0.1657,
	"step": 1990
	},
	{
	"epoch": 8.849557522123893,
	"grad_norm": 0.22391530871391296,
	"learning_rate": 0.0001168141592920354,
	"loss": 0.1247,
	"step": 2000
	},
	{
	"epoch": 8.893805309734514,
	"grad_norm": 0.23185725510120392,
	"learning_rate": 0.00011238938053097346,
	"loss": 0.153,
	"step": 2010
	},
	{
	"epoch": 8.938053097345133,
	"grad_norm": 0.27952226996421814,
	"learning_rate": 0.0001079646017699115,
	"loss": 0.1621,
	"step": 2020
	},
	{
	"epoch": 8.982300884955752,
	"grad_norm": 0.2538679540157318,
	"learning_rate": 0.00010353982300884956,
	"loss": 0.1392,
	"step": 2030
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.21310940384864807,
	"eval_runtime": 2.6327,
	"eval_samples_per_second": 37.984,
	"eval_steps_per_second": 9.496,
	"step": 2034
	},
	{
	"epoch": 9.026548672566372,
	"grad_norm": 0.2921323776245117,
	"learning_rate": 9.91150442477876e-05,
	"loss": 0.1549,
	"step": 2040
	},
	{
	"epoch": 9.070796460176991,
	"grad_norm": 0.2572889029979706,
	"learning_rate": 9.469026548672566e-05,
	"loss": 0.1734,
	"step": 2050
	},
	{
	"epoch": 9.11504424778761,
	"grad_norm": 0.2991015613079071,
	"learning_rate": 9.026548672566372e-05,
	"loss": 0.1582,
	"step": 2060
	},
	{
	"epoch": 9.15929203539823,
	"grad_norm": 0.33754679560661316,
	"learning_rate": 8.584070796460178e-05,
	"loss": 0.1343,
	"step": 2070
	},
	{
	"epoch": 9.20353982300885,
	"grad_norm": 0.2426099181175232,
	"learning_rate": 8.141592920353983e-05,
	"loss": 0.1462,
	"step": 2080
	},
	{
	"epoch": 9.247787610619469,
	"grad_norm": 0.3596532344818115,
	"learning_rate": 7.699115044247789e-05,
	"loss": 0.1522,
	"step": 2090
	},
	{
	"epoch": 9.29203539823009,
	"grad_norm": 0.22559010982513428,
	"learning_rate": 7.256637168141593e-05,
	"loss": 0.1292,
	"step": 2100
	},
	{
	"epoch": 9.336283185840708,
	"grad_norm": 0.3877250850200653,
	"learning_rate": 6.814159292035399e-05,
	"loss": 0.1257,
	"step": 2110
	},
	{
	"epoch": 9.380530973451327,
	"grad_norm": 0.3135465383529663,
	"learning_rate": 6.371681415929204e-05,
	"loss": 0.1508,
	"step": 2120
	},
	{
	"epoch": 9.424778761061948,
	"grad_norm": 0.3448950946331024,
	"learning_rate": 5.929203539823009e-05,
	"loss": 0.1386,
	"step": 2130
	},
	{
	"epoch": 9.469026548672566,
	"grad_norm": 0.2957702577114105,
	"learning_rate": 5.486725663716814e-05,
	"loss": 0.1456,
	"step": 2140
	},
	{
	"epoch": 9.513274336283185,
	"grad_norm": 0.2347142994403839,
	"learning_rate": 5.0442477876106195e-05,
	"loss": 0.1476,
	"step": 2150
	},
	{
	"epoch": 9.557522123893806,
	"grad_norm": 0.3887890577316284,
	"learning_rate": 4.601769911504425e-05,
	"loss": 0.158,
	"step": 2160
	},
	{
	"epoch": 9.601769911504425,
	"grad_norm": 0.2899017632007599,
	"learning_rate": 4.15929203539823e-05,
	"loss": 0.1323,
	"step": 2170
	},
	{
	"epoch": 9.646017699115044,
	"grad_norm": 0.37858498096466064,
	"learning_rate": 3.716814159292035e-05,
	"loss": 0.1488,
	"step": 2180
	},
	{
	"epoch": 9.690265486725664,
	"grad_norm": 0.30040085315704346,
	"learning_rate": 3.2743362831858405e-05,
	"loss": 0.1453,
	"step": 2190
	},
	{
	"epoch": 9.734513274336283,
	"grad_norm": 0.34911859035491943,
	"learning_rate": 2.831858407079646e-05,
	"loss": 0.1578,
	"step": 2200
	},
	{
	"epoch": 9.778761061946902,
	"grad_norm": 0.3793705999851227,
	"learning_rate": 2.3893805309734513e-05,
	"loss": 0.1551,
	"step": 2210
	},
	{
	"epoch": 9.823008849557523,
	"grad_norm": 0.3259049654006958,
	"learning_rate": 1.9469026548672565e-05,
	"loss": 0.1782,
	"step": 2220
	},
	{
	"epoch": 9.867256637168142,
	"grad_norm": 0.2592504620552063,
	"learning_rate": 1.5044247787610619e-05,
	"loss": 0.1488,
	"step": 2230
	},
	{
	"epoch": 9.91150442477876,
	"grad_norm": 0.26316604018211365,
	"learning_rate": 1.0619469026548673e-05,
	"loss": 0.1328,
	"step": 2240
	},
	{
	"epoch": 9.955752212389381,
	"grad_norm": 0.34197258949279785,
	"learning_rate": 6.194690265486725e-06,
	"loss": 0.1658,
	"step": 2250
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.281561017036438,
	"learning_rate": 1.7699115044247788e-06,
	"loss": 0.1256,
	"step": 2260
	}
	],
	"logging_steps": 10,
	"max_steps": 2260,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5529549227950080.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}