mamba_prompt_synth_sbdh_mlc / trainer_state.json

Upload folder using huggingface_hub

5d06d18 verified about 2 months ago

40.2 kB

	{
	"best_metric": 0.9134487053983307,
	"best_model_checkpoint": "./saved_models/mamba_prompt_sbdh_gpt4_v2_0/checkpoint-912",
	"epoch": 38.0,
	"eval_steps": 500,
	"global_step": 912,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 8.483881950378418,
	"learning_rate": 0.0003,
	"loss": 1.2055,
	"step": 24
	},
	{
	"epoch": 1.0,
	"eval_acc_macro": 0.07039666648893216,
	"eval_acc_micro": 0.17493620640770696,
	"eval_auc_macro": 0.7109566412757288,
	"eval_auc_micro": 0.6509757698362547,
	"eval_f1_at_5": 0.2568182822325969,
	"eval_f1_at_8": 0.22372279922068555,
	"eval_f1_macro": 0.11555043034927992,
	"eval_f1_micro": 0.2977799227799084,
	"eval_loss": 0.4126754105091095,
	"eval_prec_at_5": 0.16506849315068495,
	"eval_prec_at_8": 0.1317066210045662,
	"eval_prec_macro": 0.0712520271567465,
	"eval_prec_micro": 0.21000680735193294,
	"eval_rec_at_5": 0.5781963470319634,
	"eval_rec_at_8": 0.7423896499238966,
	"eval_rec_macro": 0.3187634216175277,
	"eval_rec_micro": 0.5116086235488796,
	"eval_runtime": 6.0156,
	"eval_samples_per_second": 145.621,
	"eval_steps_per_second": 18.286,
	"step": 24
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.6864304542541504,
	"learning_rate": 0.0003,
	"loss": 0.3514,
	"step": 48
	},
	{
	"epoch": 2.0,
	"eval_acc_macro": 0.5158272708489711,
	"eval_acc_micro": 0.5578747628083138,
	"eval_auc_macro": 0.94707367087266,
	"eval_auc_micro": 0.913787855621242,
	"eval_f1_at_5": 0.3898187899179248,
	"eval_f1_at_8": 0.2799604575624912,
	"eval_f1_macro": 0.646736079674674,
	"eval_f1_micro": 0.7161997563945827,
	"eval_loss": 0.2387184202671051,
	"eval_prec_at_5": 0.24908675799086763,
	"eval_prec_at_8": 0.1643835616438356,
	"eval_prec_macro": 0.6802826117671307,
	"eval_prec_micro": 0.7016706443913523,
	"eval_rec_at_5": 0.8961187214611872,
	"eval_rec_at_8": 0.9429223744292238,
	"eval_rec_macro": 0.6832268849511623,
	"eval_rec_micro": 0.7313432835820289,
	"eval_runtime": 6.048,
	"eval_samples_per_second": 144.841,
	"eval_steps_per_second": 18.188,
	"step": 48
	},
	{
	"epoch": 3.0,
	"grad_norm": 2.4849371910095215,
	"learning_rate": 0.0003,
	"loss": 0.1682,
	"step": 72
	},
	{
	"epoch": 3.0,
	"eval_acc_macro": 0.7840879005682694,
	"eval_acc_micro": 0.8028064992613883,
	"eval_auc_macro": 0.9886749124239317,
	"eval_auc_micro": 0.990273843904626,
	"eval_f1_at_5": 0.42751438858977425,
	"eval_f1_at_8": 0.2925113305987028,
	"eval_f1_macro": 0.8710656054515781,
	"eval_f1_micro": 0.8906185989347897,
	"eval_loss": 0.07425953447818756,
	"eval_prec_at_5": 0.27374429223744295,
	"eval_prec_at_8": 0.17194634703196346,
	"eval_prec_macro": 0.878761745264005,
	"eval_prec_micro": 0.8801619433197667,
	"eval_rec_at_5": 0.9754566210045662,
	"eval_rec_at_8": 0.9788812785388128,
	"eval_rec_macro": 0.8815695470069095,
	"eval_rec_micro": 0.9013266998340878,
	"eval_runtime": 6.0775,
	"eval_samples_per_second": 144.138,
	"eval_steps_per_second": 18.1,
	"step": 72
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.911177396774292,
	"learning_rate": 0.0003,
	"loss": 0.0646,
	"step": 96
	},
	{
	"epoch": 4.0,
	"eval_acc_macro": 0.8321415173591932,
	"eval_acc_micro": 0.8384442782347914,
	"eval_auc_macro": 0.9920630589905021,
	"eval_auc_micro": 0.9932832791412234,
	"eval_f1_at_5": 0.4278476261962846,
	"eval_f1_at_8": 0.29274329072668936,
	"eval_f1_macro": 0.9063058610149609,
	"eval_f1_micro": 0.9121236777867442,
	"eval_loss": 0.06308761239051819,
	"eval_prec_at_5": 0.27397260273972607,
	"eval_prec_at_8": 0.1720890410958904,
	"eval_prec_macro": 0.8935275833247776,
	"eval_prec_micro": 0.8953674121405035,
	"eval_rec_at_5": 0.976027397260274,
	"eval_rec_at_8": 0.9794520547945206,
	"eval_rec_macro": 0.9215877913582228,
	"eval_rec_micro": 0.929519071310039,
	"eval_runtime": 6.085,
	"eval_samples_per_second": 143.962,
	"eval_steps_per_second": 18.077,
	"step": 96
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.14926180243492126,
	"learning_rate": 0.0003,
	"loss": 0.0416,
	"step": 120
	},
	{
	"epoch": 5.0,
	"eval_acc_macro": 0.835711620798801,
	"eval_acc_micro": 0.844599844599779,
	"eval_auc_macro": 0.99367524750647,
	"eval_auc_micro": 0.9950181038357179,
	"eval_f1_at_5": 0.428217417200729,
	"eval_f1_at_8": 0.2925113305987028,
	"eval_f1_macro": 0.9086207273252621,
	"eval_f1_micro": 0.9157540016848428,
	"eval_loss": 0.056059833616018295,
	"eval_prec_at_5": 0.2742009132420091,
	"eval_prec_at_8": 0.17194634703196346,
	"eval_prec_macro": 0.9238859033605576,
	"eval_prec_micro": 0.9306506849314271,
	"eval_rec_at_5": 0.9769786910197868,
	"eval_rec_at_8": 0.9788812785388128,
	"eval_rec_macro": 0.8949097880182088,
	"eval_rec_micro": 0.9013266998340878,
	"eval_runtime": 6.0515,
	"eval_samples_per_second": 144.758,
	"eval_steps_per_second": 18.177,
	"step": 120
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.24564415216445923,
	"learning_rate": 0.0003,
	"loss": 0.0281,
	"step": 144
	},
	{
	"epoch": 6.0,
	"eval_acc_macro": 0.8427241930303886,
	"eval_acc_micro": 0.8486486486485831,
	"eval_auc_macro": 0.9930039223823353,
	"eval_auc_micro": 0.9943083137218841,
	"eval_f1_at_5": 0.42721766176318765,
	"eval_f1_at_8": 0.2925113305987028,
	"eval_f1_macro": 0.9126603684260771,
	"eval_f1_micro": 0.9181286549706835,
	"eval_loss": 0.05612677335739136,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17194634703196346,
	"eval_prec_macro": 0.9258898765719902,
	"eval_prec_micro": 0.9250841750840971,
	"eval_rec_at_5": 0.9752663622526635,
	"eval_rec_at_8": 0.9788812785388128,
	"eval_rec_macro": 0.9012770790636472,
	"eval_rec_micro": 0.9112769485903058,
	"eval_runtime": 6.0637,
	"eval_samples_per_second": 144.466,
	"eval_steps_per_second": 18.141,
	"step": 144
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.17717961966991425,
	"learning_rate": 0.0003,
	"loss": 0.0163,
	"step": 168
	},
	{
	"epoch": 7.0,
	"eval_acc_macro": 0.8320704316636002,
	"eval_acc_micro": 0.8395155185464921,
	"eval_auc_macro": 0.9927596537595381,
	"eval_auc_micro": 0.9942892457976611,
	"eval_f1_at_5": 0.4287923569488756,
	"eval_f1_at_8": 0.29274329072668936,
	"eval_f1_macro": 0.9054968756763103,
	"eval_f1_micro": 0.9127572016460155,
	"eval_loss": 0.07535412162542343,
	"eval_prec_at_5": 0.27465753424657535,
	"eval_prec_at_8": 0.1720890410958904,
	"eval_prec_macro": 0.895837475867586,
	"eval_prec_micro": 0.9060457516339129,
	"eval_rec_at_5": 0.9771689497716894,
	"eval_rec_at_8": 0.9794520547945206,
	"eval_rec_macro": 0.9167258374697121,
	"eval_rec_micro": 0.9195688225538209,
	"eval_runtime": 6.0576,
	"eval_samples_per_second": 144.612,
	"eval_steps_per_second": 18.159,
	"step": 168
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.27908530831336975,
	"learning_rate": 0.0003,
	"loss": 0.0109,
	"step": 192
	},
	{
	"epoch": 8.0,
	"eval_acc_macro": 0.8295268992370044,
	"eval_acc_micro": 0.832209737827653,
	"eval_auc_macro": 0.9930334009743317,
	"eval_auc_micro": 0.9938628905761329,
	"eval_f1_at_5": 0.42918048633589306,
	"eval_f1_at_8": 0.29274329072668936,
	"eval_f1_macro": 0.9041576767954438,
	"eval_f1_micro": 0.908421913327808,
	"eval_loss": 0.07922064512968063,
	"eval_prec_at_5": 0.27488584474885847,
	"eval_prec_at_8": 0.1720890410958904,
	"eval_prec_macro": 0.8907484139672496,
	"eval_prec_micro": 0.8959677419354116,
	"eval_rec_at_5": 0.978310502283105,
	"eval_rec_at_8": 0.9794520547945206,
	"eval_rec_macro": 0.9213085265888775,
	"eval_rec_micro": 0.9212271973465239,
	"eval_runtime": 6.0722,
	"eval_samples_per_second": 144.265,
	"eval_steps_per_second": 18.115,
	"step": 192
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.14036260545253754,
	"learning_rate": 0.0003,
	"loss": 0.0074,
	"step": 216
	},
	{
	"epoch": 9.0,
	"eval_acc_macro": 0.8385687066413228,
	"eval_acc_micro": 0.844961240310012,
	"eval_auc_macro": 0.9927809510576332,
	"eval_auc_micro": 0.9942359625327764,
	"eval_f1_at_5": 0.4295136788854873,
	"eval_f1_at_8": 0.29274329072668936,
	"eval_f1_macro": 0.9094505520360644,
	"eval_f1_micro": 0.915966386554545,
	"eval_loss": 0.08278516680002213,
	"eval_prec_at_5": 0.2751141552511416,
	"eval_prec_at_8": 0.1720890410958904,
	"eval_prec_macro": 0.9210993789406117,
	"eval_prec_micro": 0.928449744463294,
	"eval_rec_at_5": 0.9788812785388128,
	"eval_rec_at_8": 0.9794520547945206,
	"eval_rec_macro": 0.8989352557922053,
	"eval_rec_micro": 0.9038142620231423,
	"eval_runtime": 6.0864,
	"eval_samples_per_second": 143.928,
	"eval_steps_per_second": 18.073,
	"step": 216
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.192245751619339,
	"learning_rate": 0.0003,
	"loss": 0.0066,
	"step": 240
	},
	{
	"epoch": 10.0,
	"eval_acc_macro": 0.841830141960627,
	"eval_acc_micro": 0.8498475609755449,
	"eval_auc_macro": 0.9923313106695196,
	"eval_auc_micro": 0.9933376316355039,
	"eval_f1_at_5": 0.4275509226486327,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9117612718437879,
	"eval_f1_micro": 0.9188298310670853,
	"eval_loss": 0.0772981271147728,
	"eval_prec_at_5": 0.27374429223744295,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9114916513520281,
	"eval_prec_micro": 0.9131859131858384,
	"eval_rec_at_5": 0.9758371385083713,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9136710504527534,
	"eval_rec_micro": 0.92454394693193,
	"eval_runtime": 5.9768,
	"eval_samples_per_second": 146.566,
	"eval_steps_per_second": 18.404,
	"step": 240
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.11837983131408691,
	"learning_rate": 0.0003,
	"loss": 0.0057,
	"step": 264
	},
	{
	"epoch": 11.0,
	"eval_acc_macro": 0.8320358706720068,
	"eval_acc_micro": 0.836842105263095,
	"eval_auc_macro": 0.990286728874436,
	"eval_auc_micro": 0.9913156297458193,
	"eval_f1_at_5": 0.42747783226694747,
	"eval_f1_at_8": 0.2920219218917755,
	"eval_f1_macro": 0.9058723874403682,
	"eval_f1_micro": 0.911174785100212,
	"eval_loss": 0.10789646208286285,
	"eval_prec_at_5": 0.27374429223744295,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.8914304927691732,
	"eval_prec_micro": 0.8997574777687227,
	"eval_rec_at_5": 0.975076103500761,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.9231550617780325,
	"eval_rec_micro": 0.922885572139227,
	"eval_runtime": 6.0106,
	"eval_samples_per_second": 145.742,
	"eval_steps_per_second": 18.301,
	"step": 264
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.16925422847270966,
	"learning_rate": 0.0003,
	"loss": 0.005,
	"step": 288
	},
	{
	"epoch": 12.0,
	"eval_acc_macro": 0.8364454962531706,
	"eval_acc_micro": 0.8397581254723477,
	"eval_auc_macro": 0.9908748071505288,
	"eval_auc_micro": 0.9917851996554229,
	"eval_f1_at_5": 0.42708974483795964,
	"eval_f1_at_8": 0.2925113305987028,
	"eval_f1_macro": 0.9084368033771916,
	"eval_f1_micro": 0.9129005751848058,
	"eval_loss": 0.09441287070512772,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17194634703196346,
	"eval_prec_macro": 0.8995515858307809,
	"eval_prec_micro": 0.9047231270357569,
	"eval_rec_at_5": 0.9739345509893454,
	"eval_rec_at_8": 0.9788812785388128,
	"eval_rec_macro": 0.9188760380015673,
	"eval_rec_micro": 0.9212271973465239,
	"eval_runtime": 6.0148,
	"eval_samples_per_second": 145.64,
	"eval_steps_per_second": 18.288,
	"step": 288
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.25462788343429565,
	"learning_rate": 0.0003,
	"loss": 0.0045,
	"step": 312
	},
	{
	"epoch": 13.0,
	"eval_acc_macro": 0.8219219437469505,
	"eval_acc_micro": 0.8327165062915741,
	"eval_auc_macro": 0.9892036337462419,
	"eval_auc_micro": 0.9914230873000853,
	"eval_f1_at_5": 0.42851407428878907,
	"eval_f1_at_8": 0.2918154230125642,
	"eval_f1_macro": 0.8990693006867976,
	"eval_f1_micro": 0.9087237479805405,
	"eval_loss": 0.11245805770158768,
	"eval_prec_at_5": 0.2744292237442923,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.872997498581981,
	"eval_prec_micro": 0.8858267716534736,
	"eval_rec_at_5": 0.9771689497716894,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.9280030786669166,
	"eval_rec_micro": 0.932835820895445,
	"eval_runtime": 6.2398,
	"eval_samples_per_second": 140.389,
	"eval_steps_per_second": 17.629,
	"step": 312
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.13963262736797333,
	"learning_rate": 0.0003,
	"loss": 0.0029,
	"step": 336
	},
	{
	"epoch": 14.0,
	"eval_acc_macro": 0.8398618464555664,
	"eval_acc_micro": 0.8437499999999356,
	"eval_auc_macro": 0.9909268418920506,
	"eval_auc_micro": 0.9918402649693007,
	"eval_f1_at_5": 0.42740465274793293,
	"eval_f1_at_8": 0.2920473967500829,
	"eval_f1_macro": 0.910421950810437,
	"eval_f1_micro": 0.9152542372880599,
	"eval_loss": 0.13447707891464233,
	"eval_prec_at_5": 0.27374429223744295,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.907525335697792,
	"eval_prec_micro": 0.9126133553173196,
	"eval_rec_at_5": 0.9743150684931506,
	"eval_rec_at_8": 0.9777397260273972,
	"eval_rec_macro": 0.9137157897519602,
	"eval_rec_micro": 0.9179104477611179,
	"eval_runtime": 6.2625,
	"eval_samples_per_second": 139.881,
	"eval_steps_per_second": 17.565,
	"step": 336
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.1901983767747879,
	"learning_rate": 0.0003,
	"loss": 0.0032,
	"step": 360
	},
	{
	"epoch": 15.0,
	"eval_acc_macro": 0.8357224650035576,
	"eval_acc_micro": 0.8455098934550346,
	"eval_auc_macro": 0.9892990457525107,
	"eval_auc_micro": 0.990561377509615,
	"eval_f1_at_5": 0.4254418080308462,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9080581868434588,
	"eval_f1_micro": 0.9162886597937389,
	"eval_loss": 0.10820472985506058,
	"eval_prec_at_5": 0.27237442922374433,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9057447684648601,
	"eval_prec_micro": 0.9114027891713772,
	"eval_rec_at_5": 0.9712709284627092,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9111621041819294,
	"eval_rec_micro": 0.9212271973465239,
	"eval_runtime": 6.3038,
	"eval_samples_per_second": 138.963,
	"eval_steps_per_second": 17.45,
	"step": 360
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.17108500003814697,
	"learning_rate": 0.0003,
	"loss": 0.0027,
	"step": 384
	},
	{
	"epoch": 16.0,
	"eval_acc_macro": 0.8297448303381417,
	"eval_acc_micro": 0.8398169336383798,
	"eval_auc_macro": 0.9902632756647023,
	"eval_auc_micro": 0.9922601157120051,
	"eval_f1_at_5": 0.4277927620668724,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9041211387604378,
	"eval_f1_micro": 0.912935323383009,
	"eval_loss": 0.12706510722637177,
	"eval_prec_at_5": 0.273972602739726,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9060353096841967,
	"eval_prec_micro": 0.9129353233830089,
	"eval_rec_at_5": 0.9754566210045662,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9032650308288451,
	"eval_rec_micro": 0.9129353233830089,
	"eval_runtime": 6.7247,
	"eval_samples_per_second": 130.266,
	"eval_steps_per_second": 16.358,
	"step": 384
	},
	{
	"epoch": 17.0,
	"grad_norm": 0.06544364243745804,
	"learning_rate": 0.0003,
	"loss": 0.0029,
	"step": 408
	},
	{
	"epoch": 17.0,
	"eval_acc_macro": 0.829765891496947,
	"eval_acc_micro": 0.8365384615383996,
	"eval_auc_macro": 0.9893010896141785,
	"eval_auc_micro": 0.9914586391774918,
	"eval_f1_at_5": 0.42714459980714947,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9037391479019817,
	"eval_f1_micro": 0.9109947643978323,
	"eval_loss": 0.10541332513093948,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.8801020034653725,
	"eval_prec_micro": 0.8856695379795704,
	"eval_rec_at_5": 0.9745053272450532,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9310175234124923,
	"eval_rec_micro": 0.937810945273554,
	"eval_runtime": 6.3322,
	"eval_samples_per_second": 138.34,
	"eval_steps_per_second": 17.371,
	"step": 408
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.12380898743867874,
	"learning_rate": 0.0003,
	"loss": 0.0028,
	"step": 432
	},
	{
	"epoch": 18.0,
	"eval_acc_macro": 0.8295264706506825,
	"eval_acc_micro": 0.8390718562873624,
	"eval_auc_macro": 0.9886105199219366,
	"eval_auc_micro": 0.9908788495376829,
	"eval_f1_at_5": 0.42679308597884263,
	"eval_f1_at_8": 0.2918154230125642,
	"eval_f1_macro": 0.9042231261610075,
	"eval_f1_micro": 0.9124949124948383,
	"eval_loss": 0.11824628710746765,
	"eval_prec_at_5": 0.2732876712328767,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.8888519630940449,
	"eval_prec_micro": 0.8960831334931337,
	"eval_rec_at_5": 0.973744292237443,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.9215852252593782,
	"eval_rec_micro": 0.929519071310039,
	"eval_runtime": 6.3155,
	"eval_samples_per_second": 138.707,
	"eval_steps_per_second": 17.418,
	"step": 432
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.21812734007835388,
	"learning_rate": 0.0003,
	"loss": 0.0024,
	"step": 456
	},
	{
	"epoch": 19.0,
	"eval_acc_macro": 0.829661993373597,
	"eval_acc_micro": 0.8388554216866838,
	"eval_auc_macro": 0.9894816577253542,
	"eval_auc_micro": 0.991705185655646,
	"eval_f1_at_5": 0.42714459980714947,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9036099130579357,
	"eval_f1_micro": 0.9123669123668376,
	"eval_loss": 0.1079055592417717,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.8959752170714762,
	"eval_prec_micro": 0.9012944983818041,
	"eval_rec_at_5": 0.9745053272450532,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9119091133829933,
	"eval_rec_micro": 0.9237147595355785,
	"eval_runtime": 6.2636,
	"eval_samples_per_second": 139.855,
	"eval_steps_per_second": 17.562,
	"step": 456
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.14500826597213745,
	"learning_rate": 0.0003,
	"loss": 0.0026,
	"step": 480
	},
	{
	"epoch": 20.0,
	"eval_acc_macro": 0.8388928681043534,
	"eval_acc_micro": 0.8470764617690519,
	"eval_auc_macro": 0.9914346196687225,
	"eval_auc_micro": 0.9929207212736375,
	"eval_f1_at_5": 0.42845916764894976,
	"eval_f1_at_8": 0.2925113305987028,
	"eval_f1_macro": 0.9099987722528428,
	"eval_f1_micro": 0.9172077922077178,
	"eval_loss": 0.12154436111450195,
	"eval_prec_at_5": 0.2744292237442923,
	"eval_prec_at_8": 0.17194634703196346,
	"eval_prec_macro": 0.8884541003489376,
	"eval_prec_micro": 0.898251192368768,
	"eval_rec_at_5": 0.9765981735159818,
	"eval_rec_at_8": 0.9788812785388128,
	"eval_rec_macro": 0.9349802408736304,
	"eval_rec_micro": 0.9369817578772025,
	"eval_runtime": 6.1697,
	"eval_samples_per_second": 141.984,
	"eval_steps_per_second": 17.829,
	"step": 480
	},
	{
	"epoch": 21.0,
	"grad_norm": 0.12059065699577332,
	"learning_rate": 0.0003,
	"loss": 0.002,
	"step": 504
	},
	{
	"epoch": 21.0,
	"eval_acc_macro": 0.840415915936909,
	"eval_acc_micro": 0.8496978851963104,
	"eval_auc_macro": 0.9902023505450398,
	"eval_auc_micro": 0.9918164746152466,
	"eval_f1_at_5": 0.42708974483795964,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9110529776466078,
	"eval_f1_micro": 0.9187423438137264,
	"eval_loss": 0.1368735283613205,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.8969397087072427,
	"eval_prec_micro": 0.9050683829444163,
	"eval_rec_at_5": 0.9739345509893454,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9266197213944322,
	"eval_rec_micro": 0.932835820895445,
	"eval_runtime": 6.2964,
	"eval_samples_per_second": 139.126,
	"eval_steps_per_second": 17.47,
	"step": 504
	},
	{
	"epoch": 22.0,
	"grad_norm": 0.1459818333387375,
	"learning_rate": 0.0003,
	"loss": 0.0022,
	"step": 528
	},
	{
	"epoch": 22.0,
	"eval_acc_macro": 0.8299074532155761,
	"eval_acc_micro": 0.8387573964496421,
	"eval_auc_macro": 0.9912484493432677,
	"eval_auc_micro": 0.9923215964022568,
	"eval_f1_at_5": 0.42714459980714947,
	"eval_f1_at_8": 0.29205588274802374,
	"eval_f1_macro": 0.9036433853106406,
	"eval_f1_micro": 0.9123089300079716,
	"eval_loss": 0.12988413870334625,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.8778252010823914,
	"eval_prec_micro": 0.8859374999999308,
	"eval_rec_at_5": 0.9745053272450532,
	"eval_rec_at_8": 0.9779299847792998,
	"eval_rec_macro": 0.9334072472404634,
	"eval_rec_micro": 0.9402985074626086,
	"eval_runtime": 6.2795,
	"eval_samples_per_second": 139.501,
	"eval_steps_per_second": 17.517,
	"step": 528
	},
	{
	"epoch": 23.0,
	"grad_norm": 0.23651210963726044,
	"learning_rate": 0.0003,
	"loss": 0.0023,
	"step": 552
	},
	{
	"epoch": 23.0,
	"eval_acc_macro": 0.8331982367002823,
	"eval_acc_micro": 0.8412213740457373,
	"eval_auc_macro": 0.9907246610096498,
	"eval_auc_micro": 0.9922808765827714,
	"eval_f1_at_5": 0.42686614175859805,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9057038011597318,
	"eval_f1_micro": 0.9137645107793605,
	"eval_loss": 0.1514243185520172,
	"eval_prec_at_5": 0.2732876712328767,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9057572791903493,
	"eval_prec_micro": 0.9137645107793604,
	"eval_rec_at_5": 0.9745053272450532,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9065147380552868,
	"eval_rec_micro": 0.9137645107793604,
	"eval_runtime": 6.3102,
	"eval_samples_per_second": 138.822,
	"eval_steps_per_second": 17.432,
	"step": 552
	},
	{
	"epoch": 24.0,
	"grad_norm": 0.09079229086637497,
	"learning_rate": 0.0003,
	"loss": 0.0026,
	"step": 576
	},
	{
	"epoch": 24.0,
	"eval_acc_macro": 0.8361929136599193,
	"eval_acc_micro": 0.8474446987032153,
	"eval_auc_macro": 0.990970820997881,
	"eval_auc_micro": 0.9927761079978714,
	"eval_f1_at_5": 0.4275326584009282,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9082187775109158,
	"eval_f1_micro": 0.9174236168455063,
	"eval_loss": 0.1161712110042572,
	"eval_prec_at_5": 0.27374429223744295,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9024833914958587,
	"eval_prec_micro": 0.9136513157893985,
	"eval_rec_at_5": 0.9756468797564688,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9147050110934346,
	"eval_rec_micro": 0.9212271973465239,
	"eval_runtime": 6.2478,
	"eval_samples_per_second": 140.209,
	"eval_steps_per_second": 17.606,
	"step": 576
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.1555357277393341,
	"learning_rate": 0.0003,
	"loss": 0.0011,
	"step": 600
	},
	{
	"epoch": 25.0,
	"eval_acc_macro": 0.8261213062726463,
	"eval_acc_micro": 0.8319763138415373,
	"eval_auc_macro": 0.990040119063344,
	"eval_auc_micro": 0.9911265543476828,
	"eval_f1_at_5": 0.4265511126863068,
	"eval_f1_at_8": 0.2920473967500829,
	"eval_f1_macro": 0.9014179315917096,
	"eval_f1_micro": 0.9082828282827549,
	"eval_loss": 0.17262162268161774,
	"eval_prec_at_5": 0.2730593607305936,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.8792666911124373,
	"eval_prec_micro": 0.8857368006303479,
	"eval_rec_at_5": 0.974124809741248,
	"eval_rec_at_8": 0.9777397260273972,
	"eval_rec_macro": 0.9306207402078307,
	"eval_rec_micro": 0.9320066334990935,
	"eval_runtime": 6.1427,
	"eval_samples_per_second": 142.608,
	"eval_steps_per_second": 17.907,
	"step": 600
	},
	{
	"epoch": 26.0,
	"grad_norm": 0.054534025490283966,
	"learning_rate": 0.0003,
	"loss": 0.0016,
	"step": 624
	},
	{
	"epoch": 26.0,
	"eval_acc_macro": 0.826194090509476,
	"eval_acc_micro": 0.8362004487658312,
	"eval_auc_macro": 0.9894373225891121,
	"eval_auc_micro": 0.9909356077981039,
	"eval_f1_at_5": 0.42686614175859805,
	"eval_f1_at_8": 0.2918154230125642,
	"eval_f1_macro": 0.9018300611095432,
	"eval_f1_micro": 0.910794297352268,
	"eval_loss": 0.1341952532529831,
	"eval_prec_at_5": 0.2732876712328767,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.8863083621122576,
	"eval_prec_micro": 0.8951160928742278,
	"eval_rec_at_5": 0.9745053272450532,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.9193115078475559,
	"eval_rec_micro": 0.9270315091209844,
	"eval_runtime": 6.2441,
	"eval_samples_per_second": 140.292,
	"eval_steps_per_second": 17.617,
	"step": 624
	},
	{
	"epoch": 27.0,
	"grad_norm": 0.18318401277065277,
	"learning_rate": 0.0003,
	"loss": 0.0017,
	"step": 648
	},
	{
	"epoch": 27.0,
	"eval_acc_macro": 0.8331625409086375,
	"eval_acc_micro": 0.844547563805039,
	"eval_auc_macro": 0.9903700036429086,
	"eval_auc_micro": 0.9911557799511647,
	"eval_f1_at_5": 0.4260900570497148,
	"eval_f1_at_8": 0.2915919235644548,
	"eval_f1_macro": 0.9059994264183651,
	"eval_f1_micro": 0.9157232704401748,
	"eval_loss": 0.16900603473186493,
	"eval_prec_at_5": 0.27283105022831056,
	"eval_prec_at_8": 0.1713755707762557,
	"eval_prec_macro": 0.9152116568385661,
	"eval_prec_micro": 0.9262086513994126,
	"eval_rec_at_5": 0.9722222222222222,
	"eval_rec_at_8": 0.9767884322678843,
	"eval_rec_macro": 0.8973109240252097,
	"eval_rec_micro": 0.9054726368158453,
	"eval_runtime": 6.3369,
	"eval_samples_per_second": 138.239,
	"eval_steps_per_second": 17.359,
	"step": 648
	},
	{
	"epoch": 28.0,
	"grad_norm": 0.09100370109081268,
	"learning_rate": 0.0003,
	"loss": 0.002,
	"step": 672
	},
	{
	"epoch": 28.0,
	"eval_acc_macro": 0.834589729212194,
	"eval_acc_micro": 0.8436781609194756,
	"eval_auc_macro": 0.9901591404278554,
	"eval_auc_micro": 0.9904570385410867,
	"eval_f1_at_5": 0.4261448479661988,
	"eval_f1_at_8": 0.29135993712848907,
	"eval_f1_macro": 0.906536458365489,
	"eval_f1_micro": 0.9152119700747368,
	"eval_loss": 0.12356158345937729,
	"eval_prec_at_5": 0.27283105022831056,
	"eval_prec_at_8": 0.17123287671232876,
	"eval_prec_macro": 0.9101814375182885,
	"eval_prec_micro": 0.9174999999999235,
	"eval_rec_at_5": 0.97279299847793,
	"eval_rec_at_8": 0.9762176560121765,
	"eval_rec_macro": 0.9036660250083727,
	"eval_rec_micro": 0.9129353233830089,
	"eval_runtime": 6.2292,
	"eval_samples_per_second": 140.629,
	"eval_steps_per_second": 17.659,
	"step": 672
	},
	{
	"epoch": 29.0,
	"grad_norm": 0.031184401363134384,
	"learning_rate": 0.0003,
	"loss": 0.0013,
	"step": 696
	},
	{
	"epoch": 29.0,
	"eval_acc_macro": 0.8341647633718688,
	"eval_acc_micro": 0.8435321456234822,
	"eval_auc_macro": 0.9909608628516886,
	"eval_auc_micro": 0.9916707030076353,
	"eval_f1_at_5": 0.42647810767423283,
	"eval_f1_at_8": 0.2915834447216144,
	"eval_f1_macro": 0.9066166365653049,
	"eval_f1_micro": 0.9151260504200911,
	"eval_loss": 0.1419263482093811,
	"eval_prec_at_5": 0.27305936073059367,
	"eval_prec_at_8": 0.1713755707762557,
	"eval_prec_macro": 0.9206967590925624,
	"eval_prec_micro": 0.9275979557069056,
	"eval_rec_at_5": 0.9733637747336377,
	"eval_rec_at_8": 0.9765981735159818,
	"eval_rec_macro": 0.8938908104868867,
	"eval_rec_micro": 0.9029850746267908,
	"eval_runtime": 6.2406,
	"eval_samples_per_second": 140.372,
	"eval_steps_per_second": 17.627,
	"step": 696
	},
	{
	"epoch": 30.0,
	"grad_norm": 0.12148793786764145,
	"learning_rate": 0.0003,
	"loss": 0.001,
	"step": 720
	},
	{
	"epoch": 30.0,
	"eval_acc_macro": 0.8301734612803756,
	"eval_acc_micro": 0.8415007656967196,
	"eval_auc_macro": 0.9904576570433402,
	"eval_auc_micro": 0.9915527313643118,
	"eval_f1_at_5": 0.42708974483795964,
	"eval_f1_at_8": 0.2918154230125642,
	"eval_f1_macro": 0.9043513567183213,
	"eval_f1_micro": 0.9139293139292379,
	"eval_loss": 0.1600634753704071,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.9050210447593683,
	"eval_prec_micro": 0.9165971643035098,
	"eval_rec_at_5": 0.9739345509893454,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.9048079473209437,
	"eval_rec_micro": 0.9112769485903058,
	"eval_runtime": 6.2514,
	"eval_samples_per_second": 140.128,
	"eval_steps_per_second": 17.596,
	"step": 720
	},
	{
	"epoch": 31.0,
	"grad_norm": 0.11479064077138901,
	"learning_rate": 0.0003,
	"loss": 0.0016,
	"step": 744
	},
	{
	"epoch": 31.0,
	"eval_acc_macro": 0.833818894129361,
	"eval_acc_micro": 0.8425787106446144,
	"eval_auc_macro": 0.9902376130208236,
	"eval_auc_micro": 0.9914569462309486,
	"eval_f1_at_5": 0.4271994046239887,
	"eval_f1_at_8": 0.2920473967500829,
	"eval_f1_macro": 0.9060990360615312,
	"eval_f1_micro": 0.9145646867371103,
	"eval_loss": 0.1426621824502945,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.8877458031473394,
	"eval_prec_micro": 0.8977635782746887,
	"eval_rec_at_5": 0.975076103500761,
	"eval_rec_at_8": 0.9777397260273972,
	"eval_rec_macro": 0.9271635027618895,
	"eval_rec_micro": 0.9320066334990935,
	"eval_runtime": 6.1703,
	"eval_samples_per_second": 141.971,
	"eval_steps_per_second": 17.827,
	"step": 744
	},
	{
	"epoch": 32.0,
	"grad_norm": 0.0649285838007927,
	"learning_rate": 0.0003,
	"loss": 0.0011,
	"step": 768
	},
	{
	"epoch": 32.0,
	"eval_acc_macro": 0.830982026700095,
	"eval_acc_micro": 0.8421862971515902,
	"eval_auc_macro": 0.9898071389389859,
	"eval_auc_micro": 0.9906281152443956,
	"eval_f1_at_5": 0.4261448479661988,
	"eval_f1_at_8": 0.2918154230125642,
	"eval_f1_macro": 0.9044437561510542,
	"eval_f1_micro": 0.9143334726284233,
	"eval_loss": 0.15522228181362152,
	"eval_prec_at_5": 0.27283105022831056,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.914549760838821,
	"eval_prec_micro": 0.9216512215668979,
	"eval_rec_at_5": 0.97279299847793,
	"eval_rec_at_8": 0.9771689497716894,
	"eval_rec_macro": 0.89634766919242,
	"eval_rec_micro": 0.9071310116085483,
	"eval_runtime": 6.2856,
	"eval_samples_per_second": 139.366,
	"eval_steps_per_second": 17.5,
	"step": 768
	},
	{
	"epoch": 33.0,
	"grad_norm": 0.10257603228092194,
	"learning_rate": 0.0003,
	"loss": 0.001,
	"step": 792
	},
	{
	"epoch": 33.0,
	"eval_acc_macro": 0.8321851395971892,
	"eval_acc_micro": 0.8429878048779845,
	"eval_auc_macro": 0.9889132300057429,
	"eval_auc_micro": 0.9893601873860157,
	"eval_f1_at_5": 0.42647810767423283,
	"eval_f1_at_8": 0.2915919235644548,
	"eval_f1_macro": 0.9051919207399707,
	"eval_f1_micro": 0.9148056244829681,
	"eval_loss": 0.149822399020195,
	"eval_prec_at_5": 0.27305936073059367,
	"eval_prec_at_8": 0.1713755707762557,
	"eval_prec_macro": 0.9067171865229405,
	"eval_prec_micro": 0.9125412541253373,
	"eval_rec_at_5": 0.9733637747336377,
	"eval_rec_at_8": 0.9767884322678843,
	"eval_rec_macro": 0.906988014574614,
	"eval_rec_micro": 0.9170812603647663,
	"eval_runtime": 6.3392,
	"eval_samples_per_second": 138.188,
	"eval_steps_per_second": 17.352,
	"step": 792
	},
	{
	"epoch": 34.0,
	"grad_norm": 0.06269343197345734,
	"learning_rate": 0.0003,
	"loss": 0.0012,
	"step": 816
	},
	{
	"epoch": 34.0,
	"eval_acc_macro": 0.8356570074540155,
	"eval_acc_micro": 0.8457446808509995,
	"eval_auc_macro": 0.9885679122519199,
	"eval_auc_micro": 0.9892555811101381,
	"eval_f1_at_5": 0.42581157914042916,
	"eval_f1_at_8": 0.29135993712848907,
	"eval_f1_macro": 0.907980034255221,
	"eval_f1_micro": 0.9164265129682243,
	"eval_loss": 0.18450404703617096,
	"eval_prec_at_5": 0.2726027397260274,
	"eval_prec_at_8": 0.17123287671232876,
	"eval_prec_macro": 0.9065894385720981,
	"eval_prec_micro": 0.9100572363040956,
	"eval_rec_at_5": 0.9722222222222222,
	"eval_rec_at_8": 0.9762176560121765,
	"eval_rec_macro": 0.9109305984894259,
	"eval_rec_micro": 0.922885572139227,
	"eval_runtime": 6.2222,
	"eval_samples_per_second": 140.786,
	"eval_steps_per_second": 17.679,
	"step": 816
	},
	{
	"epoch": 35.0,
	"grad_norm": 0.060569193214178085,
	"learning_rate": 0.0003,
	"loss": 0.0015,
	"step": 840
	},
	{
	"epoch": 35.0,
	"eval_acc_macro": 0.8271139319864672,
	"eval_acc_micro": 0.8386855862583391,
	"eval_auc_macro": 0.9891685604004818,
	"eval_auc_micro": 0.9908738152492784,
	"eval_f1_at_5": 0.4271994046239887,
	"eval_f1_at_8": 0.29205588274802374,
	"eval_f1_macro": 0.9021260521405651,
	"eval_f1_micro": 0.9122664500405433,
	"eval_loss": 0.13544484972953796,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.1716609589041096,
	"eval_prec_macro": 0.8873506319173318,
	"eval_prec_micro": 0.8941082802547059,
	"eval_rec_at_5": 0.975076103500761,
	"eval_rec_at_8": 0.9779299847792998,
	"eval_rec_macro": 0.9204235623584355,
	"eval_rec_micro": 0.931177446102742,
	"eval_runtime": 6.3105,
	"eval_samples_per_second": 138.815,
	"eval_steps_per_second": 17.431,
	"step": 840
	},
	{
	"epoch": 36.0,
	"grad_norm": 0.011365901678800583,
	"learning_rate": 0.0003,
	"loss": 0.0013,
	"step": 864
	},
	{
	"epoch": 36.0,
	"eval_acc_macro": 0.8432467559973965,
	"eval_acc_micro": 0.8506097560974961,
	"eval_auc_macro": 0.9889068205774477,
	"eval_auc_micro": 0.9905521999573019,
	"eval_f1_at_5": 0.42684788616938474,
	"eval_f1_at_8": 0.2922793659426448,
	"eval_f1_macro": 0.9125863753805709,
	"eval_f1_micro": 0.9192751235584086,
	"eval_loss": 0.1388498842716217,
	"eval_prec_at_5": 0.2732876712328767,
	"eval_prec_at_8": 0.17180365296803654,
	"eval_prec_macro": 0.9106178664851478,
	"eval_prec_micro": 0.9132569558100725,
	"eval_rec_at_5": 0.9743150684931506,
	"eval_rec_at_8": 0.978310502283105,
	"eval_rec_macro": 0.9154554431692706,
	"eval_rec_micro": 0.9253731343282815,
	"eval_runtime": 6.1794,
	"eval_samples_per_second": 141.761,
	"eval_steps_per_second": 17.801,
	"step": 864
	},
	{
	"epoch": 37.0,
	"grad_norm": 0.00758476834744215,
	"learning_rate": 0.0003,
	"loss": 0.0009,
	"step": 888
	},
	{
	"epoch": 37.0,
	"eval_acc_macro": 0.8416703156465917,
	"eval_acc_micro": 0.848985725018719,
	"eval_auc_macro": 0.9891403369644753,
	"eval_auc_micro": 0.9905162916700971,
	"eval_f1_at_5": 0.4261995886925304,
	"eval_f1_at_8": 0.2915919235644548,
	"eval_f1_macro": 0.9111295247504767,
	"eval_f1_micro": 0.9183258837870039,
	"eval_loss": 0.13994979858398438,
	"eval_prec_at_5": 0.27283105022831056,
	"eval_prec_at_8": 0.1713755707762557,
	"eval_prec_macro": 0.8945120800094545,
	"eval_prec_micro": 0.9003984063744302,
	"eval_rec_at_5": 0.9733637747336377,
	"eval_rec_at_8": 0.9767884322678843,
	"eval_rec_macro": 0.9295761415839934,
	"eval_rec_micro": 0.9369817578772025,
	"eval_runtime": 6.299,
	"eval_samples_per_second": 139.071,
	"eval_steps_per_second": 17.463,
	"step": 888
	},
	{
	"epoch": 38.0,
	"grad_norm": 0.005984355695545673,
	"learning_rate": 0.0003,
	"loss": 0.0009,
	"step": 912
	},
	{
	"epoch": 38.0,
	"eval_acc_macro": 0.8453744008028368,
	"eval_acc_micro": 0.8551617873651113,
	"eval_auc_macro": 0.9890338148789555,
	"eval_auc_micro": 0.9911242376839919,
	"eval_f1_at_5": 0.4271994046239887,
	"eval_f1_at_8": 0.29182390543479947,
	"eval_f1_macro": 0.9134487053983307,
	"eval_f1_micro": 0.9219269102989267,
	"eval_loss": 0.13640232384204865,
	"eval_prec_at_5": 0.27351598173515984,
	"eval_prec_at_8": 0.17151826484018265,
	"eval_prec_macro": 0.9185694511313961,
	"eval_prec_micro": 0.923460898502419,
	"eval_rec_at_5": 0.975076103500761,
	"eval_rec_at_8": 0.977359208523592,
	"eval_rec_macro": 0.9098787791583011,
	"eval_rec_micro": 0.9203980099501724,
	"eval_runtime": 6.2788,
	"eval_samples_per_second": 139.517,
	"eval_steps_per_second": 17.519,
	"step": 912
	}
	],
	"logging_steps": 500,
	"max_steps": 960,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}