Training in progress, step 500, checkpoint

dc251a2 verified 13 days ago

12.1 kB

	{
	"best_metric": 0.6936941742897034,
	"best_model_checkpoint": "miner_id_24/checkpoint-500",
	"epoch": 0.0357347055460263,
	"eval_steps": 50,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 7.14694110920526e-05,
	"eval_loss": 1.1522774696350098,
	"eval_runtime": 271.4524,
	"eval_samples_per_second": 21.705,
	"eval_steps_per_second": 5.426,
	"step": 1
	},
	{
	"epoch": 0.000714694110920526,
	"grad_norm": 0.6790405511856079,
	"learning_rate": 4.0600000000000004e-05,
	"loss": 1.8005,
	"step": 10
	},
	{
	"epoch": 0.001429388221841052,
	"grad_norm": 0.8249218463897705,
	"learning_rate": 8.120000000000001e-05,
	"loss": 1.7599,
	"step": 20
	},
	{
	"epoch": 0.002144082332761578,
	"grad_norm": 0.9275533556938171,
	"learning_rate": 0.00012179999999999999,
	"loss": 1.7436,
	"step": 30
	},
	{
	"epoch": 0.002858776443682104,
	"grad_norm": 1.2592201232910156,
	"learning_rate": 0.00016240000000000002,
	"loss": 1.9385,
	"step": 40
	},
	{
	"epoch": 0.00357347055460263,
	"grad_norm": 2.3246257305145264,
	"learning_rate": 0.000203,
	"loss": 2.1042,
	"step": 50
	},
	{
	"epoch": 0.00357347055460263,
	"eval_loss": 0.9425861835479736,
	"eval_runtime": 271.9521,
	"eval_samples_per_second": 21.666,
	"eval_steps_per_second": 5.416,
	"step": 50
	},
	{
	"epoch": 0.004288164665523156,
	"grad_norm": 0.5499325394630432,
	"learning_rate": 0.00020275275110137215,
	"loss": 1.6205,
	"step": 60
	},
	{
	"epoch": 0.005002858776443682,
	"grad_norm": 0.657888650894165,
	"learning_rate": 0.00020201220897726938,
	"loss": 1.5361,
	"step": 70
	},
	{
	"epoch": 0.005717552887364208,
	"grad_norm": 0.7335652112960815,
	"learning_rate": 0.00020078198147448128,
	"loss": 1.6822,
	"step": 80
	},
	{
	"epoch": 0.006432246998284734,
	"grad_norm": 1.0221036672592163,
	"learning_rate": 0.00019906806213773937,
	"loss": 1.7223,
	"step": 90
	},
	{
	"epoch": 0.00714694110920526,
	"grad_norm": 2.625779151916504,
	"learning_rate": 0.0001968788010097697,
	"loss": 1.8717,
	"step": 100
	},
	{
	"epoch": 0.00714694110920526,
	"eval_loss": 0.8531848788261414,
	"eval_runtime": 271.6576,
	"eval_samples_per_second": 21.689,
	"eval_steps_per_second": 5.422,
	"step": 100
	},
	{
	"epoch": 0.007861635220125786,
	"grad_norm": 0.5337308049201965,
	"learning_rate": 0.00019422486395072398,
	"loss": 1.5742,
	"step": 110
	},
	{
	"epoch": 0.008576329331046312,
	"grad_norm": 0.7009676694869995,
	"learning_rate": 0.0001911191806751811,
	"loss": 1.6358,
	"step": 120
	},
	{
	"epoch": 0.009291023441966839,
	"grad_norm": 0.66788649559021,
	"learning_rate": 0.00018757688175987723,
	"loss": 1.6009,
	"step": 130
	},
	{
	"epoch": 0.010005717552887363,
	"grad_norm": 1.010290265083313,
	"learning_rate": 0.00018361522492905716,
	"loss": 1.638,
	"step": 140
	},
	{
	"epoch": 0.01072041166380789,
	"grad_norm": 2.071993350982666,
	"learning_rate": 0.00017925351097657625,
	"loss": 1.6186,
	"step": 150
	},
	{
	"epoch": 0.01072041166380789,
	"eval_loss": 0.8275316953659058,
	"eval_runtime": 271.5389,
	"eval_samples_per_second": 21.699,
	"eval_steps_per_second": 5.425,
	"step": 150
	},
	{
	"epoch": 0.011435105774728416,
	"grad_norm": 0.48222827911376953,
	"learning_rate": 0.00017451298973437308,
	"loss": 1.3411,
	"step": 160
	},
	{
	"epoch": 0.012149799885648942,
	"grad_norm": 0.6215487122535706,
	"learning_rate": 0.0001694167565454241,
	"loss": 1.4259,
	"step": 170
	},
	{
	"epoch": 0.012864493996569469,
	"grad_norm": 0.8803397417068481,
	"learning_rate": 0.0001639896397455543,
	"loss": 1.4885,
	"step": 180
	},
	{
	"epoch": 0.013579188107489995,
	"grad_norm": 0.899418294429779,
	"learning_rate": 0.0001582580797022808,
	"loss": 1.7306,
	"step": 190
	},
	{
	"epoch": 0.01429388221841052,
	"grad_norm": 1.875759482383728,
	"learning_rate": 0.00015225,
	"loss": 1.7291,
	"step": 200
	},
	{
	"epoch": 0.01429388221841052,
	"eval_loss": 0.7944059371948242,
	"eval_runtime": 271.637,
	"eval_samples_per_second": 21.691,
	"eval_steps_per_second": 5.423,
	"step": 200
	},
	{
	"epoch": 0.015008576329331046,
	"grad_norm": 0.5201715230941772,
	"learning_rate": 0.00014599467139909136,
	"loss": 1.4731,
	"step": 210
	},
	{
	"epoch": 0.015723270440251572,
	"grad_norm": 0.6637020707130432,
	"learning_rate": 0.0001395225692317151,
	"loss": 1.4816,
	"step": 220
	},
	{
	"epoch": 0.016437964551172097,
	"grad_norm": 0.7978131175041199,
	"learning_rate": 0.00013286522492905717,
	"loss": 1.5038,
	"step": 230
	},
	{
	"epoch": 0.017152658662092625,
	"grad_norm": 0.9858562350273132,
	"learning_rate": 0.00012605507240336626,
	"loss": 1.6433,
	"step": 240
	},
	{
	"epoch": 0.01786735277301315,
	"grad_norm": 1.3631006479263306,
	"learning_rate": 0.00011912529003319345,
	"loss": 1.6774,
	"step": 250
	},
	{
	"epoch": 0.01786735277301315,
	"eval_loss": 0.7708129286766052,
	"eval_runtime": 272.7688,
	"eval_samples_per_second": 21.601,
	"eval_steps_per_second": 5.4,
	"step": 250
	},
	{
	"epoch": 0.018582046883933678,
	"grad_norm": 0.5159099698066711,
	"learning_rate": 0.00011210963902166683,
	"loss": 1.4165,
	"step": 260
	},
	{
	"epoch": 0.019296740994854202,
	"grad_norm": 0.6102124452590942,
	"learning_rate": 0.00010504229891530386,
	"loss": 1.3505,
	"step": 270
	},
	{
	"epoch": 0.020011435105774727,
	"grad_norm": 0.8650922179222107,
	"learning_rate": 9.795770108469618e-05,
	"loss": 1.513,
	"step": 280
	},
	{
	"epoch": 0.020726129216695255,
	"grad_norm": 1.0572717189788818,
	"learning_rate": 9.08903609783332e-05,
	"loss": 1.6069,
	"step": 290
	},
	{
	"epoch": 0.02144082332761578,
	"grad_norm": 1.9492979049682617,
	"learning_rate": 8.387470996680658e-05,
	"loss": 1.6611,
	"step": 300
	},
	{
	"epoch": 0.02144082332761578,
	"eval_loss": 0.7363295555114746,
	"eval_runtime": 271.6884,
	"eval_samples_per_second": 21.687,
	"eval_steps_per_second": 5.422,
	"step": 300
	},
	{
	"epoch": 0.022155517438536308,
	"grad_norm": 0.5079029202461243,
	"learning_rate": 7.694492759663374e-05,
	"loss": 1.3944,
	"step": 310
	},
	{
	"epoch": 0.022870211549456832,
	"grad_norm": 0.6057290434837341,
	"learning_rate": 7.013477507094284e-05,
	"loss": 1.3385,
	"step": 320
	},
	{
	"epoch": 0.02358490566037736,
	"grad_norm": 0.831353485584259,
	"learning_rate": 6.347743076828492e-05,
	"loss": 1.4873,
	"step": 330
	},
	{
	"epoch": 0.024299599771297885,
	"grad_norm": 0.8882721066474915,
	"learning_rate": 5.700532860090863e-05,
	"loss": 1.5831,
	"step": 340
	},
	{
	"epoch": 0.02501429388221841,
	"grad_norm": 1.5294054746627808,
	"learning_rate": 5.075000000000002e-05,
	"loss": 1.5363,
	"step": 350
	},
	{
	"epoch": 0.02501429388221841,
	"eval_loss": 0.7126619219779968,
	"eval_runtime": 271.693,
	"eval_samples_per_second": 21.686,
	"eval_steps_per_second": 5.422,
	"step": 350
	},
	{
	"epoch": 0.025728987993138937,
	"grad_norm": 0.5537640452384949,
	"learning_rate": 4.4741920297719214e-05,
	"loss": 1.3678,
	"step": 360
	},
	{
	"epoch": 0.026443682104059462,
	"grad_norm": 0.552107572555542,
	"learning_rate": 3.901036025444568e-05,
	"loss": 1.383,
	"step": 370
	},
	{
	"epoch": 0.02715837621497999,
	"grad_norm": 0.8851740956306458,
	"learning_rate": 3.358324345457592e-05,
	"loss": 1.4735,
	"step": 380
	},
	{
	"epoch": 0.027873070325900515,
	"grad_norm": 0.9548201560974121,
	"learning_rate": 2.8487010265626928e-05,
	"loss": 1.4667,
	"step": 390
	},
	{
	"epoch": 0.02858776443682104,
	"grad_norm": 1.7331346273422241,
	"learning_rate": 2.3746489023423744e-05,
	"loss": 1.5478,
	"step": 400
	},
	{
	"epoch": 0.02858776443682104,
	"eval_loss": 0.7001160979270935,
	"eval_runtime": 271.7977,
	"eval_samples_per_second": 21.678,
	"eval_steps_per_second": 5.419,
	"step": 400
	},
	{
	"epoch": 0.029302458547741567,
	"grad_norm": 0.5737258791923523,
	"learning_rate": 1.9384775070942844e-05,
	"loss": 1.3097,
	"step": 410
	},
	{
	"epoch": 0.030017152658662092,
	"grad_norm": 0.623741626739502,
	"learning_rate": 1.5423118240122765e-05,
	"loss": 1.2598,
	"step": 420
	},
	{
	"epoch": 0.03073184676958262,
	"grad_norm": 0.7869819402694702,
	"learning_rate": 1.188081932481891e-05,
	"loss": 1.4332,
	"step": 430
	},
	{
	"epoch": 0.031446540880503145,
	"grad_norm": 0.976081371307373,
	"learning_rate": 8.775136049276001e-06,
	"loss": 1.4363,
	"step": 440
	},
	{
	"epoch": 0.03216123499142367,
	"grad_norm": 1.7860438823699951,
	"learning_rate": 6.121198990230306e-06,
	"loss": 1.555,
	"step": 450
	},
	{
	"epoch": 0.03216123499142367,
	"eval_loss": 0.6946857571601868,
	"eval_runtime": 271.7817,
	"eval_samples_per_second": 21.679,
	"eval_steps_per_second": 5.42,
	"step": 450
	},
	{
	"epoch": 0.032875929102344194,
	"grad_norm": 0.5253943204879761,
	"learning_rate": 3.931937862260632e-06,
	"loss": 1.1963,
	"step": 460
	},
	{
	"epoch": 0.033590623213264725,
	"grad_norm": 0.5864456295967102,
	"learning_rate": 2.2180185255187225e-06,
	"loss": 1.3404,
	"step": 470
	},
	{
	"epoch": 0.03430531732418525,
	"grad_norm": 0.8669192790985107,
	"learning_rate": 9.877910227306082e-07,
	"loss": 1.4906,
	"step": 480
	},
	{
	"epoch": 0.035020011435105775,
	"grad_norm": 0.977800726890564,
	"learning_rate": 2.472488986278439e-07,
	"loss": 1.4202,
	"step": 490
	},
	{
	"epoch": 0.0357347055460263,
	"grad_norm": 1.68795907497406,
	"learning_rate": 0.0,
	"loss": 1.6401,
	"step": 500
	},
	{
	"epoch": 0.0357347055460263,
	"eval_loss": 0.6936941742897034,
	"eval_runtime": 273.0352,
	"eval_samples_per_second": 21.58,
	"eval_steps_per_second": 5.395,
	"step": 500
	}
	],
	"logging_steps": 10,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.66313582395392e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}