math_llama3_reset_dpo_100_0_0.83 / trainer_state.json

Upload folder using huggingface_hub

8da0bf5 verified 3 months ago

7.57 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9221902017291066,
	"eval_steps": 500,
	"global_step": 10,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.09221902017291066,
	"grad_norm": 0.49082234501838684,
	"learning_rate": 5e-07,
	"logits/chosen": 0.10258625447750092,
	"logits/rejected": 0.2278534471988678,
	"logps/chosen": -134.6281280517578,
	"logps/ref_chosen": -124.05789947509766,
	"logps/ref_rejected": -154.88946533203125,
	"logps/rejected": -165.65171813964844,
	"loss": 0.5071,
	"rewards/accuracies": 0.609375,
	"rewards/chosen": -0.1057022362947464,
	"rewards/margins": 0.0019202901748940349,
	"rewards/rejected": -0.10762252658605576,
	"sft_loss": 0.47003409266471863,
	"step": 1
	},
	{
	"epoch": 0.1844380403458213,
	"grad_norm": 0.457568883895874,
	"learning_rate": 4.849231551964771e-07,
	"logits/chosen": 0.06952403485774994,
	"logits/rejected": 0.3078790605068207,
	"logps/chosen": -133.73080444335938,
	"logps/ref_chosen": -123.33631896972656,
	"logps/ref_rejected": -168.01480102539062,
	"logps/rejected": -178.5548553466797,
	"loss": 0.5045,
	"rewards/accuracies": 0.6015625,
	"rewards/chosen": -0.10394492000341415,
	"rewards/margins": 0.001455550198443234,
	"rewards/rejected": -0.10540048032999039,
	"sft_loss": 0.4669448435306549,
	"step": 2
	},
	{
	"epoch": 0.276657060518732,
	"grad_norm": 0.3315995931625366,
	"learning_rate": 4.415111107797445e-07,
	"logits/chosen": 0.09175828099250793,
	"logits/rejected": 0.22343572974205017,
	"logps/chosen": -133.59866333007812,
	"logps/ref_chosen": -124.51382446289062,
	"logps/ref_rejected": -155.95262145996094,
	"logps/rejected": -165.19468688964844,
	"loss": 0.5209,
	"rewards/accuracies": 0.6328125,
	"rewards/chosen": -0.0908483937382698,
	"rewards/margins": 0.0015722049865871668,
	"rewards/rejected": -0.09242061525583267,
	"sft_loss": 0.48662421107292175,
	"step": 3
	},
	{
	"epoch": 0.3688760806916426,
	"grad_norm": 0.45795556902885437,
	"learning_rate": 3.75e-07,
	"logits/chosen": 0.0821409523487091,
	"logits/rejected": 0.24085786938667297,
	"logps/chosen": -132.02798461914062,
	"logps/ref_chosen": -123.37024688720703,
	"logps/ref_rejected": -160.60987854003906,
	"logps/rejected": -169.43934631347656,
	"loss": 0.4951,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -0.08657727390527725,
	"rewards/margins": 0.0017174197128042579,
	"rewards/rejected": -0.08829469233751297,
	"sft_loss": 0.45568379759788513,
	"step": 4
	},
	{
	"epoch": 0.4610951008645533,
	"grad_norm": 0.5167257785797119,
	"learning_rate": 2.934120444167326e-07,
	"logits/chosen": 0.1414952129125595,
	"logits/rejected": 0.23190416395664215,
	"logps/chosen": -129.588134765625,
	"logps/ref_chosen": -122.73413848876953,
	"logps/ref_rejected": -143.36245727539062,
	"logps/rejected": -150.25531005859375,
	"loss": 0.4931,
	"rewards/accuracies": 0.484375,
	"rewards/chosen": -0.06853996217250824,
	"rewards/margins": 0.00038862242945469916,
	"rewards/rejected": -0.06892858445644379,
	"sft_loss": 0.4531819820404053,
	"step": 5
	},
	{
	"epoch": 0.553314121037464,
	"grad_norm": 0.7184420824050903,
	"learning_rate": 2.065879555832674e-07,
	"logits/chosen": 0.14788731932640076,
	"logits/rejected": 0.29836705327033997,
	"logps/chosen": -130.35125732421875,
	"logps/ref_chosen": -124.05830383300781,
	"logps/ref_rejected": -150.84971618652344,
	"logps/rejected": -157.2368621826172,
	"loss": 0.4945,
	"rewards/accuracies": 0.5859375,
	"rewards/chosen": -0.0629296600818634,
	"rewards/margins": 0.0009420262649655342,
	"rewards/rejected": -0.06387168914079666,
	"sft_loss": 0.4549233317375183,
	"step": 6
	},
	{
	"epoch": 0.6455331412103746,
	"grad_norm": 0.5709189772605896,
	"learning_rate": 1.2500000000000005e-07,
	"logits/chosen": 0.16531895101070404,
	"logits/rejected": 0.24730782210826874,
	"logps/chosen": -128.30152893066406,
	"logps/ref_chosen": -126.53475189208984,
	"logps/ref_rejected": -153.44937133789062,
	"logps/rejected": -155.2527313232422,
	"loss": 0.4814,
	"rewards/accuracies": 0.5546875,
	"rewards/chosen": -0.017667775973677635,
	"rewards/margins": 0.0003658741479739547,
	"rewards/rejected": -0.018033649772405624,
	"sft_loss": 0.4390857517719269,
	"step": 7
	},
	{
	"epoch": 0.7377521613832853,
	"grad_norm": 0.3785640299320221,
	"learning_rate": 5.848888922025552e-08,
	"logits/chosen": 0.05871865525841713,
	"logits/rejected": 0.2406335175037384,
	"logps/chosen": -120.95695495605469,
	"logps/ref_chosen": -120.56550598144531,
	"logps/ref_rejected": -159.84185791015625,
	"logps/rejected": -160.2302703857422,
	"loss": 0.4663,
	"rewards/accuracies": 0.484375,
	"rewards/chosen": -0.003914527129381895,
	"rewards/margins": -3.0469876946881413e-05,
	"rewards/rejected": -0.0038840575143694878,
	"sft_loss": 0.42091870307922363,
	"step": 8
	},
	{
	"epoch": 0.829971181556196,
	"grad_norm": 0.39315882325172424,
	"learning_rate": 1.507684480352292e-08,
	"logits/chosen": 0.14951348304748535,
	"logits/rejected": 0.21872764825820923,
	"logps/chosen": -124.28387451171875,
	"logps/ref_chosen": -124.57730102539062,
	"logps/ref_rejected": -146.5771484375,
	"logps/rejected": -146.2667236328125,
	"loss": 0.4617,
	"rewards/accuracies": 0.4453125,
	"rewards/chosen": 0.002934188349172473,
	"rewards/margins": -0.00017014730838127434,
	"rewards/rejected": 0.003104335628449917,
	"sft_loss": 0.41538387537002563,
	"step": 9
	},
	{
	"epoch": 0.9221902017291066,
	"grad_norm": 0.4166741371154785,
	"learning_rate": 0.0,
	"logits/chosen": 0.12583141028881073,
	"logits/rejected": 0.25348690152168274,
	"logps/chosen": -124.92916107177734,
	"logps/ref_chosen": -125.44955444335938,
	"logps/ref_rejected": -160.47593688964844,
	"logps/rejected": -159.9407958984375,
	"loss": 0.466,
	"rewards/accuracies": 0.5390625,
	"rewards/chosen": 0.0052038198336958885,
	"rewards/margins": -0.00014770496636629105,
	"rewards/rejected": 0.0053515248000621796,
	"sft_loss": 0.4205903112888336,
	"step": 10
	},
	{
	"epoch": 0.9221902017291066,
	"step": 10,
	"total_flos": 0.0,
	"train_loss": 0.48907283544540403,
	"train_runtime": 630.6427,
	"train_samples_per_second": 2.199,
	"train_steps_per_second": 0.016
	}
	],
	"logging_steps": 1,
	"max_steps": 10,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}