math_llama3_reset_dpo_100_0_pro0.83 / trainer_state.json

Upload folder using huggingface_hub

efe9069 verified 3 months ago

7.19 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9221902017291066,
	"eval_steps": 500,
	"global_step": 10,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.09221902017291066,
	"grad_norm": 0.3019522428512573,
	"learning_rate": 5e-07,
	"logits/chosen": 0.06190446391701698,
	"logits/rejected": 0.24964340031147003,
	"logps/chosen": -133.9302215576172,
	"logps/ref_chosen": -134.30517578125,
	"logps/ref_rejected": -173.56590270996094,
	"logps/rejected": -173.0438232421875,
	"loss": 0.6939,
	"rewards/accuracies": 0.4453125,
	"rewards/chosen": 0.0037494890857487917,
	"rewards/margins": -0.0014713926939293742,
	"rewards/rejected": 0.005220881663262844,
	"step": 1
	},
	{
	"epoch": 0.1844380403458213,
	"grad_norm": 0.41573917865753174,
	"learning_rate": 4.849231551964771e-07,
	"logits/chosen": 0.1268736720085144,
	"logits/rejected": 0.2718392312526703,
	"logps/chosen": -138.44927978515625,
	"logps/ref_chosen": -138.6737518310547,
	"logps/ref_rejected": -170.81944274902344,
	"logps/rejected": -170.447265625,
	"loss": 0.6939,
	"rewards/accuracies": 0.34375,
	"rewards/chosen": 0.0022446608636528254,
	"rewards/margins": -0.0014773242874071002,
	"rewards/rejected": 0.0037219852674752474,
	"step": 2
	},
	{
	"epoch": 0.276657060518732,
	"grad_norm": 0.3277066946029663,
	"learning_rate": 4.415111107797445e-07,
	"logits/chosen": 0.1311892718076706,
	"logits/rejected": 0.26672443747520447,
	"logps/chosen": -132.68569946289062,
	"logps/ref_chosen": -132.93014526367188,
	"logps/ref_rejected": -165.84507751464844,
	"logps/rejected": -165.56008911132812,
	"loss": 0.6934,
	"rewards/accuracies": 0.4765625,
	"rewards/chosen": 0.0024443636648356915,
	"rewards/margins": -0.00040555946179665625,
	"rewards/rejected": 0.0028499234467744827,
	"step": 3
	},
	{
	"epoch": 0.3688760806916426,
	"grad_norm": 0.41292324662208557,
	"learning_rate": 3.75e-07,
	"logits/chosen": 0.08853106200695038,
	"logits/rejected": 0.23616701364517212,
	"logps/chosen": -137.2488250732422,
	"logps/ref_chosen": -137.4427032470703,
	"logps/ref_rejected": -177.97886657714844,
	"logps/rejected": -177.62860107421875,
	"loss": 0.6939,
	"rewards/accuracies": 0.421875,
	"rewards/chosen": 0.001938714412972331,
	"rewards/margins": -0.0015639358898624778,
	"rewards/rejected": 0.003502650186419487,
	"step": 4
	},
	{
	"epoch": 0.4610951008645533,
	"grad_norm": 0.31257063150405884,
	"learning_rate": 2.934120444167326e-07,
	"logits/chosen": 0.12685821950435638,
	"logits/rejected": 0.23144984245300293,
	"logps/chosen": -131.0224609375,
	"logps/ref_chosen": -131.1569061279297,
	"logps/ref_rejected": -164.11549377441406,
	"logps/rejected": -163.87142944335938,
	"loss": 0.6937,
	"rewards/accuracies": 0.4453125,
	"rewards/chosen": 0.0013444966170936823,
	"rewards/margins": -0.001095889019779861,
	"rewards/rejected": 0.0024403855204582214,
	"step": 5
	},
	{
	"epoch": 0.553314121037464,
	"grad_norm": 0.36982661485671997,
	"learning_rate": 2.065879555832674e-07,
	"logits/chosen": 0.16632890701293945,
	"logits/rejected": 0.27399736642837524,
	"logps/chosen": -130.6382598876953,
	"logps/ref_chosen": -130.83815002441406,
	"logps/ref_rejected": -160.47244262695312,
	"logps/rejected": -160.15945434570312,
	"loss": 0.6937,
	"rewards/accuracies": 0.3671875,
	"rewards/chosen": 0.001998710911720991,
	"rewards/margins": -0.0011310731060802937,
	"rewards/rejected": 0.003129784483462572,
	"step": 6
	},
	{
	"epoch": 0.6455331412103746,
	"grad_norm": 0.27344921231269836,
	"learning_rate": 1.2500000000000005e-07,
	"logits/chosen": 0.11610936373472214,
	"logits/rejected": 0.24762782454490662,
	"logps/chosen": -131.18833923339844,
	"logps/ref_chosen": -131.2764892578125,
	"logps/ref_rejected": -175.32669067382812,
	"logps/rejected": -175.1273193359375,
	"loss": 0.6937,
	"rewards/accuracies": 0.4296875,
	"rewards/chosen": 0.0008815132896415889,
	"rewards/margins": -0.0011121523566544056,
	"rewards/rejected": 0.0019936657045036554,
	"step": 7
	},
	{
	"epoch": 0.7377521613832853,
	"grad_norm": 0.3876575529575348,
	"learning_rate": 5.848888922025552e-08,
	"logits/chosen": 0.0759858638048172,
	"logits/rejected": 0.2628093659877777,
	"logps/chosen": -131.0194549560547,
	"logps/ref_chosen": -131.0524139404297,
	"logps/ref_rejected": -162.96224975585938,
	"logps/rejected": -162.89967346191406,
	"loss": 0.6933,
	"rewards/accuracies": 0.484375,
	"rewards/chosen": 0.00032957797520793974,
	"rewards/margins": -0.00029635371174663305,
	"rewards/rejected": 0.0006259315996430814,
	"step": 8
	},
	{
	"epoch": 0.829971181556196,
	"grad_norm": 0.3749904930591583,
	"learning_rate": 1.507684480352292e-08,
	"logits/chosen": 0.12389053404331207,
	"logits/rejected": 0.27916383743286133,
	"logps/chosen": -136.4560546875,
	"logps/ref_chosen": -136.45892333984375,
	"logps/ref_rejected": -167.01512145996094,
	"logps/rejected": -166.9549560546875,
	"loss": 0.6934,
	"rewards/accuracies": 0.4609375,
	"rewards/chosen": 2.849580778274685e-05,
	"rewards/margins": -0.0005732894060201943,
	"rewards/rejected": 0.0006017851992510259,
	"step": 9
	},
	{
	"epoch": 0.9221902017291066,
	"grad_norm": 0.32978877425193787,
	"learning_rate": 0.0,
	"logits/chosen": 0.1598304808139801,
	"logits/rejected": 0.3594120740890503,
	"logps/chosen": -140.08253479003906,
	"logps/ref_chosen": -140.051513671875,
	"logps/ref_rejected": -173.16290283203125,
	"logps/rejected": -173.14581298828125,
	"loss": 0.6934,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.0003102564951404929,
	"rewards/margins": -0.0004811614053323865,
	"rewards/rejected": 0.00017090495384763926,
	"step": 10
	},
	{
	"epoch": 0.9221902017291066,
	"step": 10,
	"total_flos": 0.0,
	"train_loss": 0.6936326384544372,
	"train_runtime": 616.2156,
	"train_samples_per_second": 2.251,
	"train_steps_per_second": 0.016
	}
	],
	"logging_steps": 1,
	"max_steps": 10,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}