fokyoum9
/

DPO_complete

Model card Files Files and versions Community

DPO_complete / trainer_state.json

fokyoum9's picture

Initial commit

50118f6 verified 10 months ago

history blame contribute delete

3.03 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9997984277363435,
	"eval_steps": 155,
	"global_step": 310,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.49989921386817177,
	"grad_norm": 47.42934799194336,
	"learning_rate": 2.6360544217687075e-07,
	"logits/chosen": 0.009249088354408741,
	"logits/rejected": 0.021735819056630135,
	"logps/chosen": -528.992431640625,
	"logps/rejected": -473.0443115234375,
	"loss": 0.6567,
	"rewards/accuracies": 0.5882056355476379,
	"rewards/chosen": 0.4344692528247833,
	"rewards/margins": 0.12380775809288025,
	"rewards/rejected": 0.31066152453422546,
	"step": 155
	},
	{
	"epoch": 0.49989921386817177,
	"eval_logits/chosen": 0.00047391001135110855,
	"eval_logits/rejected": 0.010226032696664333,
	"eval_logps/chosen": -530.94873046875,
	"eval_logps/rejected": -473.15032958984375,
	"eval_loss": 0.6275001168251038,
	"eval_rewards/accuracies": 0.6649543642997742,
	"eval_rewards/chosen": 0.6048734188079834,
	"eval_rewards/margins": 0.22375237941741943,
	"eval_rewards/rejected": 0.3811211884021759,
	"eval_runtime": 1606.8252,
	"eval_samples_per_second": 10.897,
	"eval_steps_per_second": 0.273,
	"step": 155
	},
	{
	"epoch": 0.9997984277363435,
	"grad_norm": 14.372474670410156,
	"learning_rate": 0.0,
	"logits/chosen": 0.003721719840541482,
	"logits/rejected": 0.0137369679287076,
	"logps/chosen": -528.1862182617188,
	"logps/rejected": -464.98052978515625,
	"loss": 0.614,
	"rewards/accuracies": 0.66401207447052,
	"rewards/chosen": 0.6172089576721191,
	"rewards/margins": 0.2706223726272583,
	"rewards/rejected": 0.34658658504486084,
	"step": 310
	},
	{
	"epoch": 0.9997984277363435,
	"eval_logits/chosen": -0.0003721735847648233,
	"eval_logits/rejected": 0.009112725965678692,
	"eval_logps/chosen": -530.7772827148438,
	"eval_logps/rejected": -473.510009765625,
	"eval_loss": 0.6093795895576477,
	"eval_rewards/accuracies": 0.6797945499420166,
	"eval_rewards/chosen": 0.6220178604125977,
	"eval_rewards/margins": 0.27686768770217896,
	"eval_rewards/rejected": 0.3451501727104187,
	"eval_runtime": 1606.0288,
	"eval_samples_per_second": 10.903,
	"eval_steps_per_second": 0.273,
	"step": 310
	}
	],
	"logging_steps": 155,
	"max_steps": 310,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 155,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}