context-aware-splitter-1b-english / checkpoint-29 /trainer_state.json

Upload folder using huggingface_hub

9ab95b7 almost 2 years ago

4.91 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9872340425531915,
	"eval_steps": 5,
	"global_step": 29,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"learning_rate": 2e-05,
	"loss": 1.9849,
	"step": 1
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.0810964107513428,
	"eval_runtime": 6.2278,
	"eval_samples_per_second": 44.96,
	"eval_steps_per_second": 5.62,
	"step": 1
	},
	{
	"epoch": 0.07,
	"learning_rate": 4e-05,
	"loss": 1.8931,
	"step": 2
	},
	{
	"epoch": 0.1,
	"learning_rate": 6e-05,
	"loss": 1.763,
	"step": 3
	},
	{
	"epoch": 0.14,
	"learning_rate": 8e-05,
	"loss": 1.6688,
	"step": 4
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0001,
	"loss": 1.3107,
	"step": 5
	},
	{
	"epoch": 0.17,
	"eval_loss": 1.1991726160049438,
	"eval_runtime": 6.3173,
	"eval_samples_per_second": 44.322,
	"eval_steps_per_second": 5.54,
	"step": 5
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00012,
	"loss": 1.1899,
	"step": 6
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00014,
	"loss": 1.041,
	"step": 7
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00016,
	"loss": 0.9779,
	"step": 8
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00018,
	"loss": 0.7671,
	"step": 9
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0002,
	"loss": 0.6399,
	"step": 10
	},
	{
	"epoch": 0.34,
	"eval_loss": 0.6359391212463379,
	"eval_runtime": 6.2721,
	"eval_samples_per_second": 44.642,
	"eval_steps_per_second": 5.58,
	"step": 10
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001999167799344583,
	"loss": 0.6777,
	"step": 11
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00019966725824941932,
	"loss": 0.492,
	"step": 12
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00019925185024910277,
	"loss": 0.3781,
	"step": 13
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0001986712473391289,
	"loss": 0.4503,
	"step": 14
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00019792641587574212,
	"loss": 0.2779,
	"step": 15
	},
	{
	"epoch": 0.51,
	"eval_loss": 0.28619876503944397,
	"eval_runtime": 6.3023,
	"eval_samples_per_second": 44.428,
	"eval_steps_per_second": 5.554,
	"step": 15
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00019701859555740648,
	"loss": 0.2658,
	"step": 16
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00019594929736144976,
	"loss": 0.2282,
	"step": 17
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.000194720301029191,
	"loss": 0.2149,
	"step": 18
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0001933336521037367,
	"loss": 0.1792,
	"step": 19
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00019179165852537596,
	"loss": 0.1807,
	"step": 20
	},
	{
	"epoch": 0.68,
	"eval_loss": 0.1634436696767807,
	"eval_runtime": 6.2724,
	"eval_samples_per_second": 44.64,
	"eval_steps_per_second": 5.58,
	"step": 20
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.0001900968867902419,
	"loss": 0.1425,
	"step": 21
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.00018825215767863214,
	"loss": 0.1377,
	"step": 22
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.00018626054156009806,
	"loss": 0.1173,
	"step": 23
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00018412535328311814,
	"loss": 0.1338,
	"step": 24
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.00018185014665785936,
	"loss": 0.1256,
	"step": 25
	},
	{
	"epoch": 0.85,
	"eval_loss": 0.1177145466208458,
	"eval_runtime": 6.2558,
	"eval_samples_per_second": 44.758,
	"eval_steps_per_second": 5.595,
	"step": 25
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.00017943870854121124,
	"loss": 0.1234,
	"step": 26
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.0001768950525339362,
	"loss": 0.1164,
	"step": 27
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.000174223412300427,
	"loss": 0.1077,
	"step": 28
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.00017142823452219038,
	"loss": 0.0877,
	"step": 29
	}
	],
	"logging_steps": 1,
	"max_steps": 87,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 1.9186990286320435e+17,
	"trial_name": null,
	"trial_params": null
	}