DPO_DSLlama_1000steps_01beta_1e6lr / trainer_state.json

End of training

de077a9 verified about 2 months ago

23.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9646365422396856,
	"eval_steps": 50,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.09823182711198428,
	"grad_norm": 4.67578125,
	"learning_rate": 5e-07,
	"logits/chosen": -1.882656216621399,
	"logits/rejected": -2.0222558975219727,
	"logps/chosen": -629.1900024414062,
	"logps/rejected": -886.4169311523438,
	"loss": 0.6184,
	"rewards/accuracies": 0.39500001072883606,
	"rewards/chosen": 1.2086933851242065,
	"rewards/margins": 0.8173081278800964,
	"rewards/rejected": 0.39138519763946533,
	"step": 50
	},
	{
	"epoch": 0.09823182711198428,
	"eval_logits/chosen": -1.8351056575775146,
	"eval_logits/rejected": -1.898075819015503,
	"eval_logps/chosen": -827.69677734375,
	"eval_logps/rejected": -769.7338256835938,
	"eval_loss": 0.21162064373493195,
	"eval_rewards/accuracies": 0.7060185074806213,
	"eval_rewards/chosen": 4.598723888397217,
	"eval_rewards/margins": 3.7964937686920166,
	"eval_rewards/rejected": 0.802230179309845,
	"eval_runtime": 376.4446,
	"eval_samples_per_second": 1.145,
	"eval_steps_per_second": 0.574,
	"step": 50
	},
	{
	"epoch": 0.19646365422396855,
	"grad_norm": 1.43359375,
	"learning_rate": 1e-06,
	"logits/chosen": -1.9130176305770874,
	"logits/rejected": -2.028027296066284,
	"logps/chosen": -584.5574951171875,
	"logps/rejected": -919.9600219726562,
	"loss": 0.3184,
	"rewards/accuracies": 0.5550000071525574,
	"rewards/chosen": 4.297489166259766,
	"rewards/margins": 5.647652626037598,
	"rewards/rejected": -1.350163459777832,
	"step": 100
	},
	{
	"epoch": 0.19646365422396855,
	"eval_logits/chosen": -1.830168604850769,
	"eval_logits/rejected": -1.8947844505310059,
	"eval_logps/chosen": -808.8148193359375,
	"eval_logps/rejected": -775.2783813476562,
	"eval_loss": 0.20374441146850586,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.487063884735107,
	"eval_rewards/margins": 6.239492416381836,
	"eval_rewards/rejected": 0.24757163226604462,
	"eval_runtime": 376.9374,
	"eval_samples_per_second": 1.143,
	"eval_steps_per_second": 0.573,
	"step": 100
	},
	{
	"epoch": 0.29469548133595286,
	"grad_norm": 0.00019991397857666016,
	"learning_rate": 9.92403876506104e-07,
	"logits/chosen": -1.8983594179153442,
	"logits/rejected": -1.995449185371399,
	"logps/chosen": -539.44873046875,
	"logps/rejected": -860.8162231445312,
	"loss": 0.3339,
	"rewards/accuracies": 0.5274999737739563,
	"rewards/chosen": 4.254204273223877,
	"rewards/margins": 8.191503524780273,
	"rewards/rejected": -3.937298536300659,
	"step": 150
	},
	{
	"epoch": 0.29469548133595286,
	"eval_logits/chosen": -1.8110939264297485,
	"eval_logits/rejected": -1.8730604648590088,
	"eval_logps/chosen": -810.138916015625,
	"eval_logps/rejected": -787.7071533203125,
	"eval_loss": 0.20321600139141083,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.352499961853027,
	"eval_rewards/margins": 7.34998083114624,
	"eval_rewards/rejected": -0.9974803924560547,
	"eval_runtime": 381.3297,
	"eval_samples_per_second": 1.13,
	"eval_steps_per_second": 0.566,
	"step": 150
	},
	{
	"epoch": 0.3929273084479371,
	"grad_norm": 3.673828125,
	"learning_rate": 9.698463103929541e-07,
	"logits/chosen": -1.8827344179153442,
	"logits/rejected": NaN,
	"logps/chosen": -537.2374877929688,
	"logps/rejected": -964.1453857421875,
	"loss": 0.2992,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 4.266866683959961,
	"rewards/margins": 12.264365196228027,
	"rewards/rejected": -7.997498989105225,
	"step": 200
	},
	{
	"epoch": 0.3929273084479371,
	"eval_logits/chosen": -1.8244402408599854,
	"eval_logits/rejected": -1.88623046875,
	"eval_logps/chosen": -812.432861328125,
	"eval_logps/rejected": -809.0966186523438,
	"eval_loss": 0.20289792120456696,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.12615442276001,
	"eval_rewards/margins": 9.262307167053223,
	"eval_rewards/rejected": -3.1361522674560547,
	"eval_runtime": 375.9512,
	"eval_samples_per_second": 1.146,
	"eval_steps_per_second": 0.575,
	"step": 200
	},
	{
	"epoch": 0.4911591355599214,
	"grad_norm": 3.783203125,
	"learning_rate": 9.330127018922193e-07,
	"logits/chosen": -1.8917089700698853,
	"logits/rejected": -2.057480573654175,
	"logps/chosen": -548.9512329101562,
	"logps/rejected": -1068.0450439453125,
	"loss": 0.3062,
	"rewards/accuracies": 0.5600000023841858,
	"rewards/chosen": 4.461262226104736,
	"rewards/margins": 15.397392272949219,
	"rewards/rejected": -10.93613052368164,
	"step": 250
	},
	{
	"epoch": 0.4911591355599214,
	"eval_logits/chosen": -1.8248969316482544,
	"eval_logits/rejected": -1.8831199407577515,
	"eval_logps/chosen": -814.4699096679688,
	"eval_logps/rejected": -816.1018676757812,
	"eval_loss": 0.20285306870937347,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 5.92443323135376,
	"eval_rewards/margins": 9.760541915893555,
	"eval_rewards/rejected": -3.836108684539795,
	"eval_runtime": 382.044,
	"eval_samples_per_second": 1.128,
	"eval_steps_per_second": 0.565,
	"step": 250
	},
	{
	"epoch": 0.5893909626719057,
	"grad_norm": 0.0,
	"learning_rate": 8.83022221559489e-07,
	"logits/chosen": -1.8699413537979126,
	"logits/rejected": -2.034736394882202,
	"logps/chosen": -602.510009765625,
	"logps/rejected": -1128.844970703125,
	"loss": 0.2878,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 4.663626670837402,
	"rewards/margins": 18.277070999145508,
	"rewards/rejected": -13.613446235656738,
	"step": 300
	},
	{
	"epoch": 0.5893909626719057,
	"eval_logits/chosen": -1.8203803300857544,
	"eval_logits/rejected": -1.8756872415542603,
	"eval_logps/chosen": -814.0150756835938,
	"eval_logps/rejected": -814.901611328125,
	"eval_loss": 0.20328794419765472,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 5.968328475952148,
	"eval_rewards/margins": 9.685802459716797,
	"eval_rewards/rejected": -3.7174744606018066,
	"eval_runtime": 377.271,
	"eval_samples_per_second": 1.142,
	"eval_steps_per_second": 0.573,
	"step": 300
	},
	{
	"epoch": 0.68762278978389,
	"grad_norm": 0.0,
	"learning_rate": 8.213938048432696e-07,
	"logits/chosen": -1.8613183498382568,
	"logits/rejected": -2.010195255279541,
	"logps/chosen": -560.01123046875,
	"logps/rejected": -1054.34130859375,
	"loss": 0.2965,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 4.663458347320557,
	"rewards/margins": 17.340160369873047,
	"rewards/rejected": -12.676701545715332,
	"step": 350
	},
	{
	"epoch": 0.68762278978389,
	"eval_logits/chosen": -1.7953965663909912,
	"eval_logits/rejected": -1.8488408327102661,
	"eval_logps/chosen": -810.86572265625,
	"eval_logps/rejected": -815.11572265625,
	"eval_loss": 0.2027529776096344,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.281754016876221,
	"eval_rewards/margins": 10.01964282989502,
	"eval_rewards/rejected": -3.7378885746002197,
	"eval_runtime": 376.3789,
	"eval_samples_per_second": 1.145,
	"eval_steps_per_second": 0.574,
	"step": 350
	},
	{
	"epoch": 0.7858546168958742,
	"grad_norm": 0.0,
	"learning_rate": 7.5e-07,
	"logits/chosen": -1.8544628620147705,
	"logits/rejected": -1.9972070455551147,
	"logps/chosen": -550.8362426757812,
	"logps/rejected": -1053.2850341796875,
	"loss": 0.3138,
	"rewards/accuracies": 0.5475000143051147,
	"rewards/chosen": 4.41979455947876,
	"rewards/margins": 17.060997009277344,
	"rewards/rejected": -12.641203880310059,
	"step": 400
	},
	{
	"epoch": 0.7858546168958742,
	"eval_logits/chosen": -1.7978651523590088,
	"eval_logits/rejected": -1.85009765625,
	"eval_logps/chosen": -816.5775756835938,
	"eval_logps/rejected": -824.407958984375,
	"eval_loss": 0.20284250378608704,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 5.713149070739746,
	"eval_rewards/margins": 10.380072593688965,
	"eval_rewards/rejected": -4.666924953460693,
	"eval_runtime": 376.6783,
	"eval_samples_per_second": 1.144,
	"eval_steps_per_second": 0.573,
	"step": 400
	},
	{
	"epoch": 0.8840864440078585,
	"grad_norm": 0.0,
	"learning_rate": 6.710100716628344e-07,
	"logits/chosen": -1.8560644388198853,
	"logits/rejected": -1.9615429639816284,
	"logps/chosen": -552.2062377929688,
	"logps/rejected": -1005.7550048828125,
	"loss": 0.3279,
	"rewards/accuracies": 0.5350000262260437,
	"rewards/chosen": 4.51744270324707,
	"rewards/margins": 16.83458137512207,
	"rewards/rejected": -12.317138671875,
	"step": 450
	},
	{
	"epoch": 0.8840864440078585,
	"eval_logits/chosen": -1.7807526588439941,
	"eval_logits/rejected": -1.833708643913269,
	"eval_logps/chosen": -808.5011596679688,
	"eval_logps/rejected": -816.6145629882812,
	"eval_loss": 0.20271265506744385,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.52016544342041,
	"eval_rewards/margins": 10.406230926513672,
	"eval_rewards/rejected": -3.8860654830932617,
	"eval_runtime": 376.9509,
	"eval_samples_per_second": 1.143,
	"eval_steps_per_second": 0.573,
	"step": 450
	},
	{
	"epoch": 0.9823182711198428,
	"grad_norm": 0.2420654296875,
	"learning_rate": 5.868240888334652e-07,
	"logits/chosen": -1.8405078649520874,
	"logits/rejected": -1.9955663681030273,
	"logps/chosen": -563.3287353515625,
	"logps/rejected": -1027.811279296875,
	"loss": 0.293,
	"rewards/accuracies": 0.5774999856948853,
	"rewards/chosen": 4.939021587371826,
	"rewards/margins": 16.828310012817383,
	"rewards/rejected": -11.889289855957031,
	"step": 500
	},
	{
	"epoch": 0.9823182711198428,
	"eval_logits/chosen": -1.776493787765503,
	"eval_logits/rejected": -1.8292959928512573,
	"eval_logps/chosen": -803.6666870117188,
	"eval_logps/rejected": -814.2019653320312,
	"eval_loss": 0.20270462334156036,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 7.002051830291748,
	"eval_rewards/margins": 10.646075248718262,
	"eval_rewards/rejected": -3.6440227031707764,
	"eval_runtime": 375.946,
	"eval_samples_per_second": 1.146,
	"eval_steps_per_second": 0.575,
	"step": 500
	},
	{
	"epoch": 1.080550098231827,
	"grad_norm": 0.0,
	"learning_rate": 5e-07,
	"logits/chosen": -1.845117211341858,
	"logits/rejected": NaN,
	"logps/chosen": -590.0087280273438,
	"logps/rejected": -1017.6812744140625,
	"loss": 0.3064,
	"rewards/accuracies": 0.5583333373069763,
	"rewards/chosen": 5.3995184898376465,
	"rewards/margins": 17.224445343017578,
	"rewards/rejected": -11.82492446899414,
	"step": 550
	},
	{
	"epoch": 1.080550098231827,
	"eval_logits/chosen": -1.7842611074447632,
	"eval_logits/rejected": -1.837895154953003,
	"eval_logps/chosen": -803.8020629882812,
	"eval_logps/rejected": -816.7523193359375,
	"eval_loss": 0.20272213220596313,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.988828182220459,
	"eval_rewards/margins": 10.88884162902832,
	"eval_rewards/rejected": -3.900012254714966,
	"eval_runtime": 378.7944,
	"eval_samples_per_second": 1.138,
	"eval_steps_per_second": 0.57,
	"step": 550
	},
	{
	"epoch": 1.1787819253438114,
	"grad_norm": 0.0,
	"learning_rate": 4.131759111665348e-07,
	"logits/chosen": -1.8424999713897705,
	"logits/rejected": -1.9918944835662842,
	"logps/chosen": -574.5387573242188,
	"logps/rejected": -1103.74755859375,
	"loss": 0.2844,
	"rewards/accuracies": 0.5899999737739563,
	"rewards/chosen": 5.156400203704834,
	"rewards/margins": 17.812108993530273,
	"rewards/rejected": -12.655708312988281,
	"step": 600
	},
	{
	"epoch": 1.1787819253438114,
	"eval_logits/chosen": -1.7866662740707397,
	"eval_logits/rejected": -1.8396222591400146,
	"eval_logps/chosen": -805.9617919921875,
	"eval_logps/rejected": -820.7268676757812,
	"eval_loss": 0.202733114361763,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.773044586181641,
	"eval_rewards/margins": 11.070393562316895,
	"eval_rewards/rejected": -4.2973504066467285,
	"eval_runtime": 375.1497,
	"eval_samples_per_second": 1.149,
	"eval_steps_per_second": 0.576,
	"step": 600
	},
	{
	"epoch": 1.2770137524557956,
	"grad_norm": 0.0,
	"learning_rate": 3.2898992833716563e-07,
	"logits/chosen": -1.8421484231948853,
	"logits/rejected": -1.972021460533142,
	"logps/chosen": -555.9462280273438,
	"logps/rejected": -1028.8499755859375,
	"loss": 0.2972,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 5.088903903961182,
	"rewards/margins": 17.384765625,
	"rewards/rejected": -12.295862197875977,
	"step": 650
	},
	{
	"epoch": 1.2770137524557956,
	"eval_logits/chosen": -1.7830674648284912,
	"eval_logits/rejected": -1.8358244895935059,
	"eval_logps/chosen": -804.9791870117188,
	"eval_logps/rejected": -819.3784790039062,
	"eval_loss": 0.20274707674980164,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.87298583984375,
	"eval_rewards/margins": 11.037016868591309,
	"eval_rewards/rejected": -4.164031505584717,
	"eval_runtime": 375.3471,
	"eval_samples_per_second": 1.148,
	"eval_steps_per_second": 0.575,
	"step": 650
	},
	{
	"epoch": 1.37524557956778,
	"grad_norm": 0.0,
	"learning_rate": 2.500000000000001e-07,
	"logits/chosen": -1.8376269340515137,
	"logits/rejected": -1.9944921731948853,
	"logps/chosen": -595.8699951171875,
	"logps/rejected": -1099.8599853515625,
	"loss": 0.293,
	"rewards/accuracies": 0.5774999856948853,
	"rewards/chosen": 5.341933727264404,
	"rewards/margins": 18.64950180053711,
	"rewards/rejected": -13.307567596435547,
	"step": 700
	},
	{
	"epoch": 1.37524557956778,
	"eval_logits/chosen": -1.7823712825775146,
	"eval_logits/rejected": -1.8346353769302368,
	"eval_logps/chosen": -804.67822265625,
	"eval_logps/rejected": -819.5619506835938,
	"eval_loss": 0.20272904634475708,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.901559829711914,
	"eval_rewards/margins": 11.084138870239258,
	"eval_rewards/rejected": -4.1825785636901855,
	"eval_runtime": 377.6355,
	"eval_samples_per_second": 1.141,
	"eval_steps_per_second": 0.572,
	"step": 700
	},
	{
	"epoch": 1.4734774066797642,
	"grad_norm": 0.0,
	"learning_rate": 1.7860619515673032e-07,
	"logits/chosen": -1.8395702838897705,
	"logits/rejected": -1.969667911529541,
	"logps/chosen": -551.7537231445312,
	"logps/rejected": -1085.00537109375,
	"loss": 0.3,
	"rewards/accuracies": 0.5674999952316284,
	"rewards/chosen": 5.192094326019287,
	"rewards/margins": 18.057546615600586,
	"rewards/rejected": -12.86545181274414,
	"step": 750
	},
	{
	"epoch": 1.4734774066797642,
	"eval_logits/chosen": -1.7821271419525146,
	"eval_logits/rejected": -1.8342194557189941,
	"eval_logps/chosen": -804.69677734375,
	"eval_logps/rejected": -819.6371459960938,
	"eval_loss": 0.20272937417030334,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.901213645935059,
	"eval_rewards/margins": 11.090865135192871,
	"eval_rewards/rejected": -4.1896538734436035,
	"eval_runtime": 376.5424,
	"eval_samples_per_second": 1.145,
	"eval_steps_per_second": 0.574,
	"step": 750
	},
	{
	"epoch": 1.5717092337917484,
	"grad_norm": 0.180908203125,
	"learning_rate": 1.1697777844051104e-07,
	"logits/chosen": -1.8340917825698853,
	"logits/rejected": -1.9704101085662842,
	"logps/chosen": -571.333740234375,
	"logps/rejected": -1077.0687255859375,
	"loss": 0.2912,
	"rewards/accuracies": 0.5799999833106995,
	"rewards/chosen": 5.163873195648193,
	"rewards/margins": 17.815139770507812,
	"rewards/rejected": -12.651267051696777,
	"step": 800
	},
	{
	"epoch": 1.5717092337917484,
	"eval_logits/chosen": -1.7813811302185059,
	"eval_logits/rejected": -1.8334101438522339,
	"eval_logps/chosen": -804.3715209960938,
	"eval_logps/rejected": -819.3778686523438,
	"eval_loss": 0.202724888920784,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.932766437530518,
	"eval_rewards/margins": 11.097650527954102,
	"eval_rewards/rejected": -4.1648850440979,
	"eval_runtime": 375.1719,
	"eval_samples_per_second": 1.149,
	"eval_steps_per_second": 0.576,
	"step": 800
	},
	{
	"epoch": 1.6699410609037328,
	"grad_norm": 0.05718994140625,
	"learning_rate": 6.698729810778064e-08,
	"logits/chosen": -1.8348926305770874,
	"logits/rejected": -1.9697363376617432,
	"logps/chosen": -583.3875122070312,
	"logps/rejected": -1078.706298828125,
	"loss": 0.2827,
	"rewards/accuracies": 0.5924999713897705,
	"rewards/chosen": 5.512423515319824,
	"rewards/margins": 18.3432674407959,
	"rewards/rejected": -12.83084487915039,
	"step": 850
	},
	{
	"epoch": 1.6699410609037328,
	"eval_logits/chosen": -1.7811685800552368,
	"eval_logits/rejected": -1.8332293033599854,
	"eval_logps/chosen": -804.3367919921875,
	"eval_logps/rejected": -819.3900756835938,
	"eval_loss": 0.20272420346736908,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.935370445251465,
	"eval_rewards/margins": 11.101933479309082,
	"eval_rewards/rejected": -4.166563034057617,
	"eval_runtime": 376.8901,
	"eval_samples_per_second": 1.144,
	"eval_steps_per_second": 0.573,
	"step": 850
	},
	{
	"epoch": 1.768172888015717,
	"grad_norm": 0.0,
	"learning_rate": 3.015368960704584e-08,
	"logits/chosen": -1.837314486503601,
	"logits/rejected": -1.9836230278015137,
	"logps/chosen": -580.686279296875,
	"logps/rejected": -1060.800048828125,
	"loss": 0.2912,
	"rewards/accuracies": 0.5799999833106995,
	"rewards/chosen": 5.313009738922119,
	"rewards/margins": 17.764554977416992,
	"rewards/rejected": -12.451545715332031,
	"step": 900
	},
	{
	"epoch": 1.768172888015717,
	"eval_logits/chosen": -1.781037449836731,
	"eval_logits/rejected": -1.8330711126327515,
	"eval_logps/chosen": -804.3738403320312,
	"eval_logps/rejected": -819.3929443359375,
	"eval_loss": 0.20272405445575714,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.9330267906188965,
	"eval_rewards/margins": 11.098607063293457,
	"eval_rewards/rejected": -4.165579795837402,
	"eval_runtime": 376.8443,
	"eval_samples_per_second": 1.144,
	"eval_steps_per_second": 0.573,
	"step": 900
	},
	{
	"epoch": 1.8664047151277012,
	"grad_norm": 0.33740234375,
	"learning_rate": 7.59612349389599e-09,
	"logits/chosen": -1.8312207460403442,
	"logits/rejected": -1.980654239654541,
	"logps/chosen": -517.9837646484375,
	"logps/rejected": -973.3825073242188,
	"loss": 0.3137,
	"rewards/accuracies": 0.5475000143051147,
	"rewards/chosen": 5.046032905578613,
	"rewards/margins": 17.248321533203125,
	"rewards/rejected": -12.202287673950195,
	"step": 950
	},
	{
	"epoch": 1.8664047151277012,
	"eval_logits/chosen": -1.7810285091400146,
	"eval_logits/rejected": -1.833039402961731,
	"eval_logps/chosen": -804.3425903320312,
	"eval_logps/rejected": -819.4027709960938,
	"eval_loss": 0.20272395014762878,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.937338829040527,
	"eval_rewards/margins": 11.10338020324707,
	"eval_rewards/rejected": -4.166042327880859,
	"eval_runtime": 376.6269,
	"eval_samples_per_second": 1.144,
	"eval_steps_per_second": 0.574,
	"step": 950
	},
	{
	"epoch": 1.9646365422396856,
	"grad_norm": 0.0003845691680908203,
	"learning_rate": 0.0,
	"logits/chosen": -1.833642601966858,
	"logits/rejected": -1.9818944931030273,
	"logps/chosen": -566.6400146484375,
	"logps/rejected": -1054.8111572265625,
	"loss": 0.2922,
	"rewards/accuracies": 0.5799999833106995,
	"rewards/chosen": 4.9063005447387695,
	"rewards/margins": 17.938020706176758,
	"rewards/rejected": -13.031720161437988,
	"step": 1000
	},
	{
	"epoch": 1.9646365422396856,
	"eval_logits/chosen": -1.7809877395629883,
	"eval_logits/rejected": -1.8330711126327515,
	"eval_logps/chosen": -804.3726806640625,
	"eval_logps/rejected": -819.4230346679688,
	"eval_loss": 0.20272374153137207,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 6.933157444000244,
	"eval_rewards/margins": 11.101253509521484,
	"eval_rewards/rejected": -4.168097019195557,
	"eval_runtime": 376.4188,
	"eval_samples_per_second": 1.145,
	"eval_steps_per_second": 0.574,
	"step": 1000
	},
	{
	"epoch": 1.9646365422396856,
	"step": 1000,
	"total_flos": 0.0,
	"train_loss": 0.31735729217529296,
	"train_runtime": 210247.589,
	"train_samples_per_second": 0.038,
	"train_steps_per_second": 0.005
	}
	],
	"logging_steps": 50,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}