Training in progress, step 350, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +753 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e89b67e25ff5149f8efc732ee9a0058d81c8cc5f34cfd4e49fb793320709e62f
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1584ae76418d0ad06d3a0c687bd6381d31c844d9d4c2bdcc22249561ad11caf
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c97204b0b27d87ebc2475c24d3687ba410b24996f874ce8c920278b1e768387d
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ead3318824789c653c56b77c6d4d0aeb208de2dae7abc1143a2c723725a45f
 size 341314644

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:758843d0c6c58ce132f2714b31cc2527e7f3cfcb04752d8d539e5d47664f0974
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe5027b0a60817e9531c9bc52773bc5fa697b42d7d4016dd1b080e3c99c4d80a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.012537743832997252,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4507,6 +4507,756 @@
       "rewards/margins": 5.479434967041016,
       "rewards/rejected": -19.215713500976562,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -4521,7 +5271,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01462736780516346,
   "eval_steps": 500,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 5.479434967041016,
       "rewards/rejected": -19.215713500976562,
       "step": 300
+    },
+    {
+      "epoch": 0.012579536312440576,
+      "grad_norm": 491.7016296386719,
+      "learning_rate": 1.2049324765671749e-05,
+      "logits/chosen": -3.287421703338623,
+      "logits/rejected": -3.370901584625244,
+      "logps/chosen": -385.67474365234375,
+      "logps/rejected": -419.36627197265625,
+      "loss": 3.6965,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -13.180034637451172,
+      "rewards/margins": 4.595239639282227,
+      "rewards/rejected": -17.7752742767334,
+      "step": 301
+    },
+    {
+      "epoch": 0.0126213287918839,
+      "grad_norm": 263.8130187988281,
+      "learning_rate": 1.1604330125525079e-05,
+      "logits/chosen": -3.4727532863616943,
+      "logits/rejected": -3.349696159362793,
+      "logps/chosen": -267.19024658203125,
+      "logps/rejected": -271.441650390625,
+      "loss": 1.8457,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.394519805908203,
+      "rewards/margins": 6.870561599731445,
+      "rewards/rejected": -16.26508140563965,
+      "step": 302
+    },
+    {
+      "epoch": 0.012663121271327224,
+      "grad_norm": 16.329265594482422,
+      "learning_rate": 1.11652112689164e-05,
+      "logits/chosen": -2.86873459815979,
+      "logits/rejected": -2.7891271114349365,
+      "logps/chosen": -356.82208251953125,
+      "logps/rejected": -489.48175048828125,
+      "loss": 0.1476,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -17.0943660736084,
+      "rewards/margins": 12.185678482055664,
+      "rewards/rejected": -29.280044555664062,
+      "step": 303
+    },
+    {
+      "epoch": 0.012704913750770548,
+      "grad_norm": 155.79867553710938,
+      "learning_rate": 1.0732160807889211e-05,
+      "logits/chosen": -3.2120351791381836,
+      "logits/rejected": -3.2581393718719482,
+      "logps/chosen": -293.7206115722656,
+      "logps/rejected": -309.9013366699219,
+      "loss": 0.5898,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.185495376586914,
+      "rewards/margins": 9.083627700805664,
+      "rewards/rejected": -18.269123077392578,
+      "step": 304
+    },
+    {
+      "epoch": 0.012746706230213872,
+      "grad_norm": 79.4925765991211,
+      "learning_rate": 1.0305368692688174e-05,
+      "logits/chosen": -3.025317668914795,
+      "logits/rejected": -3.0122780799865723,
+      "logps/chosen": -349.7897644042969,
+      "logps/rejected": -384.69464111328125,
+      "loss": 0.4964,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -14.22126293182373,
+      "rewards/margins": 6.923146724700928,
+      "rewards/rejected": -21.1444091796875,
+      "step": 305
+    },
+    {
+      "epoch": 0.012788498709657196,
+      "grad_norm": 273.6874694824219,
+      "learning_rate": 9.88502212844063e-06,
+      "logits/chosen": -2.805180311203003,
+      "logits/rejected": -2.683415412902832,
+      "logps/chosen": -467.9751892089844,
+      "logps/rejected": -377.84820556640625,
+      "loss": 1.7734,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -19.00494956970215,
+      "rewards/margins": 8.104949951171875,
+      "rewards/rejected": -27.10989761352539,
+      "step": 306
+    },
+    {
+      "epoch": 0.01283029118910052,
+      "grad_norm": 4.262240886688232,
+      "learning_rate": 9.471305493042243e-06,
+      "logits/chosen": -3.1370010375976562,
+      "logits/rejected": -3.1797690391540527,
+      "logps/chosen": -386.4381103515625,
+      "logps/rejected": -456.6276550292969,
+      "loss": 0.0166,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -15.7275972366333,
+      "rewards/margins": 8.137879371643066,
+      "rewards/rejected": -23.865474700927734,
+      "step": 307
+    },
+    {
+      "epoch": 0.012872083668543845,
+      "grad_norm": 198.5441436767578,
+      "learning_rate": 9.064400256282757e-06,
+      "logits/chosen": -3.035953998565674,
+      "logits/rejected": -3.114983320236206,
+      "logps/chosen": -304.5688171386719,
+      "logps/rejected": -407.5628356933594,
+      "loss": 0.2622,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -10.267864227294922,
+      "rewards/margins": 10.81235122680664,
+      "rewards/rejected": -21.080215454101562,
+      "step": 308
+    },
+    {
+      "epoch": 0.012913876147987169,
+      "grad_norm": 402.1909484863281,
+      "learning_rate": 8.664484900247363e-06,
+      "logits/chosen": -3.2249553203582764,
+      "logits/rejected": -3.268974781036377,
+      "logps/chosen": -228.5661163330078,
+      "logps/rejected": -353.9108581542969,
+      "loss": 7.305,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.834470748901367,
+      "rewards/margins": 7.000467777252197,
+      "rewards/rejected": -16.834938049316406,
+      "step": 309
+    },
+    {
+      "epoch": 0.012955668627430493,
+      "grad_norm": 18.060256958007812,
+      "learning_rate": 8.271734841028553e-06,
+      "logits/chosen": -2.8380823135375977,
+      "logits/rejected": -2.7715110778808594,
+      "logps/chosen": -249.33860778808594,
+      "logps/rejected": -301.26629638671875,
+      "loss": 0.1223,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -11.448515892028809,
+      "rewards/margins": 8.624532699584961,
+      "rewards/rejected": -20.073047637939453,
+      "step": 310
+    },
+    {
+      "epoch": 0.012997461106873819,
+      "grad_norm": 0.21917754411697388,
+      "learning_rate": 7.886322351782783e-06,
+      "logits/chosen": -3.0230164527893066,
+      "logits/rejected": -2.8923580646514893,
+      "logps/chosen": -209.99588012695312,
+      "logps/rejected": -348.78564453125,
+      "loss": 0.0003,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -7.846118450164795,
+      "rewards/margins": 12.90873908996582,
+      "rewards/rejected": -20.75485610961914,
+      "step": 311
+    },
+    {
+      "epoch": 0.013039253586317143,
+      "grad_norm": 80.00068664550781,
+      "learning_rate": 7.508416487165862e-06,
+      "logits/chosen": -2.6761441230773926,
+      "logits/rejected": -2.6984710693359375,
+      "logps/chosen": -256.08441162109375,
+      "logps/rejected": -284.93353271484375,
+      "loss": 1.1904,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -8.947043418884277,
+      "rewards/margins": 7.310464382171631,
+      "rewards/rejected": -16.25750732421875,
+      "step": 312
+    },
+    {
+      "epoch": 0.013081046065760467,
+      "grad_norm": 18.157445907592773,
+      "learning_rate": 7.138183009179922e-06,
+      "logits/chosen": -2.7042577266693115,
+      "logits/rejected": -2.4380972385406494,
+      "logps/chosen": -330.15972900390625,
+      "logps/rejected": -362.9132385253906,
+      "loss": 0.0393,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -11.075960159301758,
+      "rewards/margins": 10.102376937866211,
+      "rewards/rejected": -21.17833709716797,
+      "step": 313
+    },
+    {
+      "epoch": 0.013122838545203791,
+      "grad_norm": 136.31207275390625,
+      "learning_rate": 6.775784314464717e-06,
+      "logits/chosen": -3.101740598678589,
+      "logits/rejected": -3.0880491733551025,
+      "logps/chosen": -280.362548828125,
+      "logps/rejected": -307.99456787109375,
+      "loss": 1.9468,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.248235702514648,
+      "rewards/margins": 5.009317398071289,
+      "rewards/rejected": -14.257552146911621,
+      "step": 314
+    },
+    {
+      "epoch": 0.013164631024647116,
+      "grad_norm": 39.999839782714844,
+      "learning_rate": 6.421379363065142e-06,
+      "logits/chosen": -2.7587459087371826,
+      "logits/rejected": -2.930101156234741,
+      "logps/chosen": -398.45050048828125,
+      "logps/rejected": -447.44342041015625,
+      "loss": 0.2493,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -10.370040893554688,
+      "rewards/margins": 9.242597579956055,
+      "rewards/rejected": -19.612638473510742,
+      "step": 315
+    },
+    {
+      "epoch": 0.01320642350409044,
+      "grad_norm": 1.3460954427719116,
+      "learning_rate": 6.075123608706093e-06,
+      "logits/chosen": -3.2334988117218018,
+      "logits/rejected": -3.234659194946289,
+      "logps/chosen": -251.70684814453125,
+      "logps/rejected": -263.55120849609375,
+      "loss": 0.0042,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -5.089323043823242,
+      "rewards/margins": 12.2367582321167,
+      "rewards/rejected": -17.326082229614258,
+      "step": 316
+    },
+    {
+      "epoch": 0.013248215983533764,
+      "grad_norm": 218.19578552246094,
+      "learning_rate": 5.737168930605272e-06,
+      "logits/chosen": -3.100266933441162,
+      "logits/rejected": -3.374037027359009,
+      "logps/chosen": -235.7011260986328,
+      "logps/rejected": -234.38894653320312,
+      "loss": 1.9371,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -4.014512538909912,
+      "rewards/margins": 6.0716729164123535,
+      "rewards/rejected": -10.086185455322266,
+      "step": 317
+    },
+    {
+      "epoch": 0.013290008462977088,
+      "grad_norm": 220.26162719726562,
+      "learning_rate": 5.4076635668540075e-06,
+      "logits/chosen": -3.213263988494873,
+      "logits/rejected": -3.115088701248169,
+      "logps/chosen": -344.0352783203125,
+      "logps/rejected": -303.6358337402344,
+      "loss": 5.0835,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -7.557135105133057,
+      "rewards/margins": 5.570637226104736,
+      "rewards/rejected": -13.127771377563477,
+      "step": 318
+    },
+    {
+      "epoch": 0.013331800942420412,
+      "grad_norm": 25.128589630126953,
+      "learning_rate": 5.086752049395094e-06,
+      "logits/chosen": -3.3187851905822754,
+      "logits/rejected": -3.2173070907592773,
+      "logps/chosen": -352.69342041015625,
+      "logps/rejected": -370.28448486328125,
+      "loss": 0.1174,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -10.892807006835938,
+      "rewards/margins": 8.983996391296387,
+      "rewards/rejected": -19.876802444458008,
+      "step": 319
+    },
+    {
+      "epoch": 0.013373593421863736,
+      "grad_norm": 28.23332977294922,
+      "learning_rate": 4.7745751406263165e-06,
+      "logits/chosen": -3.117103338241577,
+      "logits/rejected": -3.0183892250061035,
+      "logps/chosen": -183.39730834960938,
+      "logps/rejected": -257.51708984375,
+      "loss": 0.5492,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -6.208366870880127,
+      "rewards/margins": 6.4307146072387695,
+      "rewards/rejected": -12.639081001281738,
+      "step": 320
+    },
+    {
+      "epoch": 0.01341538590130706,
+      "grad_norm": 0.29758647084236145,
+      "learning_rate": 4.4712697716574e-06,
+      "logits/chosen": -3.1782500743865967,
+      "logits/rejected": -3.3849024772644043,
+      "logps/chosen": -313.7176208496094,
+      "logps/rejected": -310.43206787109375,
+      "loss": 0.3477,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -5.478094100952148,
+      "rewards/margins": 10.825754165649414,
+      "rewards/rejected": -16.303848266601562,
+      "step": 321
+    },
+    {
+      "epoch": 0.013457178380750385,
+      "grad_norm": 42.00798797607422,
+      "learning_rate": 4.176968982247514e-06,
+      "logits/chosen": -3.189098596572876,
+      "logits/rejected": -3.191659450531006,
+      "logps/chosen": -185.61148071289062,
+      "logps/rejected": -265.11590576171875,
+      "loss": 0.5371,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -4.42623233795166,
+      "rewards/margins": 8.69643783569336,
+      "rewards/rejected": -13.12267017364502,
+      "step": 322
+    },
+    {
+      "epoch": 0.013498970860193709,
+      "grad_norm": 25.100051879882812,
+      "learning_rate": 3.891801862449629e-06,
+      "logits/chosen": -2.929891586303711,
+      "logits/rejected": -2.9269561767578125,
+      "logps/chosen": -248.1248779296875,
+      "logps/rejected": -295.5849914550781,
+      "loss": 0.1219,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -7.96785306930542,
+      "rewards/margins": 8.257719039916992,
+      "rewards/rejected": -16.22557258605957,
+      "step": 323
+    },
+    {
+      "epoch": 0.013540763339637033,
+      "grad_norm": 340.0687255859375,
+      "learning_rate": 3.6158934959873353e-06,
+      "logits/chosen": -2.5700321197509766,
+      "logits/rejected": -2.4596493244171143,
+      "logps/chosen": -381.09490966796875,
+      "logps/rejected": -405.3451843261719,
+      "loss": 4.0703,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -10.214908599853516,
+      "rewards/margins": 6.979231834411621,
+      "rewards/rejected": -17.19413948059082,
+      "step": 324
+    },
+    {
+      "epoch": 0.013582555819080357,
+      "grad_norm": 200.0123291015625,
+      "learning_rate": 3.3493649053890326e-06,
+      "logits/chosen": -3.020430326461792,
+      "logits/rejected": -3.0444626808166504,
+      "logps/chosen": -332.80682373046875,
+      "logps/rejected": -316.76641845703125,
+      "loss": 0.9297,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -13.117790222167969,
+      "rewards/margins": 4.298157691955566,
+      "rewards/rejected": -17.41594886779785,
+      "step": 325
+    },
+    {
+      "epoch": 0.013624348298523681,
+      "grad_norm": 25.32855224609375,
+      "learning_rate": 3.092332998903416e-06,
+      "logits/chosen": -2.877979278564453,
+      "logits/rejected": -2.9653923511505127,
+      "logps/chosen": -297.63922119140625,
+      "logps/rejected": -353.91668701171875,
+      "loss": 0.2341,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -9.10722541809082,
+      "rewards/margins": 7.169858932495117,
+      "rewards/rejected": -16.277084350585938,
+      "step": 326
+    },
+    {
+      "epoch": 0.013666140777967005,
+      "grad_norm": 126.90220642089844,
+      "learning_rate": 2.8449105192196316e-06,
+      "logits/chosen": -3.0049197673797607,
+      "logits/rejected": -3.0737524032592773,
+      "logps/chosen": -148.86209106445312,
+      "logps/rejected": -199.28346252441406,
+      "loss": 1.2454,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.6697428226470947,
+      "rewards/margins": 6.129971981048584,
+      "rewards/rejected": -8.799715042114258,
+      "step": 327
+    },
+    {
+      "epoch": 0.01370793325741033,
+      "grad_norm": 118.86524963378906,
+      "learning_rate": 2.6072059940146775e-06,
+      "logits/chosen": -2.9463143348693848,
+      "logits/rejected": -2.917930841445923,
+      "logps/chosen": -245.6232452392578,
+      "logps/rejected": -331.4186096191406,
+      "loss": 0.3829,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -6.183173179626465,
+      "rewards/margins": 9.998785972595215,
+      "rewards/rejected": -16.181961059570312,
+      "step": 328
+    },
+    {
+      "epoch": 0.013749725736853654,
+      "grad_norm": 16.672832489013672,
+      "learning_rate": 2.379323688349516e-06,
+      "logits/chosen": -2.9064996242523193,
+      "logits/rejected": -2.991321563720703,
+      "logps/chosen": -241.98927307128906,
+      "logps/rejected": -274.4370422363281,
+      "loss": 0.1581,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -5.3424072265625,
+      "rewards/margins": 11.008346557617188,
+      "rewards/rejected": -16.350753784179688,
+      "step": 329
+    },
+    {
+      "epoch": 0.013791518216296978,
+      "grad_norm": 46.51081848144531,
+      "learning_rate": 2.1613635589349756e-06,
+      "logits/chosen": -3.2066824436187744,
+      "logits/rejected": -3.1287407875061035,
+      "logps/chosen": -351.7823791503906,
+      "logps/rejected": -451.6476135253906,
+      "loss": 0.3389,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -8.472803115844727,
+      "rewards/margins": 10.613195419311523,
+      "rewards/rejected": -19.086000442504883,
+      "step": 330
+    },
+    {
+      "epoch": 0.013833310695740302,
+      "grad_norm": 332.8823547363281,
+      "learning_rate": 1.95342121028749e-06,
+      "logits/chosen": -2.901820182800293,
+      "logits/rejected": -2.879037618637085,
+      "logps/chosen": -323.36968994140625,
+      "logps/rejected": -369.71441650390625,
+      "loss": 2.4841,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.933320045471191,
+      "rewards/margins": 5.173391342163086,
+      "rewards/rejected": -15.106710433959961,
+      "step": 331
+    },
+    {
+      "epoch": 0.013875103175183626,
+      "grad_norm": 42.102596282958984,
+      "learning_rate": 1.7555878527937164e-06,
+      "logits/chosen": -3.0418646335601807,
+      "logits/rejected": -2.8981995582580566,
+      "logps/chosen": -288.25274658203125,
+      "logps/rejected": -369.7027587890625,
+      "loss": 0.2115,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -7.725009441375732,
+      "rewards/margins": 9.557852745056152,
+      "rewards/rejected": -17.282861709594727,
+      "step": 332
+    },
+    {
+      "epoch": 0.01391689565462695,
+      "grad_norm": 20.132675170898438,
+      "learning_rate": 1.5679502627027136e-06,
+      "logits/chosen": -2.849980354309082,
+      "logits/rejected": -2.8271608352661133,
+      "logps/chosen": -297.3507080078125,
+      "logps/rejected": -400.2951965332031,
+      "loss": 0.0436,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -7.2351155281066895,
+      "rewards/margins": 10.109538078308105,
+      "rewards/rejected": -17.344654083251953,
+      "step": 333
+    },
+    {
+      "epoch": 0.013958688134070274,
+      "grad_norm": 4.88221549987793,
+      "learning_rate": 1.3905907440629752e-06,
+      "logits/chosen": -2.9725608825683594,
+      "logits/rejected": -3.0983333587646484,
+      "logps/chosen": -230.85008239746094,
+      "logps/rejected": -330.5326843261719,
+      "loss": 0.0201,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -5.605626106262207,
+      "rewards/margins": 11.81916618347168,
+      "rewards/rejected": -17.424793243408203,
+      "step": 334
+    },
+    {
+      "epoch": 0.014000480613513598,
+      "grad_norm": 156.0076904296875,
+      "learning_rate": 1.2235870926211619e-06,
+      "logits/chosen": -2.927966833114624,
+      "logits/rejected": -2.847036123275757,
+      "logps/chosen": -438.1847839355469,
+      "logps/rejected": -413.7171936035156,
+      "loss": 1.4457,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -14.443679809570312,
+      "rewards/margins": 6.269698619842529,
+      "rewards/rejected": -20.71337890625,
+      "step": 335
+    },
+    {
+      "epoch": 0.014042273092956923,
+      "grad_norm": 217.4608612060547,
+      "learning_rate": 1.067012561698319e-06,
+      "logits/chosen": -2.8868706226348877,
+      "logits/rejected": -2.8142154216766357,
+      "logps/chosen": -215.70008850097656,
+      "logps/rejected": -326.85589599609375,
+      "loss": 1.4518,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -5.566734313964844,
+      "rewards/margins": 8.456573486328125,
+      "rewards/rejected": -14.023307800292969,
+      "step": 336
+    },
+    {
+      "epoch": 0.014084065572400247,
+      "grad_norm": 76.68461608886719,
+      "learning_rate": 9.209358300585474e-07,
+      "logits/chosen": -2.725767135620117,
+      "logits/rejected": -2.780688762664795,
+      "logps/chosen": -288.87896728515625,
+      "logps/rejected": -286.787109375,
+      "loss": 0.7406,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -5.583068370819092,
+      "rewards/margins": 9.488775253295898,
+      "rewards/rejected": -15.071844100952148,
+      "step": 337
+    },
+    {
+      "epoch": 0.014125858051843571,
+      "grad_norm": 75.13135528564453,
+      "learning_rate": 7.854209717842231e-07,
+      "logits/chosen": -2.362233877182007,
+      "logits/rejected": -2.460773229598999,
+      "logps/chosen": -325.7066650390625,
+      "logps/rejected": -384.96832275390625,
+      "loss": 0.8344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -10.121431350708008,
+      "rewards/margins": 5.352227210998535,
+      "rewards/rejected": -15.473657608032227,
+      "step": 338
+    },
+    {
+      "epoch": 0.014167650531286895,
+      "grad_norm": 28.0489444732666,
+      "learning_rate": 6.605274281709928e-07,
+      "logits/chosen": -2.648594856262207,
+      "logits/rejected": -2.7179548740386963,
+      "logps/chosen": -253.41746520996094,
+      "logps/rejected": -348.7283630371094,
+      "loss": 0.3676,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -9.479151725769043,
+      "rewards/margins": 9.781237602233887,
+      "rewards/rejected": -19.260387420654297,
+      "step": 339
+    },
+    {
+      "epoch": 0.01420944301073022,
+      "grad_norm": 98.39196014404297,
+      "learning_rate": 5.463099816548579e-07,
+      "logits/chosen": -2.792505979537964,
+      "logits/rejected": -2.649038076400757,
+      "logps/chosen": -324.14288330078125,
+      "logps/rejected": -330.5845642089844,
+      "loss": 1.5468,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -12.339548110961914,
+      "rewards/margins": 5.8348469734191895,
+      "rewards/rejected": -18.174394607543945,
+      "step": 340
+    },
+    {
+      "epoch": 0.014251235490173543,
+      "grad_norm": 108.51323699951172,
+      "learning_rate": 4.4281873178278475e-07,
+      "logits/chosen": -2.9908299446105957,
+      "logits/rejected": -2.8990650177001953,
+      "logps/chosen": -239.39895629882812,
+      "logps/rejected": -306.28094482421875,
+      "loss": 0.1488,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -9.657529830932617,
+      "rewards/margins": 9.04963493347168,
+      "rewards/rejected": -18.707164764404297,
+      "step": 341
+    },
+    {
+      "epoch": 0.014293027969616868,
+      "grad_norm": 125.85196685791016,
+      "learning_rate": 3.5009907323737825e-07,
+      "logits/chosen": -3.3109447956085205,
+      "logits/rejected": -3.237929344177246,
+      "logps/chosen": -313.3047790527344,
+      "logps/rejected": -364.43463134765625,
+      "loss": 0.809,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -9.16235065460205,
+      "rewards/margins": 7.958996772766113,
+      "rewards/rejected": -17.121347427368164,
+      "step": 342
+    },
+    {
+      "epoch": 0.014334820449060192,
+      "grad_norm": 170.32565307617188,
+      "learning_rate": 2.681916759252917e-07,
+      "logits/chosen": -2.6865477561950684,
+      "logits/rejected": -2.6000945568084717,
+      "logps/chosen": -390.5458068847656,
+      "logps/rejected": -411.51409912109375,
+      "loss": 1.2146,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -15.36628246307373,
+      "rewards/margins": 4.630067825317383,
+      "rewards/rejected": -19.99635124206543,
+      "step": 343
+    },
+    {
+      "epoch": 0.014376612928503516,
+      "grad_norm": 85.18592071533203,
+      "learning_rate": 1.9713246713805588e-07,
+      "logits/chosen": -3.113831043243408,
+      "logits/rejected": -3.068502426147461,
+      "logps/chosen": -176.83450317382812,
+      "logps/rejected": -275.0065612792969,
+      "loss": 0.642,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -6.174612522125244,
+      "rewards/margins": 6.579104423522949,
+      "rewards/rejected": -12.753717422485352,
+      "step": 344
+    },
+    {
+      "epoch": 0.01441840540794684,
+      "grad_norm": 340.12322998046875,
+      "learning_rate": 1.3695261579316777e-07,
+      "logits/chosen": -3.1806676387786865,
+      "logits/rejected": -3.2769603729248047,
+      "logps/chosen": -351.36773681640625,
+      "logps/rejected": -432.24249267578125,
+      "loss": 3.8974,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -11.651407241821289,
+      "rewards/margins": 8.784332275390625,
+      "rewards/rejected": -20.435739517211914,
+      "step": 345
+    },
+    {
+      "epoch": 0.014460197887390164,
+      "grad_norm": 32.293914794921875,
+      "learning_rate": 8.767851876239074e-08,
+      "logits/chosen": -2.917407274246216,
+      "logits/rejected": -2.8539297580718994,
+      "logps/chosen": -185.53709411621094,
+      "logps/rejected": -255.1479949951172,
+      "loss": 0.4062,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -7.592297077178955,
+      "rewards/margins": 7.888314247131348,
+      "rewards/rejected": -15.480610847473145,
+      "step": 346
+    },
+    {
+      "epoch": 0.014501990366833488,
+      "grad_norm": 45.319358825683594,
+      "learning_rate": 4.9331789293211026e-08,
+      "logits/chosen": -2.7475247383117676,
+      "logits/rejected": -2.596950054168701,
+      "logps/chosen": -252.41659545898438,
+      "logps/rejected": -370.46380615234375,
+      "loss": 0.5195,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -5.741701602935791,
+      "rewards/margins": 10.352378845214844,
+      "rewards/rejected": -16.094079971313477,
+      "step": 347
+    },
+    {
+      "epoch": 0.014543782846276812,
+      "grad_norm": 0.7127296924591064,
+      "learning_rate": 2.192924752854042e-08,
+      "logits/chosen": -3.2812771797180176,
+      "logits/rejected": -3.0997869968414307,
+      "logps/chosen": -310.9162902832031,
+      "logps/rejected": -349.9539794921875,
+      "loss": 0.0015,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -8.671211242675781,
+      "rewards/margins": 12.159473419189453,
+      "rewards/rejected": -20.8306827545166,
+      "step": 348
+    },
+    {
+      "epoch": 0.014585575325720137,
+      "grad_norm": 56.26605224609375,
+      "learning_rate": 5.48291312886251e-09,
+      "logits/chosen": -2.7509982585906982,
+      "logits/rejected": -2.6064796447753906,
+      "logps/chosen": -298.1324462890625,
+      "logps/rejected": -331.2496643066406,
+      "loss": 1.4717,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -9.22291374206543,
+      "rewards/margins": 4.03200626373291,
+      "rewards/rejected": -13.254920959472656,
+      "step": 349
+    },
+    {
+      "epoch": 0.01462736780516346,
+      "grad_norm": 9.557753562927246,
+      "learning_rate": 0.0,
+      "logits/chosen": -3.0502820014953613,
+      "logits/rejected": -2.965240240097046,
+      "logps/chosen": -393.92120361328125,
+      "logps/rejected": -409.619384765625,
+      "loss": 0.0324,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -9.593274116516113,
+      "rewards/margins": 12.19149112701416,
+      "rewards/rejected": -21.784767150878906,
+      "step": 350
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }