Training in progress, step 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb1bafcc66b40b468d66787fe207fbadd854a6d2c174a5d747c306381dbd7b62
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f77efe7c696f1f83c1ba8383fe1b4abe439a331ad0a46072e39ea36c9855caf2
 size 167832240

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0da038447f10102cb91084a00c3a162032949ae0d43fab3eb73ec81e2697ef4e
 size 335945362

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bed1df47aa29b52b0bf53c0fbabaacf9695c33b46c93b1877635d3dceffa91c
 size 335945362

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:322ea92a0ee11e4313271dfe13346cccb3983d3b3444be77ff3a1b7f5c54734a
 size 167939550

 version https://git-lfs.github.com/spec/v1
+oid sha256:161deca60bc23044836845b3011cdcd2cee90523878c3a442ac389bfa9a782ed
 size 167939550

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:015707cb16790250630febca682498cb5d3456d5a13443b953687f19dc7d59ed
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2def2cd24154d8cecbaa07c36ae27e5ebb9b7273a78abfea27aa67c480e4ae2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.009020182658698838,
   "eval_steps": 500,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,156 @@
       "rewards/margins": 1.7580511569976807,
       "rewards/rejected": -3.8936402797698975,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -321,7 +471,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013530273988048258,
   "eval_steps": 500,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 1.7580511569976807,
       "rewards/rejected": -3.8936402797698975,
       "step": 20
+    },
+    {
+      "epoch": 0.009471191791633781,
+      "grad_norm": 29.850914001464844,
+      "learning_rate": 5.7422070843492734e-05,
+      "logits/chosen": -2.274322986602783,
+      "logits/rejected": -2.284355401992798,
+      "logps/chosen": -80.8134994506836,
+      "logps/rejected": -135.7605743408203,
+      "loss": 0.2564,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.499776840209961,
+      "rewards/margins": 2.5717291831970215,
+      "rewards/rejected": -5.071506023406982,
+      "step": 21
+    },
+    {
+      "epoch": 0.009922200924568723,
+      "grad_norm": 37.985252380371094,
+      "learning_rate": 4.6417320502100316e-05,
+      "logits/chosen": -2.089611530303955,
+      "logits/rejected": -2.0775773525238037,
+      "logps/chosen": -100.17402648925781,
+      "logps/rejected": -148.91050720214844,
+      "loss": 0.1301,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -4.1707353591918945,
+      "rewards/margins": 2.9915812015533447,
+      "rewards/rejected": -7.16231632232666,
+      "step": 22
+    },
+    {
+      "epoch": 0.010373210057503664,
+      "grad_norm": 59.194644927978516,
+      "learning_rate": 3.6257601025131026e-05,
+      "logits/chosen": -2.485840320587158,
+      "logits/rejected": -2.474033832550049,
+      "logps/chosen": -94.62644958496094,
+      "logps/rejected": -156.5,
+      "loss": 0.2311,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -3.4503886699676514,
+      "rewards/margins": 3.574744939804077,
+      "rewards/rejected": -7.025134086608887,
+      "step": 23
+    },
+    {
+      "epoch": 0.010824219190438607,
+      "grad_norm": 62.3109130859375,
+      "learning_rate": 2.7103137257858868e-05,
+      "logits/chosen": -1.6875534057617188,
+      "logits/rejected": -1.3186326026916504,
+      "logps/chosen": -124.91173553466797,
+      "logps/rejected": -129.53883361816406,
+      "loss": 0.4622,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -4.360774993896484,
+      "rewards/margins": 0.7096513509750366,
+      "rewards/rejected": -5.070426940917969,
+      "step": 24
+    },
+    {
+      "epoch": 0.011275228323373548,
+      "grad_norm": 56.34513473510742,
+      "learning_rate": 1.9098300562505266e-05,
+      "logits/chosen": -2.1966428756713867,
+      "logits/rejected": -2.1575562953948975,
+      "logps/chosen": -163.96261596679688,
+      "logps/rejected": -189.7874298095703,
+      "loss": 0.4808,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -6.970208644866943,
+      "rewards/margins": 1.3194499015808105,
+      "rewards/rejected": -8.289658546447754,
+      "step": 25
+    },
+    {
+      "epoch": 0.01172623745630849,
+      "grad_norm": 69.01769256591797,
+      "learning_rate": 1.2369331995613665e-05,
+      "logits/chosen": -2.300128936767578,
+      "logits/rejected": -2.3753676414489746,
+      "logps/chosen": -119.34609985351562,
+      "logps/rejected": -164.77468872070312,
+      "loss": 0.4093,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -4.722940921783447,
+      "rewards/margins": 1.6089292764663696,
+      "rewards/rejected": -6.331870079040527,
+      "step": 26
+    },
+    {
+      "epoch": 0.012177246589243433,
+      "grad_norm": 66.55928802490234,
+      "learning_rate": 7.022351411174866e-06,
+      "logits/chosen": -2.0684125423431396,
+      "logits/rejected": -2.194251537322998,
+      "logps/chosen": -105.67616271972656,
+      "logps/rejected": -146.2047882080078,
+      "loss": 0.5255,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -4.283657550811768,
+      "rewards/margins": 1.8610727787017822,
+      "rewards/rejected": -6.144730091094971,
+      "step": 27
+    },
+    {
+      "epoch": 0.012628255722178374,
+      "grad_norm": 80.93476104736328,
+      "learning_rate": 3.1416838871368924e-06,
+      "logits/chosen": -1.8295559883117676,
+      "logits/rejected": -1.727657437324524,
+      "logps/chosen": -101.6170883178711,
+      "logps/rejected": -151.7958984375,
+      "loss": 0.6077,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -4.0400214195251465,
+      "rewards/margins": 1.7221603393554688,
+      "rewards/rejected": -5.762181758880615,
+      "step": 28
+    },
+    {
+      "epoch": 0.013079264855113315,
+      "grad_norm": 63.70692443847656,
+      "learning_rate": 7.885298685522235e-07,
+      "logits/chosen": -2.315255880355835,
+      "logits/rejected": -2.3140575885772705,
+      "logps/chosen": -125.00370788574219,
+      "logps/rejected": -164.20457458496094,
+      "loss": 0.4891,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -5.734856128692627,
+      "rewards/margins": 2.0604777336120605,
+      "rewards/rejected": -7.7953338623046875,
+      "step": 29
+    },
+    {
+      "epoch": 0.013530273988048258,
+      "grad_norm": 73.19666290283203,
+      "learning_rate": 0.0,
+      "logits/chosen": -1.289480209350586,
+      "logits/rejected": -1.168398380279541,
+      "logps/chosen": -81.09046936035156,
+      "logps/rejected": -124.95771789550781,
+      "loss": 0.4664,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.711899757385254,
+      "rewards/margins": 3.076801300048828,
+      "rewards/rejected": -5.788701057434082,
+      "step": 30
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }