Training in progress, step 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ef84cca657388b06a9b161e83e1bdc8d561986c2a18a79c148ef4ca586eef69
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c33f4768609aac9547259cbea351d0ced9847c0cca0b967b41778fe8732ac39
 size 50503544

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22613cdf5ec7837b602c185436af06b330ec2d71a2b49ac5df96ca8b6c43993d
 size 101199994

 version https://git-lfs.github.com/spec/v1
+oid sha256:562f38cbf6b76a45ee62f324c254d16734cda287eceaeafac9ec80fcccec4179
 size 101199994

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0adf2c337f3fe8ac9fdc291edfdab98d620fd14cbd0dc2712a1573f7734609d2
 size 50577394

 version https://git-lfs.github.com/spec/v1
+oid sha256:b54eab572fdff651f14a5c32ce65202b8dac2e6a30bb58178aef3bed97b1d14a
 size 50577394

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:015707cb16790250630febca682498cb5d3456d5a13443b953687f19dc7d59ed
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2def2cd24154d8cecbaa07c36ae27e5ebb9b7273a78abfea27aa67c480e4ae2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.000817594636579184,
   "eval_steps": 500,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,156 @@
       "rewards/margins": 16.37193489074707,
       "rewards/rejected": -60.71843338012695,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -321,7 +471,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0012263919548687761,
   "eval_steps": 500,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 16.37193489074707,
       "rewards/rejected": -60.71843338012695,
       "step": 20
+    },
+    {
+      "epoch": 0.0008584743684081432,
+      "grad_norm": 0.08101686835289001,
+      "learning_rate": 5.7422070843492734e-05,
+      "logits/chosen": -2.6424341201782227,
+      "logits/rejected": -2.6488289833068848,
+      "logps/chosen": -511.4774169921875,
+      "logps/rejected": -789.3146362304688,
+      "loss": 0.0003,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -36.327449798583984,
+      "rewards/margins": 22.020410537719727,
+      "rewards/rejected": -58.34785842895508,
+      "step": 21
+    },
+    {
+      "epoch": 0.0008993541002371025,
+      "grad_norm": 0.18042296171188354,
+      "learning_rate": 4.6417320502100316e-05,
+      "logits/chosen": -2.526277780532837,
+      "logits/rejected": -2.5323195457458496,
+      "logps/chosen": -545.796142578125,
+      "logps/rejected": -764.9188232421875,
+      "loss": 0.0436,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -36.89508819580078,
+      "rewards/margins": 17.9223575592041,
+      "rewards/rejected": -54.81744384765625,
+      "step": 22
+    },
+    {
+      "epoch": 0.0009402338320660616,
+      "grad_norm": 0.29778093099594116,
+      "learning_rate": 3.6257601025131026e-05,
+      "logits/chosen": -2.4751813411712646,
+      "logits/rejected": -2.4851186275482178,
+      "logps/chosen": -803.92578125,
+      "logps/rejected": -1093.898681640625,
+      "loss": 0.0872,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -60.56904602050781,
+      "rewards/margins": 24.420740127563477,
+      "rewards/rejected": -84.98979187011719,
+      "step": 23
+    },
+    {
+      "epoch": 0.0009811135638950208,
+      "grad_norm": 0.28798049688339233,
+      "learning_rate": 2.7103137257858868e-05,
+      "logits/chosen": -2.510077714920044,
+      "logits/rejected": -2.5210041999816895,
+      "logps/chosen": -463.0649108886719,
+      "logps/rejected": -694.3960571289062,
+      "loss": 0.0867,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -33.42449951171875,
+      "rewards/margins": 18.504003524780273,
+      "rewards/rejected": -51.928504943847656,
+      "step": 24
+    },
+    {
+      "epoch": 0.0010219932957239801,
+      "grad_norm": 0.11364051699638367,
+      "learning_rate": 1.9098300562505266e-05,
+      "logits/chosen": -2.475249767303467,
+      "logits/rejected": -2.4904561042785645,
+      "logps/chosen": -859.90673828125,
+      "logps/rejected": -1117.36083984375,
+      "loss": 0.0006,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -65.81514739990234,
+      "rewards/margins": 20.766559600830078,
+      "rewards/rejected": -86.58171081542969,
+      "step": 25
+    },
+    {
+      "epoch": 0.0010628730275529393,
+      "grad_norm": 0.009049988351762295,
+      "learning_rate": 1.2369331995613665e-05,
+      "logits/chosen": -2.4331583976745605,
+      "logits/rejected": -2.4311211109161377,
+      "logps/chosen": -680.937744140625,
+      "logps/rejected": -1024.9010009765625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -50.20663070678711,
+      "rewards/margins": 28.409120559692383,
+      "rewards/rejected": -78.61575317382812,
+      "step": 26
+    },
+    {
+      "epoch": 0.0011037527593818985,
+      "grad_norm": 0.16239921748638153,
+      "learning_rate": 7.022351411174866e-06,
+      "logits/chosen": -2.6356656551361084,
+      "logits/rejected": -2.6563143730163574,
+      "logps/chosen": -620.882080078125,
+      "logps/rejected": -835.9634399414062,
+      "loss": 0.0434,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -41.628211975097656,
+      "rewards/margins": 17.292217254638672,
+      "rewards/rejected": -58.92042541503906,
+      "step": 27
+    },
+    {
+      "epoch": 0.0011446324912108576,
+      "grad_norm": 0.29876795411109924,
+      "learning_rate": 3.1416838871368924e-06,
+      "logits/chosen": -2.490878105163574,
+      "logits/rejected": -2.5129659175872803,
+      "logps/chosen": -658.1712646484375,
+      "logps/rejected": -935.3577880859375,
+      "loss": 0.0448,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -48.216346740722656,
+      "rewards/margins": 22.68781852722168,
+      "rewards/rejected": -70.90415954589844,
+      "step": 28
+    },
+    {
+      "epoch": 0.0011855122230398168,
+      "grad_norm": 11.254888534545898,
+      "learning_rate": 7.885298685522235e-07,
+      "logits/chosen": -2.4710259437561035,
+      "logits/rejected": -2.4678666591644287,
+      "logps/chosen": -565.2833251953125,
+      "logps/rejected": -760.4554443359375,
+      "loss": 0.0385,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -39.14883041381836,
+      "rewards/margins": 15.817726135253906,
+      "rewards/rejected": -54.966552734375,
+      "step": 29
+    },
+    {
+      "epoch": 0.0012263919548687761,
+      "grad_norm": 0.10551604628562927,
+      "learning_rate": 0.0,
+      "logits/chosen": -2.379762649536133,
+      "logits/rejected": -2.398367166519165,
+      "logps/chosen": -702.4578857421875,
+      "logps/rejected": -948.1409301757812,
+      "loss": 0.0434,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -48.67387390136719,
+      "rewards/margins": 20.345170974731445,
+      "rewards/rejected": -69.01904296875,
+      "step": 30
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }