Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b6127712206b95791c918214f16b785d763b67224b1b0e443a55295ce29d047
 size 35668592

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ea8d63209da0362125cd6447d2de658e74f5fea775b2f305ca382e4f3a5042
 size 35668592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50e558348acae36b84be93a81ed01c8ccfa115577debf3c6ace9465c91fc8a89
 size 18257163

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfb87c5ff52c997cb909c5bed0b628103fd402ac227d83df5d436e438df6570a
 size 18257163

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a34fec6a0d847723344253412c25b018523e427d3c1952286ab62a2afd2b427
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:b429070a564985551cfca2e541b4c4fca20d998c67cc7cb6e2b59f638df425a3
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f12e6df1a2c888055dea6dcde09c6337c5435ca6c858dee81b0362f43b35c4b
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:80a0690e68ff79fcaeb99618671437e762b40ceead1e7b8bcf2edd5ec6620941
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1198546494311075,
   "eval_steps": 500,
-  "global_step": 4700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7058,6 +7058,156 @@
       "rewards/margins": 16.355287551879883,
       "rewards/rejected": -14.908761978149414,
       "step": 4700
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1436826115446477,
   "eval_steps": 500,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 16.355287551879883,
       "rewards/rejected": -14.908761978149414,
       "step": 4700
+    },
+    {
+      "epoch": 1.1222374456424615,
+      "grad_norm": 2.21546338252665e-06,
+      "learning_rate": 3.9414545881179945e-05,
+      "logits/chosen": 9.5210599899292,
+      "logits/rejected": 8.838404655456543,
+      "logps/chosen": -3.8852012157440186,
+      "logps/rejected": -168.62191772460938,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.363797664642334,
+      "rewards/margins": 16.466297149658203,
+      "rewards/rejected": -15.102502822875977,
+      "step": 4710
+    },
+    {
+      "epoch": 1.1246202418538154,
+      "grad_norm": 7.269867637660354e-06,
+      "learning_rate": 3.935785819277189e-05,
+      "logits/chosen": 8.97862434387207,
+      "logits/rejected": 8.629661560058594,
+      "logps/chosen": -3.853353500366211,
+      "logps/rejected": -170.79342651367188,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3444960117340088,
+      "rewards/margins": 16.734460830688477,
+      "rewards/rejected": -15.389966011047363,
+      "step": 4720
+    },
+    {
+      "epoch": 1.1270030380651694,
+      "grad_norm": 1.5713922039140016e-05,
+      "learning_rate": 3.930106013395591e-05,
+      "logits/chosen": 9.156143188476562,
+      "logits/rejected": 8.84025764465332,
+      "logps/chosen": -3.664874315261841,
+      "logps/rejected": -169.4293670654297,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.40371572971344,
+      "rewards/margins": 16.51462173461914,
+      "rewards/rejected": -15.110905647277832,
+      "step": 4730
+    },
+    {
+      "epoch": 1.1293858342765235,
+      "grad_norm": 1.7429217677999986e-06,
+      "learning_rate": 3.924415214134479e-05,
+      "logits/chosen": 9.136969566345215,
+      "logits/rejected": 8.276262283325195,
+      "logps/chosen": -4.189261436462402,
+      "logps/rejected": -169.33648681640625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3977916240692139,
+      "rewards/margins": 16.54281997680664,
+      "rewards/rejected": -15.145029067993164,
+      "step": 4740
+    },
+    {
+      "epoch": 1.1317686304878776,
+      "grad_norm": 1.802428232622333e-05,
+      "learning_rate": 3.9187134652396454e-05,
+      "logits/chosen": 8.582501411437988,
+      "logits/rejected": 8.448382377624512,
+      "logps/chosen": -4.113119602203369,
+      "logps/rejected": -168.79092407226562,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4219516515731812,
+      "rewards/margins": 16.33131980895996,
+      "rewards/rejected": -14.909370422363281,
+      "step": 4750
+    },
+    {
+      "epoch": 1.1341514266992316,
+      "grad_norm": 5.4121765060699545e-06,
+      "learning_rate": 3.913000810541049e-05,
+      "logits/chosen": 8.93317699432373,
+      "logits/rejected": 8.46564769744873,
+      "logps/chosen": -3.915933132171631,
+      "logps/rejected": -168.9101104736328,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3572721481323242,
+      "rewards/margins": 16.39585304260254,
+      "rewards/rejected": -15.038583755493164,
+      "step": 4760
+    },
+    {
+      "epoch": 1.1365342229105855,
+      "grad_norm": 3.48685034623486e-06,
+      "learning_rate": 3.907277293952483e-05,
+      "logits/chosen": 8.73112964630127,
+      "logits/rejected": 8.221918106079102,
+      "logps/chosen": -3.9176087379455566,
+      "logps/rejected": -170.79434204101562,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3888115882873535,
+      "rewards/margins": 16.5882511138916,
+      "rewards/rejected": -15.199438095092773,
+      "step": 4770
+    },
+    {
+      "epoch": 1.1389170191219395,
+      "grad_norm": 2.7596881864155876e-06,
+      "learning_rate": 3.90154295947124e-05,
+      "logits/chosen": 9.215482711791992,
+      "logits/rejected": 8.320622444152832,
+      "logps/chosen": -4.540711879730225,
+      "logps/rejected": -170.30410766601562,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.3221644163131714,
+      "rewards/margins": 16.54549789428711,
+      "rewards/rejected": -15.223333358764648,
+      "step": 4780
+    },
+    {
+      "epoch": 1.1412998153332936,
+      "grad_norm": 5.95591291130404e-06,
+      "learning_rate": 3.895797851177767e-05,
+      "logits/chosen": 9.725410461425781,
+      "logits/rejected": 8.952868461608887,
+      "logps/chosen": -4.404567718505859,
+      "logps/rejected": -168.9754180908203,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4016621112823486,
+      "rewards/margins": 16.36920738220215,
+      "rewards/rejected": -14.967544555664062,
+      "step": 4790
+    },
+    {
+      "epoch": 1.1436826115446477,
+      "grad_norm": 1.5033992895041592e-05,
+      "learning_rate": 3.890042013235334e-05,
+      "logits/chosen": 9.249860763549805,
+      "logits/rejected": 8.731368064880371,
+      "logps/chosen": -3.9462552070617676,
+      "logps/rejected": -168.36050415039062,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.422627329826355,
+      "rewards/margins": 16.3912410736084,
+      "rewards/rejected": -14.968612670898438,
+      "step": 4800
     }
   ],
   "logging_steps": 10,