Training in progress, step 24, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step24/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step24/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:996fcb336809c14c977e6077bb5dff419d9bb732aaf0b24bff31664a9535c25e
 size 18516456

 version https://git-lfs.github.com/spec/v1
+oid sha256:f96ce207444d7a10e17049c94dc5648bd8f200d8da34ca1d6852ec281d5c6819
 size 18516456

last-checkpoint/global_step24/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:244ee88dc4927c3cc387cc0504876e3bf70c16b3da30d871aae45b9335984618
+size 13857360

last-checkpoint/global_step24/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ee5973f9df1a2c3425c2d40e981adf7555e5dc866dadac45599953a0446fc17
+size 13856656

last-checkpoint/global_step24/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d43ad14e713e7fe6d19c89b75c444eec46894556bcabd66f4266bd3333d925be
+size 13857360

last-checkpoint/global_step24/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d58e93750e65925db51f7fa86bebe5d687534e13726c52348ac1b9614cc7acc
+size 13856656

last-checkpoint/global_step24/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2524a9ac1b47dfbd409cfe9aa79a55f2d1ff7918b1a266628d2f27c79de1ba43
+size 13857424

last-checkpoint/global_step24/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7990927841166cf9ae42c2ef15f4927b86bc2f69fce9b77ab5f9cc9c7f7d1a55
+size 13856656

last-checkpoint/global_step24/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dc8a45e4c246a95e4729abae09c73ab63c85d55f97f6321e1572bad30c2b485
+size 13857424

last-checkpoint/global_step24/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0abf96ffa1e943257b9dd5f06c46f62dde5f4e5e85fdd9fc99bebd897c269a56
+size 13856656

last-checkpoint/global_step24/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89eec1da451cfc9002f69cf99d7bfb2c41b8702d9e83b19cb9336e55f3d8493c
+size 485512632

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step16~~


1	+ global_step24

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d82519e95c4d97739f80f7c7b67b2939b3db5ccd31bfa9130b220fb99fbddb1b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9527d2431b9400e39f4784d5d63151434952de4dfec19feb2ab624b5f1922cb0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.057424854194706144,
   "eval_steps": 500,
-  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -248,6 +248,126 @@
       "rewards/margins": 0.1759033203125,
       "rewards/rejected": 0.028123855590820312,
       "step": 16
     }
   ],
   "logging_steps": 1,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08613728129205922,
   "eval_steps": 500,
+  "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.1759033203125,
       "rewards/rejected": 0.028123855590820312,
       "step": 16
+    },
+    {
+      "epoch": 0.06101390758187528,
+      "grad_norm": 0.5971803069114685,
+      "learning_rate": 1.781071971878587e-05,
+      "logits/chosen": -0.8837890625,
+      "logits/rejected": -1.08642578125,
+      "logps/chosen": -505.0,
+      "logps/rejected": -360.375,
+      "loss": 0.597,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.2252197265625,
+      "rewards/margins": 0.21142578125,
+      "rewards/rejected": 0.01387786865234375,
+      "step": 17
+    },
+    {
+      "epoch": 0.06460296096904442,
+      "grad_norm": 0.5383909344673157,
+      "learning_rate": 1.5941857792939702e-05,
+      "logits/chosen": -0.90234375,
+      "logits/rejected": -1.18994140625,
+      "logps/chosen": -512.5,
+      "logps/rejected": -353.75,
+      "loss": 0.6096,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.218994140625,
+      "rewards/margins": 0.194183349609375,
+      "rewards/rejected": 0.0247955322265625,
+      "step": 18
+    },
+    {
+      "epoch": 0.06819201435621355,
+      "grad_norm": 0.6120373010635376,
+      "learning_rate": 1.40581422070603e-05,
+      "logits/chosen": -0.84521484375,
+      "logits/rejected": -1.1376953125,
+      "logps/chosen": -502.5,
+      "logps/rejected": -361.75,
+      "loss": 0.591,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.2548828125,
+      "rewards/margins": 0.229736328125,
+      "rewards/rejected": 0.025396347045898438,
+      "step": 19
+    },
+    {
+      "epoch": 0.07178106774338268,
+      "grad_norm": 0.5964956283569336,
+      "learning_rate": 1.2189280281214128e-05,
+      "logits/chosen": -0.84326171875,
+      "logits/rejected": -1.17236328125,
+      "logps/chosen": -515.75,
+      "logps/rejected": -360.25,
+      "loss": 0.5997,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.276123046875,
+      "rewards/margins": 0.2108154296875,
+      "rewards/rejected": 0.06536865234375,
+      "step": 20
+    },
+    {
+      "epoch": 0.07537012113055182,
+      "grad_norm": 0.5623295903205872,
+      "learning_rate": 1.036474508437579e-05,
+      "logits/chosen": -0.87646484375,
+      "logits/rejected": -1.19140625,
+      "logps/chosen": -519.25,
+      "logps/rejected": -348.5,
+      "loss": 0.5757,
+      "rewards/accuracies": 0.7578125,
+      "rewards/chosen": 0.3125,
+      "rewards/margins": 0.262451171875,
+      "rewards/rejected": 0.05007171630859375,
+      "step": 21
+    },
+    {
+      "epoch": 0.07895917451772096,
+      "grad_norm": 0.6346862316131592,
+      "learning_rate": 8.61331062652391e-06,
+      "logits/chosen": -0.84423828125,
+      "logits/rejected": -1.1728515625,
+      "logps/chosen": -509.75,
+      "logps/rejected": -367.5,
+      "loss": 0.59,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.30908203125,
+      "rewards/margins": 0.240966796875,
+      "rewards/rejected": 0.0682525634765625,
+      "step": 22
+    },
+    {
+      "epoch": 0.08254822790489008,
+      "grad_norm": 0.5374892354011536,
+      "learning_rate": 6.962598075315047e-06,
+      "logits/chosen": -0.8955078125,
+      "logits/rejected": -1.1728515625,
+      "logps/chosen": -540.0,
+      "logps/rejected": -382.875,
+      "loss": 0.5659,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.33544921875,
+      "rewards/margins": 0.2880859375,
+      "rewards/rejected": 0.04767608642578125,
+      "step": 23
+    },
+    {
+      "epoch": 0.08613728129205922,
+      "grad_norm": 0.5729860067367554,
+      "learning_rate": 5.438640153769654e-06,
+      "logits/chosen": -0.8798828125,
+      "logits/rejected": -1.14794921875,
+      "logps/chosen": -523.25,
+      "logps/rejected": -373.75,
+      "loss": 0.5696,
+      "rewards/accuracies": 0.7734375,
+      "rewards/chosen": 0.35205078125,
+      "rewards/margins": 0.2939453125,
+      "rewards/rejected": 0.05828094482421875,
+      "step": 24
     }
   ],
   "logging_steps": 1,