Training in progress, step 16, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step16/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8a5926f41dbd42b63a5bb8cb639b924babbbf84882d2029a2ed8ee02173fc71
 size 40422208

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1132eb66fa5b598d1b29f5c8a314c42a1480d2d1eccc1e0954d855f023b317c
 size 40422208

last-checkpoint/global_step16/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc6250a82cf05afa878b4226769dde0d5eab1cc8cb8ad1a8bfc2344658427f39
+size 15229648

last-checkpoint/global_step16/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:914b2f9eb3bf5e09d668d2637e3234f164bb6af8b9c12488718e48e82ed5814e
+size 15228944

last-checkpoint/global_step16/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5f2b93e0ad3b6d08686c4ed953f612cd15f16966726dedfb33c7663f7f61f41
+size 15229648

last-checkpoint/global_step16/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:565afd298b8dc72bd753e6228d08a51bb2b7442d6214ae7e7291812c73fb370f
+size 15229008

last-checkpoint/global_step16/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f0394422fc4c1b50ca8223005d29ff2d8aa3d3f3d33151c907f235d65b3ff0a
+size 15229712

last-checkpoint/global_step16/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fec70ece035d939d93841a2666127d1046ce9852b14b7d7063352becc2d201f6
+size 15229008

last-checkpoint/global_step16/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:904525c1dbac18bd7a69c1124a90212dd272f62a50f1b27f8d72e4991dbd3792
+size 15229712

last-checkpoint/global_step16/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb9f2688137a6a4eb5aed94720e5b33d7909704d859f5e615743c6056e9d3a78
+size 15229008

last-checkpoint/global_step16/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72fbe539d4e0b101362677111ddcba4f9ade3d5e5a6d799990a9730dc2b57efc
+size 40670124

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step8~~


1	+ global_step16

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87e1f92a75e29b4bc70374757203de23069225fd13530989d3554e1a49a591d7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9243ecf2f60906c603e966680c78e7db757d242e6851e2321a7452ba819e634
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00634857653010614,
   "eval_steps": 500,
-  "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -128,6 +128,126 @@
       "rewards/margins": 0.0482330322265625,
       "rewards/rejected": -0.02805805206298828,
       "step": 8
     }
   ],
   "logging_steps": 1,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01269715306021228,
   "eval_steps": 500,
+  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.0482330322265625,
       "rewards/rejected": -0.02805805206298828,
       "step": 8
+    },
+    {
+      "epoch": 0.007142148596369408,
+      "grad_norm": 1.1013739109039307,
+      "learning_rate": 2.894664728832377e-05,
+      "logits/chosen": -1.3876953125,
+      "logits/rejected": -1.3583984375,
+      "logps/chosen": -179.0,
+      "logps/rejected": -162.875,
+      "loss": 0.67,
+      "rewards/accuracies": 0.2421875,
+      "rewards/chosen": 0.02728271484375,
+      "rewards/margins": 0.04682159423828125,
+      "rewards/rejected": -0.019508838653564453,
+      "step": 9
+    },
+    {
+      "epoch": 0.007935720662632675,
+      "grad_norm": 1.1122229099273682,
+      "learning_rate": 2.8144600200657953e-05,
+      "logits/chosen": -1.369140625,
+      "logits/rejected": -1.318359375,
+      "logps/chosen": -154.875,
+      "logps/rejected": -142.0625,
+      "loss": 0.6628,
+      "rewards/accuracies": 0.296875,
+      "rewards/chosen": 0.027622222900390625,
+      "rewards/margins": 0.062591552734375,
+      "rewards/rejected": -0.0348663330078125,
+      "step": 10
+    },
+    {
+      "epoch": 0.008729292728895943,
+      "grad_norm": 3.2242448329925537,
+      "learning_rate": 2.7135254915624213e-05,
+      "logits/chosen": -1.3408203125,
+      "logits/rejected": -1.3330078125,
+      "logps/chosen": -155.5625,
+      "logps/rejected": -143.375,
+      "loss": 0.6506,
+      "rewards/accuracies": 0.3515625,
+      "rewards/chosen": 0.05908823013305664,
+      "rewards/margins": 0.09417724609375,
+      "rewards/rejected": -0.0350341796875,
+      "step": 11
+    },
+    {
+      "epoch": 0.00952286479515921,
+      "grad_norm": 1.3841558694839478,
+      "learning_rate": 2.5934529411321174e-05,
+      "logits/chosen": -1.34765625,
+      "logits/rejected": -1.3115234375,
+      "logps/chosen": -175.625,
+      "logps/rejected": -152.875,
+      "loss": 0.6381,
+      "rewards/accuracies": 0.421875,
+      "rewards/chosen": 0.068511962890625,
+      "rewards/margins": 0.11895751953125,
+      "rewards/rejected": -0.05037689208984375,
+      "step": 12
+    },
+    {
+      "epoch": 0.010316436861422478,
+      "grad_norm": 1.2403695583343506,
+      "learning_rate": 2.4561359846230346e-05,
+      "logits/chosen": -1.333984375,
+      "logits/rejected": -1.3232421875,
+      "logps/chosen": -198.25,
+      "logps/rejected": -177.75,
+      "loss": 0.6126,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.1365966796875,
+      "rewards/margins": 0.21484375,
+      "rewards/rejected": -0.0782012939453125,
+      "step": 13
+    },
+    {
+      "epoch": 0.011110008927685745,
+      "grad_norm": 2.389846086502075,
+      "learning_rate": 2.303740192468495e-05,
+      "logits/chosen": -1.32421875,
+      "logits/rejected": -1.3037109375,
+      "logps/chosen": -175.75,
+      "logps/rejected": -164.8125,
+      "loss": 0.6119,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 0.0972442626953125,
+      "rewards/margins": 0.19915771484375,
+      "rewards/rejected": -0.1018829345703125,
+      "step": 14
+    },
+    {
+      "epoch": 0.011903580993949014,
+      "grad_norm": 1.4371541738510132,
+      "learning_rate": 2.138668937347609e-05,
+      "logits/chosen": -1.392578125,
+      "logits/rejected": -1.349609375,
+      "logps/chosen": -159.5,
+      "logps/rejected": -155.6875,
+      "loss": 0.6069,
+      "rewards/accuracies": 0.4609375,
+      "rewards/chosen": 0.1211395263671875,
+      "rewards/margins": 0.19793701171875,
+      "rewards/rejected": -0.0767822265625,
+      "step": 15
+    },
+    {
+      "epoch": 0.01269715306021228,
+      "grad_norm": 1.8919018507003784,
+      "learning_rate": 1.963525491562421e-05,
+      "logits/chosen": -1.36328125,
+      "logits/rejected": -1.3515625,
+      "logps/chosen": -168.875,
+      "logps/rejected": -160.0,
+      "loss": 0.5919,
+      "rewards/accuracies": 0.4765625,
+      "rewards/chosen": 0.134552001953125,
+      "rewards/margins": 0.239013671875,
+      "rewards/rejected": -0.104400634765625,
+      "step": 16
     }
   ],
   "logging_steps": 1,