Training in progress, step 10450, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10450/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10450/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10450/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10450/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b15125f31f9208819dc5e36e23faafc91aefadb1cf9dd67602969e5ee0ba3b0d
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e8edf7966575f7d3701653b2fca9b0412bc222ec3b462a6c9529e461d38d6b9
 size 29034840

last-checkpoint/global_step10450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec479ed2e52c76c518e6cfbad68cfa9d1774a794d684c0bc3fb41283b8992311
+size 43429616

last-checkpoint/global_step10450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8af67540c285ba5dd59ff71fc242ea799f642f68fd31d569e6f8253c2ff6a70
+size 43429616

last-checkpoint/global_step10450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e78e3330f62ec1dfac9df508d305865691902baad4dd2e1df5f999ce684ca1ed
+size 43429616

last-checkpoint/global_step10450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63ff13ba0e9054570f5857e7ae608663c24850c18c58eed547f1583b72285655
+size 43429616

last-checkpoint/global_step10450/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb756b726bc8af6d469690f400267e9b6505b7a8359145ac29df73ded279562e
+size 637299

last-checkpoint/global_step10450/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e47e2679e7b1bf6f5a6bac157e5d4d9eacc0fc074d9f13a3bbdb538ef8dd41e
+size 637171

last-checkpoint/global_step10450/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b942a8e29d3d22567872a5f9bba629ec28f25b94362f94ba2561b7ece1926c63
+size 637171

last-checkpoint/global_step10450/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:caed3472b8fcb4f1b741572540c8888bc98c25dc325273109005e5f119d61f7b
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10400~~


1	+ global_step10450

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b96ced5c9c1bdc82d4326d5de75f37a1ca551c94af7bf88efae911229957684
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:728c4e2a8ee1d2ed42b3586a4c3cac5b8fbb9fdca53167fd48cf8caf96987518
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d014c6602896aaa3cb8fea014b8ef77ff6657cb00ef022173dec929fbd516da
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e818ca5561167b20b2d1eadae23ef7dfb90bfbf49ff2932c7d035446f9f3308d
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce30d2eb8bcb330930e7ab5a7c7e8698deb083986eb40cafaf36dc1a62695e26
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c9ae8590f6a84b7b264a99934b6cb306a13089ad904020884db757e1c77945a
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e555914b71ef8a36d23e6924bbd049c0a15b6d6b1747b934bac85a3a8aaab95e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6dbe1ec1980d7726aec0058d16ed92fa46fb441c65518943aecc4b0155fa42e
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af1846b25f2cf8bf72c12ea143837d8005a5522d8d6253fc28178dc1e7277224
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:97b0c1e81998443d9840edc6cac740fbae2d7dbf17c82e810da7dbdfc0ef4135
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.2741723071268873,
   "eval_steps": 50,
-  "global_step": 10400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18519,11 +18519,100 @@
       "eval_steps_per_second": 0.766,
       "num_input_tokens_seen": 69486944,
       "step": 10400
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 69486944,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -18538,7 +18627,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4358614720053248.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.2802976937919206,
   "eval_steps": 50,
+  "global_step": 10450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.766,
       "num_input_tokens_seen": 69486944,
       "step": 10400
+    },
+    {
+      "epoch": 1.2747848457933908,
+      "grad_norm": 0.9713327822934117,
+      "learning_rate": 3.184211020688667e-05,
+      "loss": 0.2063,
+      "num_input_tokens_seen": 69521024,
+      "step": 10405
+    },
+    {
+      "epoch": 1.275397384459894,
+      "grad_norm": 1.089429970441031,
+      "learning_rate": 3.179492941107207e-05,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 69555328,
+      "step": 10410
+    },
+    {
+      "epoch": 1.2760099231263973,
+      "grad_norm": 1.8111858959264027,
+      "learning_rate": 3.174776729524196e-05,
+      "loss": 0.2565,
+      "num_input_tokens_seen": 69589040,
+      "step": 10415
+    },
+    {
+      "epoch": 1.2766224617929007,
+      "grad_norm": 1.2755084193576243,
+      "learning_rate": 3.17006239077887e-05,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 69622376,
+      "step": 10420
+    },
+    {
+      "epoch": 1.277235000459404,
+      "grad_norm": 1.2029984019706983,
+      "learning_rate": 3.165349929708553e-05,
+      "loss": 0.2472,
+      "num_input_tokens_seen": 69654960,
+      "step": 10425
+    },
+    {
+      "epoch": 1.2778475391259074,
+      "grad_norm": 1.2226650815852944,
+      "learning_rate": 3.160639351148639e-05,
+      "loss": 0.2499,
+      "num_input_tokens_seen": 69688264,
+      "step": 10430
+    },
+    {
+      "epoch": 1.2784600777924107,
+      "grad_norm": 1.1852482827746924,
+      "learning_rate": 3.155930659932593e-05,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 69722104,
+      "step": 10435
+    },
+    {
+      "epoch": 1.279072616458914,
+      "grad_norm": 0.7157981569032704,
+      "learning_rate": 3.15122386089194e-05,
+      "loss": 0.192,
+      "num_input_tokens_seen": 69755784,
+      "step": 10440
+    },
+    {
+      "epoch": 1.2796851551254174,
+      "grad_norm": 1.453118087596932,
+      "learning_rate": 3.146518958856264e-05,
+      "loss": 0.2412,
+      "num_input_tokens_seen": 69789632,
+      "step": 10445
+    },
+    {
+      "epoch": 1.2802976937919206,
+      "grad_norm": 1.4403312114135585,
+      "learning_rate": 3.1418159586532055e-05,
+      "loss": 0.2546,
+      "num_input_tokens_seen": 69822376,
+      "step": 10450
+    },
+    {
+      "epoch": 1.2802976937919206,
+      "eval_loss": 0.18921419978141785,
+      "eval_runtime": 19.3651,
+      "eval_samples_per_second": 3.098,
+      "eval_steps_per_second": 0.775,
+      "num_input_tokens_seen": 69822376,
+      "step": 10450
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 69822376,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4379630441201664.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null