Training in progress, step 12000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step12000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step12000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step12000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step12000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step12000/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step12000/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step12000/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step12000/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a57664fd8d118ea748563fac31ce8b78efe07e2901fabe33b4a76bc7345922c9
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1082457bebc6ec3cbfedcbeb51773ce1a8a48f6301c6edb5b36375b688353dc
 size 29034840

last-checkpoint/global_step12000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcd282575201abb845e4547aa3218e69dd0c82b53701da19395500b137e88b00
+size 43429616

last-checkpoint/global_step12000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36557aa02ff68fab17b6a497fbebdca74a729931d59a7cbb7d78e0485332f24d
+size 43429616

last-checkpoint/global_step12000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a025172d4c6e03423cb2806bf3d84611cc408dec31a2c8c578ae9eeb8313e9f
+size 43429616

last-checkpoint/global_step12000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac1c7e94b722fceac222a804f4789b4797c7c139ed8b4dd16266ab1660e27748
+size 43429616

last-checkpoint/global_step12000/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e78ae8e5dbac3adf4beb071f4e1f3ba95f56e4301c5060b0f4993f68bc38cf
+size 637299

last-checkpoint/global_step12000/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7d40c8d91d68c0f848ffa845291bbf02e099fddbddbbbcca3576b2f9f3eff14
+size 637171

last-checkpoint/global_step12000/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a13e1124a23a85eeca805e121f8b25ac3b3993a36c3ef49d4f4a33c8eae3d44
+size 637171

last-checkpoint/global_step12000/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2736c1b3e5de618714277113984c2240d97bc552e624c19701ab8bf642636cd
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11950~~


1	+ global_step12000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08e63a1507ec8e6eb80eb4db3a04627f60726c8dfe128fa7ae48233814d3c7f7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c19f1aa2e9d61d357b6204eae1219eaf78e21bc8b326b4ae45539d10d19b552e
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f71e62374e9d96336f152733a8b55ad85a31bf315e29c8dae76917a6d5e9f50
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:dddbc25c1e4accbb8ee3e8c21c61d1a8d47c2223f777e10f16a31d9fe3716bd1
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:397b8002672366d97746debf09460a776c5721f87ae8f9aeb54c1b99133afdf5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:44dfda6d0cf493b706b65c41a9191234d5faf1a15068d781e2015b936fbf1040
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f1601c6a8a6f02b3ac80fc66c7243adaee34f52863db1b04674d7ba56e1a4a4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e52156225dccd5afb40ba3b9bf5ef7185d674a38c6e5cda245b57dc54a65ecdf
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85333fd159e56c8beb00c8b6eec934d4a08a9b94a3fe141d6435a974bade77a4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae47c8c40a05ad370051cd694712264f349dd136bc69f50e79d1844afc8bc9b4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.4640592937429175,
   "eval_steps": 50,
-  "global_step": 11950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21278,11 +21278,100 @@
       "eval_steps_per_second": 0.772,
       "num_input_tokens_seen": 79898064,
       "step": 11950
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 79898064,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -21297,7 +21386,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5011542192029696.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4701846804079508,
   "eval_steps": 50,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.772,
       "num_input_tokens_seen": 79898064,
       "step": 11950
+    },
+    {
+      "epoch": 1.4646718324094208,
+      "grad_norm": 1.427037338582067,
+      "learning_rate": 1.8340324528853237e-05,
+      "loss": 0.2375,
+      "num_input_tokens_seen": 79931680,
+      "step": 11955
+    },
+    {
+      "epoch": 1.4652843710759242,
+      "grad_norm": 1.2338777567554464,
+      "learning_rate": 1.830113957279535e-05,
+      "loss": 0.2129,
+      "num_input_tokens_seen": 79966176,
+      "step": 11960
+    },
+    {
+      "epoch": 1.4658969097424275,
+      "grad_norm": 1.4924198149687233,
+      "learning_rate": 1.8261987142522906e-05,
+      "loss": 0.2137,
+      "num_input_tokens_seen": 80000440,
+      "step": 11965
+    },
+    {
+      "epoch": 1.4665094484089307,
+      "grad_norm": 1.113112713151578,
+      "learning_rate": 1.8222867278209714e-05,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 80034544,
+      "step": 11970
+    },
+    {
+      "epoch": 1.4671219870754342,
+      "grad_norm": 1.2727009402893619,
+      "learning_rate": 1.8183780019996123e-05,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 80068616,
+      "step": 11975
+    },
+    {
+      "epoch": 1.4677345257419374,
+      "grad_norm": 1.3941438496106238,
+      "learning_rate": 1.814472540798906e-05,
+      "loss": 0.2176,
+      "num_input_tokens_seen": 80102032,
+      "step": 11980
+    },
+    {
+      "epoch": 1.4683470644084409,
+      "grad_norm": 1.682655836854595,
+      "learning_rate": 1.8105703482261983e-05,
+      "loss": 0.2363,
+      "num_input_tokens_seen": 80136208,
+      "step": 11985
+    },
+    {
+      "epoch": 1.468959603074944,
+      "grad_norm": 1.5733409771340396,
+      "learning_rate": 1.806671428285474e-05,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 80170208,
+      "step": 11990
+    },
+    {
+      "epoch": 1.4695721417414473,
+      "grad_norm": 0.9718487815537233,
+      "learning_rate": 1.8027757849773657e-05,
+      "loss": 0.1776,
+      "num_input_tokens_seen": 80205136,
+      "step": 11995
+    },
+    {
+      "epoch": 1.4701846804079508,
+      "grad_norm": 41.69567000042487,
+      "learning_rate": 1.798883422299143e-05,
+      "loss": 0.2189,
+      "num_input_tokens_seen": 80238176,
+      "step": 12000
+    },
+    {
+      "epoch": 1.4701846804079508,
+      "eval_loss": 0.07542052865028381,
+      "eval_runtime": 19.2561,
+      "eval_samples_per_second": 3.116,
+      "eval_steps_per_second": 0.779,
+      "num_input_tokens_seen": 80238176,
+      "step": 12000
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 80238176,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 5032876634275840.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null