Training in progress, step 11650, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11650/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11650/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11650/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11650/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11650/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11650/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11650/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11650/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76c6beb62b007fa74c1f9fde13741ad45368bd6d4b83ec8b972cd4fb0a8c646d
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:571e80588f8cd6752186a69103bb988fd53e5a9da6532e4c08ae6f01c4edd4fc
 size 29034840

last-checkpoint/global_step11650/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2180ba83222f11e29fffc8a3c275861ad0e249b031a848ae27e5a69fe782b43
+size 43429616

last-checkpoint/global_step11650/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4098ce9867c4422f3717286eb58db800288e0f0c1b7bca46c8b6972354ca5ed
+size 43429616

last-checkpoint/global_step11650/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c705673d8857ac5aed5d2146bd25f3d98d899208feae5fd54f4169977ddd03f1
+size 43429616

last-checkpoint/global_step11650/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f57cf0bd2897e74ccd1869b30a0f419fdfb219cd3e6c17f0f9927f2be9382f4
+size 43429616

last-checkpoint/global_step11650/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:848f867d3b3ddd4219efdfab81a3a352d213e762b9d8691effb0e7edbfd2a599
+size 637299

last-checkpoint/global_step11650/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb8c29838a5b3e8a27da1fc01f55efe7330ccc7d763647344b21f9c83858c6d2
+size 637171

last-checkpoint/global_step11650/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61fc58258866099faad38d795eabc41d6472e47ebdf574e098a1b8c99575718b
+size 637171

last-checkpoint/global_step11650/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:820b15695d0698819be1dfbf872b626365c7b9cd65ebdac09f644af6632bd548
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11600~~


1	+ global_step11650

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04a608f7c753833a4201b8a81eec67084f1800198ebebdb3ca5a7c449c2250cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:140dcfa0ccc3e7e4e75a20ea5574fb88aaa6f66403d175a54cdb44ba5a484202
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c7f426827da46cf917c77ad26eb67616a08f771ca15120e70865759017becdd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:51df7ea8967ee21aaf5ecebba23dea00d0f4e9d07c0ee4b09665074da06c4271
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70ed1e4b671ca40cd0fee33c20c9ff21bf8698f4ec8ae49767b7184e98cc821b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:703ce5f91b22ed45270a54df2495ee6ed74c9f8706cd08d9901cf4e4b2776ec9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:526863b8e330a9651e5ae6e145b01d0e4a71c0dd8df04575f1bcd0c28be3580e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e5302c66fc2f45ec32af6d0bdf0705fc6e7006f56e1c4176aa2683dd8a44a17
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e31fcb959dc156eb9fb669240684e5da71a7affef70d5a591a69f5f5f3ea816b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73873c5dc0739a1c9b404225926fb3c60340455b686793a1155923d4d88f997b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.421181587087685,
   "eval_steps": 50,
-  "global_step": 11600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20655,11 +20655,100 @@
       "eval_steps_per_second": 0.769,
       "num_input_tokens_seen": 77549560,
       "step": 11600
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 77549560,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20674,7 +20763,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4864183102078976.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.4273069737527182,
   "eval_steps": 50,
+  "global_step": 11650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.769,
       "num_input_tokens_seen": 77549560,
       "step": 11600
+    },
+    {
+      "epoch": 1.4217941257541882,
+      "grad_norm": 1.482456260147129,
+      "learning_rate": 2.116166636439865e-05,
+      "loss": 0.2383,
+      "num_input_tokens_seen": 77582480,
+      "step": 11605
+    },
+    {
+      "epoch": 1.4224066644206916,
+      "grad_norm": 0.7904057956562802,
+      "learning_rate": 2.1120306382769223e-05,
+      "loss": 0.2478,
+      "num_input_tokens_seen": 77616096,
+      "step": 11610
+    },
+    {
+      "epoch": 1.4230192030871949,
+      "grad_norm": 1.2212879423399834,
+      "learning_rate": 2.1078976034215076e-05,
+      "loss": 0.2231,
+      "num_input_tokens_seen": 77649232,
+      "step": 11615
+    },
+    {
+      "epoch": 1.4236317417536983,
+      "grad_norm": 1.17414440380428,
+      "learning_rate": 2.1037675361144764e-05,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 77683000,
+      "step": 11620
+    },
+    {
+      "epoch": 1.4242442804202016,
+      "grad_norm": 1.633390357694746,
+      "learning_rate": 2.0996404405936388e-05,
+      "loss": 0.2083,
+      "num_input_tokens_seen": 77716136,
+      "step": 11625
+    },
+    {
+      "epoch": 1.4248568190867048,
+      "grad_norm": 0.9236835374178289,
+      "learning_rate": 2.0955163210937507e-05,
+      "loss": 0.204,
+      "num_input_tokens_seen": 77750064,
+      "step": 11630
+    },
+    {
+      "epoch": 1.425469357753208,
+      "grad_norm": 1.358055893320477,
+      "learning_rate": 2.091395181846516e-05,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 77783792,
+      "step": 11635
+    },
+    {
+      "epoch": 1.4260818964197115,
+      "grad_norm": 1.2925316714831874,
+      "learning_rate": 2.0872770270805834e-05,
+      "loss": 0.207,
+      "num_input_tokens_seen": 77817472,
+      "step": 11640
+    },
+    {
+      "epoch": 1.4266944350862147,
+      "grad_norm": 1.0474518928956342,
+      "learning_rate": 2.0831618610215374e-05,
+      "loss": 0.2444,
+      "num_input_tokens_seen": 77850496,
+      "step": 11645
+    },
+    {
+      "epoch": 1.4273069737527182,
+      "grad_norm": 1.4801887733220611,
+      "learning_rate": 2.079049687891898e-05,
+      "loss": 0.23,
+      "num_input_tokens_seen": 77884056,
+      "step": 11650
+    },
+    {
+      "epoch": 1.4273069737527182,
+      "eval_loss": 0.17718727886676788,
+      "eval_runtime": 19.8826,
+      "eval_samples_per_second": 3.018,
+      "eval_steps_per_second": 0.754,
+      "num_input_tokens_seen": 77884056,
+      "step": 11650
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 77884056,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4885167416672256.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null