Training in progress, step 11400, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11400/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11400/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11400/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11400/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edc014425a512bfb24ea4891c4aef3f48c141f1f00d1f7453681365e76633268
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e1585cc4b434bda55aa62dcf220f7cf2435c298689413f9bb652f6fb53da2ee
 size 29034840

last-checkpoint/global_step11400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c7add0ba3e79d77224a913476c8b8bbcf89ead2501d62b29992aec11d4d5af2
+size 43429616

last-checkpoint/global_step11400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:488efdb1a984d45f03427912e4be5f949a6a9cf771806f8327d0c0066592c6e0
+size 43429616

last-checkpoint/global_step11400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5e31b7bdfe59a1ba05152087f9ff51451b4af21cbf48a919eb4b5265c346ea0
+size 43429616

last-checkpoint/global_step11400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78d87820e83f7ddeb996eec1fd36bc5f384f8b85afa4ace7019b0b1b018603af
+size 43429616

last-checkpoint/global_step11400/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eb2d8b91bacc8e70283982fc2b5ee66df73703effe37b0df072e504fb42dc19
+size 637299

last-checkpoint/global_step11400/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f171543238da415fec1fa7b3646fb93ad6b2e8cc64f7ad80c134e28f7b15218
+size 637171

last-checkpoint/global_step11400/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f188c3894c4731e7625183fabfed0440c1ccfe47364b416e305240b921608ea4
+size 637171

last-checkpoint/global_step11400/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3be1dd2d1df06de5afb116bafcacc4625acaee8e468fd1870bbca7acd0528dfb
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11350~~


1	+ global_step11400

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09ff6441ff368f6bad27e48a0362b77b338163b2ee1b15751fc3233cf1145ecc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e27648483919bf6db61bc01bdc08d8433f1eb24e83aac7f139542c05da435ddb
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ebb93e7cba7126cd62f47fae229b37829e1e1fad42bc204362afc892225cc21
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbfb347c5b75d89470fe0836fe28917c7357455657faee86c6d63bcebf4d2364
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89185906b69c940650b80ba4e630ae4cb9dd704b264f6b06e7d3bfff2d267319
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:784373446df3f533577379aca34fdc3d78674dfd62151a3124bbcd593cc45985
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1056a5c3a428500192d5b8a2afe77cbae2afe446f795137aa2e6595314783a5c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:efd05d8ba8e5381dd14b88a432136176dbc3553bfe0868349d69d1ddfcb01223
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac8cd11960cc9e792f50280ed9e43f35e6a2f509ff57d9f6ebd92e0d5757652e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:27cd5dd8b545df66df0f76dc60e9970f057069194a0bb0e6af5e90abad0f56cc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3905546537625186,
   "eval_steps": 50,
-  "global_step": 11350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20210,11 +20210,100 @@
       "eval_steps_per_second": 0.762,
       "num_input_tokens_seen": 75870800,
       "step": 11350
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 75870800,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -20229,7 +20318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4758866066145280.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.396680040427552,
   "eval_steps": 50,
+  "global_step": 11400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.762,
       "num_input_tokens_seen": 75870800,
       "step": 11350
+    },
+    {
+      "epoch": 1.391167192429022,
+      "grad_norm": 1.0752398721462886,
+      "learning_rate": 2.3266501610390906e-05,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 75905072,
+      "step": 11355
+    },
+    {
+      "epoch": 1.3917797310955253,
+      "grad_norm": 1.4944338956696954,
+      "learning_rate": 2.322371470597699e-05,
+      "loss": 0.2484,
+      "num_input_tokens_seen": 75938048,
+      "step": 11360
+    },
+    {
+      "epoch": 1.3923922697620288,
+      "grad_norm": 1.4611829079192886,
+      "learning_rate": 2.3180955276358628e-05,
+      "loss": 0.2457,
+      "num_input_tokens_seen": 75971152,
+      "step": 11365
+    },
+    {
+      "epoch": 1.393004808428532,
+      "grad_norm": 1.3441537014783147,
+      "learning_rate": 2.3138223365410743e-05,
+      "loss": 0.219,
+      "num_input_tokens_seen": 76004648,
+      "step": 11370
+    },
+    {
+      "epoch": 1.3936173470950353,
+      "grad_norm": 1.001647162051465,
+      "learning_rate": 2.3095519016979976e-05,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 76037936,
+      "step": 11375
+    },
+    {
+      "epoch": 1.3942298857615387,
+      "grad_norm": 1.218728080470328,
+      "learning_rate": 2.3052842274884728e-05,
+      "loss": 0.202,
+      "num_input_tokens_seen": 76071568,
+      "step": 11380
+    },
+    {
+      "epoch": 1.394842424428042,
+      "grad_norm": 1.482661327395792,
+      "learning_rate": 2.301019318291502e-05,
+      "loss": 0.2149,
+      "num_input_tokens_seen": 76105328,
+      "step": 11385
+    },
+    {
+      "epoch": 1.3954549630945454,
+      "grad_norm": 1.3147384066460048,
+      "learning_rate": 2.296757178483251e-05,
+      "loss": 0.2472,
+      "num_input_tokens_seen": 76138608,
+      "step": 11390
+    },
+    {
+      "epoch": 1.3960675017610487,
+      "grad_norm": 1.1511171118587837,
+      "learning_rate": 2.2924978124370472e-05,
+      "loss": 0.1948,
+      "num_input_tokens_seen": 76171936,
+      "step": 11395
+    },
+    {
+      "epoch": 1.396680040427552,
+      "grad_norm": 1.4155361943897409,
+      "learning_rate": 2.2882412245233727e-05,
+      "loss": 0.2228,
+      "num_input_tokens_seen": 76204736,
+      "step": 11400
+    },
+    {
+      "epoch": 1.396680040427552,
+      "eval_loss": 0.13607601821422577,
+      "eval_runtime": 19.5448,
+      "eval_samples_per_second": 3.07,
+      "eval_steps_per_second": 0.767,
+      "num_input_tokens_seen": 76204736,
+      "step": 11400
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 76204736,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4779843103358976.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null