Training in progress, step 10800, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10800/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10800/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10800/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10800/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93a21c4fe29a9103dca860aa3bb15c0e288b74846b4a59c29b3fd8a0bf27740b
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e4513dc6210047a9fb7847fcd8dca9ea72c66f2fa26d93bb8d271292c119000
 size 29034840

last-checkpoint/global_step10800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63ce0a2f24316b30f620b7817dac68975b70e7731a2f980ba413040803bfb63b
+size 43429616

last-checkpoint/global_step10800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2ce3fb811e5ca927632e5643aea491a79735e24c1c30e6f9fbe956ea4b5e346
+size 43429616

last-checkpoint/global_step10800/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab467a149e2303100c799725bb4a91561d762adec22e61a0d320a18e6befc8fe
+size 43429616

last-checkpoint/global_step10800/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1a3c35b256455784ead1e107c4517e95d0d2e26d1b5a4da10fb40285ae7a3fc
+size 43429616

last-checkpoint/global_step10800/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b3c45b6072c8ec1d5de03ae17a5c99d83f5f6d50702503743b6d72503edaa6e
+size 637299

last-checkpoint/global_step10800/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99dcf81581f5f9a4f224dec5b72fb467d95a5ccff25660c64901ddb2828c0309
+size 637171

last-checkpoint/global_step10800/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b0219cf2633ca9908484808e0038e5e7cbaeb4ba3fd3465a482dd73eefcf229
+size 637171

last-checkpoint/global_step10800/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a95eeb140f3beb635de116eb6468962aeb39b2acea57d5f0d055f07d57fe27f
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10750~~


1	+ global_step10800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c08e0df7f2c84b8164ab107eb8d3cd4a985cd82fe5a60ae9e364a68ec3639a3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1697566a46881a626d7b5d7beeaf289eac7abb3228dc7404e0abf936b05d4ecc
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55edbc753eb49d62368d11f179521fb9d5ae7a41bf3df439be5b58898588d862
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d802f0e69cab074744bc89d46c3b349ac14f92f80481496c2f70e7778110860
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:389ea1a6d6727e263f6a278450853d396adad7f849ee20ba1051d7524e720482
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e55641df0b2f672b919df6bc2b163e11f9f68b4af48913c5d1f39652bcf684a
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d23b87e78b4bd2aa5e9af52b52401821aafa218a5f4b2f71fc3a30e0dd77c67
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f31bf4d015bf75b22523ff6d07fa44113e2ddd158194f253c1045597104a3b95
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81f6af293e8bd78f46769a700265966fbd8048df89a7524d9c0b66db799d7a8e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fff0973103028dda8c2cfd5448604f90903bbc3b50457f78601cf11a034cd22
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.31705001378212,
   "eval_steps": 50,
-  "global_step": 10750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19142,11 +19142,100 @@
       "eval_steps_per_second": 0.75,
       "num_input_tokens_seen": 71837520,
       "step": 10750
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 71837520,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -19161,7 +19250,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4505992934326272.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.3231754004471532,
   "eval_steps": 50,
+  "global_step": 10800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.75,
       "num_input_tokens_seen": 71837520,
       "step": 10750
+    },
+    {
+      "epoch": 1.3176625524486232,
+      "grad_norm": 1.1943825653656646,
+      "learning_rate": 2.858719744588928e-05,
+      "loss": 0.1921,
+      "num_input_tokens_seen": 71870856,
+      "step": 10755
+    },
+    {
+      "epoch": 1.3182750911151266,
+      "grad_norm": 1.2513095958234757,
+      "learning_rate": 2.854144001950314e-05,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 71904984,
+      "step": 10760
+    },
+    {
+      "epoch": 1.31888762978163,
+      "grad_norm": 0.9949634903926544,
+      "learning_rate": 2.8495704611464275e-05,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 71939480,
+      "step": 10765
+    },
+    {
+      "epoch": 1.3195001684481333,
+      "grad_norm": 1.1828002010795184,
+      "learning_rate": 2.8449991268701208e-05,
+      "loss": 0.2253,
+      "num_input_tokens_seen": 71973360,
+      "step": 10770
+    },
+    {
+      "epoch": 1.3201127071146366,
+      "grad_norm": 1.375476605140409,
+      "learning_rate": 2.8404300038119825e-05,
+      "loss": 0.2047,
+      "num_input_tokens_seen": 72007440,
+      "step": 10775
+    },
+    {
+      "epoch": 1.3207252457811398,
+      "grad_norm": 1.1086035003719277,
+      "learning_rate": 2.835863096660325e-05,
+      "loss": 0.1839,
+      "num_input_tokens_seen": 72041328,
+      "step": 10780
+    },
+    {
+      "epoch": 1.3213377844476433,
+      "grad_norm": 1.202221399382527,
+      "learning_rate": 2.8312984101011946e-05,
+      "loss": 0.2406,
+      "num_input_tokens_seen": 72074904,
+      "step": 10785
+    },
+    {
+      "epoch": 1.3219503231141465,
+      "grad_norm": 1.3913683968268147,
+      "learning_rate": 2.826735948818358e-05,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 72108648,
+      "step": 10790
+    },
+    {
+      "epoch": 1.32256286178065,
+      "grad_norm": 1.8386972604975618,
+      "learning_rate": 2.8221757174932938e-05,
+      "loss": 0.2294,
+      "num_input_tokens_seen": 72141880,
+      "step": 10795
+    },
+    {
+      "epoch": 1.3231754004471532,
+      "grad_norm": 1.2668737312898322,
+      "learning_rate": 2.817617720805197e-05,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 72175680,
+      "step": 10800
+    },
+    {
+      "epoch": 1.3231754004471532,
+      "eval_loss": 0.17310434579849243,
+      "eval_runtime": 19.7821,
+      "eval_samples_per_second": 3.033,
+      "eval_steps_per_second": 0.758,
+      "num_input_tokens_seen": 72175680,
+      "step": 10800
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 72175680,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4527150548385792.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null