Training in progress, step 11200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11200/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11200/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11200/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11200/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fbe11c8cfeee8afaad07093a52a298b4d54ead24b79f9d7147b4ac16e702d7d
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb613b7a256807ef338a6d86f6b8835264592147c48b1ceb1576db73a2d29ecf
 size 29034840

last-checkpoint/global_step11200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a49247f7a5dbb85046813911c81b147441052c36d2a1ee9cf330b58471b6ff9
+size 43429616

last-checkpoint/global_step11200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5ea2a7518990ad8edea9270a514be2de59223da7afa5f14537ec8573accee9b
+size 43429616

last-checkpoint/global_step11200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:518e8c3960d9e5b06111d37f383dc862a7c2a612b5d6ee42b7603008462ca0d5
+size 43429616

last-checkpoint/global_step11200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed55d8d4ba5e0e6a9d2ac0877904297366897ddb65fdf29500074c993d14553
+size 43429616

last-checkpoint/global_step11200/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dc65f41042186a6597d9e0506facac488c22fa317baaffddcedfd697058d8b5
+size 637299

last-checkpoint/global_step11200/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e86839a06130ed51c7d0ca21cac3ad51f5eba0728a326c8a7a5c6a63a97ce158
+size 637171

last-checkpoint/global_step11200/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a3aa91a406ac13e36de963177af8adf12c4b4d32962b627acf16fdaab4b58a2
+size 637171

last-checkpoint/global_step11200/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c9805a34d4a0445d38244a8b34fcf2f5397c5a7d11ccca273a174e9bd667edc
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11150~~


1	+ global_step11200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3cad2c8b29e598e7e2ffcc6315ff1051f90214a6e97debdcd92d23904705b4a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5a58aaf06ec2b8eda78c5f2f2ac7148a98cae00fe24702bd54e14ca6f5a7216
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ca6102c873816870ffe4b66e9e18be91dca3aa16a90760134101413ffd75685
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e49b44e414e04e39f0702fc16eb809e710c1fb4097853c3426e644ce631651d
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:418c34b07fefc23a05efe584b58a927935a830386544b2611439d820010bd5b7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd3a64f00be04c08ec9e76003e026cd7fe1360420cba01612487f382a8779cc
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37bc6d29978d73b25002f388347dac14f60527042f328ee71a4c8e6b288a82b8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:09a3abf68c456fd01db337f7f7a45adf467d83d959fd2e573783cb280ebc87f2
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:538ca13148fdaae10d2a4068d9e6e005cd6c9092b2043d01d85a688dfe8c7d39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:72262b6106604c5f1a98229085b73dca3b965e0b9c41eaabfcd828a3f9df568a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3660531071023858,
   "eval_steps": 50,
-  "global_step": 11150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19854,11 +19854,100 @@
       "eval_steps_per_second": 0.774,
       "num_input_tokens_seen": 74528296,
       "step": 11150
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 74528296,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -19873,7 +19962,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4674728332099584.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.372178493767419,
   "eval_steps": 50,
+  "global_step": 11200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.774,
       "num_input_tokens_seen": 74528296,
       "step": 11150
+    },
+    {
+      "epoch": 1.3666656457688893,
+      "grad_norm": 1.1954091110116585,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.1971,
+      "num_input_tokens_seen": 74562368,
+      "step": 11155
+    },
+    {
+      "epoch": 1.3672781844353925,
+      "grad_norm": 1.448181363417585,
+      "learning_rate": 2.4956150399745375e-05,
+      "loss": 0.2395,
+      "num_input_tokens_seen": 74596328,
+      "step": 11160
+    },
+    {
+      "epoch": 1.3678907231018957,
+      "grad_norm": 2.1272140492982055,
+      "learning_rate": 2.4912326496656762e-05,
+      "loss": 0.2587,
+      "num_input_tokens_seen": 74629408,
+      "step": 11165
+    },
+    {
+      "epoch": 1.3685032617683992,
+      "grad_norm": 1.2118543871719263,
+      "learning_rate": 2.4868528335701275e-05,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 74662920,
+      "step": 11170
+    },
+    {
+      "epoch": 1.3691158004349024,
+      "grad_norm": 1.5201689858137362,
+      "learning_rate": 2.4824755961819647e-05,
+      "loss": 0.2238,
+      "num_input_tokens_seen": 74696728,
+      "step": 11175
+    },
+    {
+      "epoch": 1.369728339101406,
+      "grad_norm": 1.6964360928117685,
+      "learning_rate": 2.478100941992613e-05,
+      "loss": 0.2288,
+      "num_input_tokens_seen": 74730448,
+      "step": 11180
+    },
+    {
+      "epoch": 1.3703408777679091,
+      "grad_norm": 1.0971640842186783,
+      "learning_rate": 2.4737288754908517e-05,
+      "loss": 0.2066,
+      "num_input_tokens_seen": 74764088,
+      "step": 11185
+    },
+    {
+      "epoch": 1.3709534164344124,
+      "grad_norm": 0.9738244569482346,
+      "learning_rate": 2.469359401162795e-05,
+      "loss": 0.2158,
+      "num_input_tokens_seen": 74797488,
+      "step": 11190
+    },
+    {
+      "epoch": 1.3715659551009156,
+      "grad_norm": 1.1636541723418108,
+      "learning_rate": 2.4649925234919063e-05,
+      "loss": 0.1934,
+      "num_input_tokens_seen": 74830920,
+      "step": 11195
+    },
+    {
+      "epoch": 1.372178493767419,
+      "grad_norm": 1.107536927721727,
+      "learning_rate": 2.4606282469589837e-05,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 74864760,
+      "step": 11200
+    },
+    {
+      "epoch": 1.372178493767419,
+      "eval_loss": 0.15537530183792114,
+      "eval_runtime": 19.755,
+      "eval_samples_per_second": 3.037,
+      "eval_steps_per_second": 0.759,
+      "num_input_tokens_seen": 74864760,
+      "step": 11200
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 74864760,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4695845966708736.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null