Training in progress, step 11250, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step11250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11250/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11250/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11250/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step11250/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb613b7a256807ef338a6d86f6b8835264592147c48b1ceb1576db73a2d29ecf
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:90d81778cc2ef2c0aaa7e9d5a71c766e915039a5b82802bed36df17267327dab
 size 29034840

last-checkpoint/global_step11250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57172d1837dae09c1501342d8aa2ab3cf78de8c7721df57183c3477050791bb6
+size 43429616

last-checkpoint/global_step11250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b4daf2168a7686c5d29f99fbad305d487fe180936f1c80d7b7e9e32c3f476b4
+size 43429616

last-checkpoint/global_step11250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17bcdf79ed381168c63ba43b982918450e865aa447a044de6ba328d091b8f347
+size 43429616

last-checkpoint/global_step11250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:051a4df13c0403821b87b6cd1905abad64073f8dd6f0294e7db68213690f7233
+size 43429616

last-checkpoint/global_step11250/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e99469143b18733c3f737f6642dc494adc04262337acebc620ad70bca1bb73eb
+size 637299

last-checkpoint/global_step11250/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61b847653903b5104520cf0eb806eea16c11539d73ca9cf227e8b741b836b59d
+size 637171

last-checkpoint/global_step11250/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa85fc6654322fe784df177a366d504c33681920f3b71b34ff75bc715f4ffa39
+size 637171

last-checkpoint/global_step11250/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88594e247bfcdbeb57942215948d263b12ce539ca99298b32ec27698819f9446
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step11200~~


1	+ global_step11250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5a58aaf06ec2b8eda78c5f2f2ac7148a98cae00fe24702bd54e14ca6f5a7216
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9391df12420771e7a23f32c8c5b113ad4ba3e3b50a3af0ebc693d5897bac878c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e49b44e414e04e39f0702fc16eb809e710c1fb4097853c3426e644ce631651d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b40ebbcfd0ebca5d6541a1ff18ce4792f88fde2908fabcabe69adab7e824a131
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd3a64f00be04c08ec9e76003e026cd7fe1360420cba01612487f382a8779cc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f69c0d167e1a2d884bd8d50f1c2aab03354407d35f58d8f1af272c5a22f54a6
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09a3abf68c456fd01db337f7f7a45adf467d83d959fd2e573783cb280ebc87f2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:38b96cd40243779805fff577c7aff03639ba272fbec3e396db7be9f3c4eeb72a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72262b6106604c5f1a98229085b73dca3b965e0b9c41eaabfcd828a3f9df568a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc6d4bc5d8885e14143685c986f72b4c0e5389631fdc959ac8dbb2e59c4e74f3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.372178493767419,
   "eval_steps": 50,
-  "global_step": 11200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19943,11 +19943,100 @@
       "eval_steps_per_second": 0.759,
       "num_input_tokens_seen": 74864760,
       "step": 11200
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 74864760,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -19962,7 +20051,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4695845966708736.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.3783038804324523,
   "eval_steps": 50,
+  "global_step": 11250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.759,
       "num_input_tokens_seen": 74864760,
       "step": 11200
+    },
+    {
+      "epoch": 1.3727910324339223,
+      "grad_norm": 1.51229292450707,
+      "learning_rate": 2.4562665760421493e-05,
+      "loss": 0.2228,
+      "num_input_tokens_seen": 74898192,
+      "step": 11205
+    },
+    {
+      "epoch": 1.3734035711004258,
+      "grad_norm": 1.3818600096103932,
+      "learning_rate": 2.4519075152168597e-05,
+      "loss": 0.2745,
+      "num_input_tokens_seen": 74930960,
+      "step": 11210
+    },
+    {
+      "epoch": 1.374016109766929,
+      "grad_norm": 1.3756106461873228,
+      "learning_rate": 2.447551068955889e-05,
+      "loss": 0.204,
+      "num_input_tokens_seen": 74964680,
+      "step": 11215
+    },
+    {
+      "epoch": 1.3746286484334322,
+      "grad_norm": 1.0064209232056647,
+      "learning_rate": 2.4431972417293325e-05,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 74998424,
+      "step": 11220
+    },
+    {
+      "epoch": 1.3752411870999357,
+      "grad_norm": 1.200693688480308,
+      "learning_rate": 2.4388460380045925e-05,
+      "loss": 0.2694,
+      "num_input_tokens_seen": 75031816,
+      "step": 11225
+    },
+    {
+      "epoch": 1.375853725766439,
+      "grad_norm": 1.5919153040868224,
+      "learning_rate": 2.4344974622463805e-05,
+      "loss": 0.2386,
+      "num_input_tokens_seen": 75065480,
+      "step": 11230
+    },
+    {
+      "epoch": 1.3764662644329424,
+      "grad_norm": 1.054999563757491,
+      "learning_rate": 2.4301515189167152e-05,
+      "loss": 0.215,
+      "num_input_tokens_seen": 75098816,
+      "step": 11235
+    },
+    {
+      "epoch": 1.3770788030994456,
+      "grad_norm": 1.044486761861506,
+      "learning_rate": 2.4258082124749137e-05,
+      "loss": 0.1899,
+      "num_input_tokens_seen": 75131904,
+      "step": 11240
+    },
+    {
+      "epoch": 1.3776913417659489,
+      "grad_norm": 1.4468459674495724,
+      "learning_rate": 2.4214675473775826e-05,
+      "loss": 0.2442,
+      "num_input_tokens_seen": 75164672,
+      "step": 11245
+    },
+    {
+      "epoch": 1.3783038804324523,
+      "grad_norm": 16.578633531559458,
+      "learning_rate": 2.417129528078623e-05,
+      "loss": 0.2163,
+      "num_input_tokens_seen": 75199264,
+      "step": 11250
+    },
+    {
+      "epoch": 1.3783038804324523,
+      "eval_loss": 0.14667704701423645,
+      "eval_runtime": 20.3189,
+      "eval_samples_per_second": 2.953,
+      "eval_steps_per_second": 0.738,
+      "num_input_tokens_seen": 75199264,
+      "step": 11250
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 75199264,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4716812931301376.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null