Training in progress, step 10200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10200/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10200/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10200/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10200/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b709a208926d21714cd1bb86f591d64cce47911809ec3f7e8a5c123f64f95d0
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:f45d5830c2e09f370b3d63c8ba834333afe356f626320b42c74a5ee1fe9417ef
 size 29034840

last-checkpoint/global_step10200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d551158e0f34a36fdc3978643e23b675795b3f5f249eb404c0253f98e2484389
+size 43429616

last-checkpoint/global_step10200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:671c8a93f9fa8edb54f07e77ecf0657d35765a0357b65e69b53eefc590bb3b45
+size 43429616

last-checkpoint/global_step10200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa7c38e62f627acf80f1e3c5041d7f1d477a739cd07d8687e25a2b2bcb5c42a8
+size 43429616

last-checkpoint/global_step10200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7c71e3b6ba799372447ad2fcdcd0e8071089c6f3a7ad0d054bc6998603cb99f
+size 43429616

last-checkpoint/global_step10200/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc15bc3b9e4151e842fc8099a51ffad55774d012eb69d52b4dab5fbf44ccb439
+size 637299

last-checkpoint/global_step10200/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b357ea23b3f31e27e36a4ee5d5f694402e55c2970c38783b007bbe395a7ed3d7
+size 637171

last-checkpoint/global_step10200/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a925f7de099825ce5aad1b7c9a92b2816a8e59dd1c239e704eaafae0545f0143
+size 637171

last-checkpoint/global_step10200/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f3370483c49ceb4590bfeec7265de1cfc11e7cb342c52e89492acaf462dc3cc
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10150~~


1	+ global_step10200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8b60a1e55577dcd4ed4fa019490c4c8eb9f112f4cd49750bf0dad84e03964d8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:81c742bef4e9bd4396f69ec57fa3bd186faf61932dc3a3e366435e42756967d6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03594dad0b7bcdfd713e254e6b4b6361abf9101ccb4145def4e53b637fbf29f0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a68921b2f8e05186da263a9a77a4b36025ed43aca0639d90191be06bdef3b767
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06754065173301b0389466b461ad8c15f2df51ba57930e6118cfef8791c58d11
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c2efaab0dbf0012b03c39da2b9cc6388d50975e301c40d4015caf7f591c7d11
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27ab01cfdaef4a38e122402159bb7f3067802714906a79c8bb2d7b9185cfd311
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea9174784682317bb501948a41f1be2d5af58713ba3a3b62566dbb9e9f137c6b
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7a5914a992a4a403b02982cd5ff7e2aa6de814df9df91f0b8f16811eec8d7c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50a3e5820ba1c22bd9113df8ca1abded61b49b208d64e1c8f74ef02411fd9798
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.2435453738017213,
   "eval_steps": 50,
-  "global_step": 10150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18074,11 +18074,100 @@
       "eval_steps_per_second": 0.784,
       "num_input_tokens_seen": 67807536,
       "step": 10150
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 67807536,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -18093,7 +18182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4253231174647808.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.2496707604667545,
   "eval_steps": 50,
+  "global_step": 10200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.784,
       "num_input_tokens_seen": 67807536,
       "step": 10150
+    },
+    {
+      "epoch": 1.2441579124682245,
+      "grad_norm": 1.380027226146845,
+      "learning_rate": 3.4223892035435414e-05,
+      "loss": 0.2761,
+      "num_input_tokens_seen": 67840480,
+      "step": 10155
+    },
+    {
+      "epoch": 1.244770451134728,
+      "grad_norm": 0.9654065219994176,
+      "learning_rate": 3.4175839350844576e-05,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 67873680,
+      "step": 10160
+    },
+    {
+      "epoch": 1.2453829898012312,
+      "grad_norm": 0.9787005093120792,
+      "learning_rate": 3.41278029032177e-05,
+      "loss": 0.2261,
+      "num_input_tokens_seen": 67907360,
+      "step": 10165
+    },
+    {
+      "epoch": 1.2459955284677346,
+      "grad_norm": 1.3834394549082887,
+      "learning_rate": 3.407978274184435e-05,
+      "loss": 0.2116,
+      "num_input_tokens_seen": 67941136,
+      "step": 10170
+    },
+    {
+      "epoch": 1.2466080671342379,
+      "grad_norm": 0.8379514180119303,
+      "learning_rate": 3.4031778915997375e-05,
+      "loss": 0.1925,
+      "num_input_tokens_seen": 67975016,
+      "step": 10175
+    },
+    {
+      "epoch": 1.2472206058007411,
+      "grad_norm": 1.1872491287630014,
+      "learning_rate": 3.3983791474932864e-05,
+      "loss": 0.194,
+      "num_input_tokens_seen": 68009336,
+      "step": 10180
+    },
+    {
+      "epoch": 1.2478331444672446,
+      "grad_norm": 1.384942926349532,
+      "learning_rate": 3.393582046789012e-05,
+      "loss": 0.243,
+      "num_input_tokens_seen": 68042592,
+      "step": 10185
+    },
+    {
+      "epoch": 1.2484456831337478,
+      "grad_norm": 0.9933902622789962,
+      "learning_rate": 3.388786594409155e-05,
+      "loss": 0.2092,
+      "num_input_tokens_seen": 68076744,
+      "step": 10190
+    },
+    {
+      "epoch": 1.249058221800251,
+      "grad_norm": 1.303521595759064,
+      "learning_rate": 3.383992795274268e-05,
+      "loss": 0.2521,
+      "num_input_tokens_seen": 68110272,
+      "step": 10195
+    },
+    {
+      "epoch": 1.2496707604667545,
+      "grad_norm": 1.2843223741616177,
+      "learning_rate": 3.379200654303204e-05,
+      "loss": 0.2047,
+      "num_input_tokens_seen": 68143912,
+      "step": 10200
+    },
+    {
+      "epoch": 1.2496707604667545,
+      "eval_loss": 0.16254977881908417,
+      "eval_runtime": 19.3699,
+      "eval_samples_per_second": 3.098,
+      "eval_steps_per_second": 0.774,
+      "num_input_tokens_seen": 68143912,
+      "step": 10200
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 68143912,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4274338021900288.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null