Training in progress, step 10050, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10050/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10050/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10050/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10050/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f3df1923d9fa4d4ba4210c00d4064b1217e6de0d9fae21da85801e619830098
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0a6a6262afae6166e77e12add482e0b68ec745ba62898fef6f14cd815532e17
 size 29034840

last-checkpoint/global_step10050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d94a2dd4e276b2697f19dbea4ce694bc412576b5b7a1b5e81c0cd456979b2ca8
+size 43429616

last-checkpoint/global_step10050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1933ca4ed8155d2b20a9b2bd2c9172ac06103c506122885f40adb24b54be22cf
+size 43429616

last-checkpoint/global_step10050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e89111a98363ae9587a1b1cfc00fe355428da0588f0ab50fd45546f99267180
+size 43429616

last-checkpoint/global_step10050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3ced2c62f2f31aa9c015c5963c96063ce25c571d21b55cb5f207bc2a8e8632d
+size 43429616

last-checkpoint/global_step10050/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb545f3d7af85503010cd0dec10746f08ab85195f5f761d725d3e64627b6fdc
+size 637299

last-checkpoint/global_step10050/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d9a2074cf86b0596c3c1043c255a7cecdcfd881f3b2a8c1f95f35ef9c6974d9
+size 637171

last-checkpoint/global_step10050/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2ba27a8c4e9d538b0d1dbb587e4f61ae1108c541c6c2e18b7b487f28a95a048
+size 637171

last-checkpoint/global_step10050/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64abd79776cfb99b8efe931a91766f8f5182dbc91b35c2aa1613d2a20ffc790b
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10000~~


1	+ global_step10050

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08cce78177d96f46cb05953508580d717e9ab4cfa0af96f68f8fbf922cd3832f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:14f5c873d68a76dc6491d3b4a95315f1091083531e3aa4f8b2b7feb95b350da4
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dd5e724cd1bc66d3308b441566c50035a5b4cfe9d731ef333cb45aff2efa0a8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:23a6e3e9dc8c26044036cdc34507fcb486d4110a0c7dbfe0544e104eea4009e9
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db95c164a3f9f096591c54d374b04e63d0f313de87d240a7e902ed5ba07a81ca
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b3f836738843d1bb9208fec3a6e760ce3c0184b7626c476ea70406afa8bae1a
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac2f9e5ecbefb231e5ddf28d7401794dd06330430a1d71c9e093f1b6b293b05
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7993e4f988863604fc4b4467044a66db7ae4962d4f97c04568dfde8c6189851a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1e4f4d6952a4344fd27915c35f70bbe655fc6d5c21ec3a8fcbb8a3a75429e23
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2378b17bb22c7e6b87904c947af707f6da3c5b1f649a44e4ef948891abf0cd8e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.2251692138066215,
   "eval_steps": 50,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17807,11 +17807,100 @@
       "eval_steps_per_second": 0.735,
       "num_input_tokens_seen": 66798760,
       "step": 10000
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 66798760,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -17826,7 +17915,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4189946547535872.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.2312946004716547,
   "eval_steps": 50,
+  "global_step": 10050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.735,
       "num_input_tokens_seen": 66798760,
       "step": 10000
+    },
+    {
+      "epoch": 1.225781752473125,
+      "grad_norm": 1.2319192900049627,
+      "learning_rate": 3.567277761540856e-05,
+      "loss": 0.2139,
+      "num_input_tokens_seen": 66832616,
+      "step": 10005
+    },
+    {
+      "epoch": 1.2263942911396282,
+      "grad_norm": 1.1192074348789183,
+      "learning_rate": 3.56242608223627e-05,
+      "loss": 0.2183,
+      "num_input_tokens_seen": 66866584,
+      "step": 10010
+    },
+    {
+      "epoch": 1.2270068298061316,
+      "grad_norm": 0.9826408269969161,
+      "learning_rate": 3.5575758780074475e-05,
+      "loss": 0.2262,
+      "num_input_tokens_seen": 66900296,
+      "step": 10015
+    },
+    {
+      "epoch": 1.2276193684726349,
+      "grad_norm": 1.270723370422665,
+      "learning_rate": 3.5527271538311205e-05,
+      "loss": 0.2384,
+      "num_input_tokens_seen": 66933888,
+      "step": 10020
+    },
+    {
+      "epoch": 1.228231907139138,
+      "grad_norm": 1.5856866789234034,
+      "learning_rate": 3.5478799146825024e-05,
+      "loss": 0.257,
+      "num_input_tokens_seen": 66966912,
+      "step": 10025
+    },
+    {
+      "epoch": 1.2288444458056416,
+      "grad_norm": 1.0062064527623327,
+      "learning_rate": 3.543034165535282e-05,
+      "loss": 0.2248,
+      "num_input_tokens_seen": 67000680,
+      "step": 10030
+    },
+    {
+      "epoch": 1.2294569844721448,
+      "grad_norm": 1.056356299335675,
+      "learning_rate": 3.538189911361618e-05,
+      "loss": 0.2604,
+      "num_input_tokens_seen": 67033808,
+      "step": 10035
+    },
+    {
+      "epoch": 1.230069523138648,
+      "grad_norm": 1.1192489100705239,
+      "learning_rate": 3.5333471571321375e-05,
+      "loss": 0.1984,
+      "num_input_tokens_seen": 67067608,
+      "step": 10040
+    },
+    {
+      "epoch": 1.2306820618051515,
+      "grad_norm": 1.4785817376378587,
+      "learning_rate": 3.528505907815925e-05,
+      "loss": 0.1937,
+      "num_input_tokens_seen": 67101040,
+      "step": 10045
+    },
+    {
+      "epoch": 1.2312946004716547,
+      "grad_norm": 1.0996901038465798,
+      "learning_rate": 3.523666168380525e-05,
+      "loss": 0.2419,
+      "num_input_tokens_seen": 67134040,
+      "step": 10050
+    },
+    {
+      "epoch": 1.2312946004716547,
+      "eval_loss": 0.12978222966194153,
+      "eval_runtime": 19.9168,
+      "eval_samples_per_second": 3.013,
+      "eval_steps_per_second": 0.753,
+      "num_input_tokens_seen": 67134040,
+      "step": 10050
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 67134040,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4210985530949632.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null