Training in progress, step 10100, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10100/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10100/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10100/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10100/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0a6a6262afae6166e77e12add482e0b68ec745ba62898fef6f14cd815532e17
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:e79db939395753141bfe875b738ef82cca9d45d7bcfdfddd95fe7c15504a2484
 size 29034840

last-checkpoint/global_step10100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9223046293624a56244d529257e7407c6d36f8148a92b17f95f2c78c966f82a3
+size 43429616

last-checkpoint/global_step10100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f1190c45107fc5fff28e5985b4fe42d3974a2a3b97ed76c2b6fbffb9bd464f9
+size 43429616

last-checkpoint/global_step10100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00a6c9ae557379eadc72dae87a8b1c9f4b07b463c13c68402067b35f8f6fb723
+size 43429616

last-checkpoint/global_step10100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45a79a6482597fa34aeb6e22a50bd2a625b05cbda1248d9d431c49ff2858a009
+size 43429616

last-checkpoint/global_step10100/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a479968d1f02d603be5427645d2a84cd402b2e7984404dc0311f5a520ccc7afa
+size 637299

last-checkpoint/global_step10100/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dee17f1a543d69c089e320b92706057ef8076de6b3533317c888eac6ee861a0
+size 637171

last-checkpoint/global_step10100/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:233fd5e0cef08eb151b19ccde5ffae7cce896dfe8ac28ecad491494efb1d2d1f
+size 637171

last-checkpoint/global_step10100/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:791be335648ac706646da7407a6c416cf1e7a04f57989605c056b3cec90b241a
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10050~~


1	+ global_step10100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14f5c873d68a76dc6491d3b4a95315f1091083531e3aa4f8b2b7feb95b350da4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a0a5c8c7d25a319fd50aab320820c49b23d25eda1fb3bf644952fdcb35df10c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23a6e3e9dc8c26044036cdc34507fcb486d4110a0c7dbfe0544e104eea4009e9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d05960ea8920915bac2c24df21232e8d63ea0962959ab1bded77448f7c82743a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b3f836738843d1bb9208fec3a6e760ce3c0184b7626c476ea70406afa8bae1a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:db279daa0fca9102a6ff0177599f2c335a51d72a070de4249cc06ee79b379358
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7993e4f988863604fc4b4467044a66db7ae4962d4f97c04568dfde8c6189851a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0038ab880e16b83b70c8c8f774126e510d3953b05bcb4f1c08d33cdc03f1d99
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2378b17bb22c7e6b87904c947af707f6da3c5b1f649a44e4ef948891abf0cd8e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:605c43263e93e15eea18711fe7654abd11378f9d72f92eb1ebe17e1ac6d71f02
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.2312946004716547,
   "eval_steps": 50,
-  "global_step": 10050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17896,11 +17896,100 @@
       "eval_steps_per_second": 0.753,
       "num_input_tokens_seen": 67134040,
       "step": 10050
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 67134040,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -17915,7 +18004,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4210985530949632.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.237419987136688,
   "eval_steps": 50,
+  "global_step": 10100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.753,
       "num_input_tokens_seen": 67134040,
       "step": 10050
+    },
+    {
+      "epoch": 1.2319071391381582,
+      "grad_norm": 1.2139171380445146,
+      "learning_rate": 3.51882794379193e-05,
+      "loss": 0.2511,
+      "num_input_tokens_seen": 67167360,
+      "step": 10055
+    },
+    {
+      "epoch": 1.2325196778046614,
+      "grad_norm": 1.289528857461294,
+      "learning_rate": 3.513991239014579e-05,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 67201216,
+      "step": 10060
+    },
+    {
+      "epoch": 1.2331322164711647,
+      "grad_norm": 1.4892651263348418,
+      "learning_rate": 3.509156059011352e-05,
+      "loss": 0.2481,
+      "num_input_tokens_seen": 67234824,
+      "step": 10065
+    },
+    {
+      "epoch": 1.2337447551376681,
+      "grad_norm": 1.354493452944373,
+      "learning_rate": 3.504322408743562e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 67268160,
+      "step": 10070
+    },
+    {
+      "epoch": 1.2343572938041714,
+      "grad_norm": 1.1377962133780994,
+      "learning_rate": 3.499490293170956e-05,
+      "loss": 0.2403,
+      "num_input_tokens_seen": 67301776,
+      "step": 10075
+    },
+    {
+      "epoch": 1.2349698324706746,
+      "grad_norm": 1.3213479082546846,
+      "learning_rate": 3.494659717251704e-05,
+      "loss": 0.2145,
+      "num_input_tokens_seen": 67336184,
+      "step": 10080
+    },
+    {
+      "epoch": 1.235582371137178,
+      "grad_norm": 1.0822056854819904,
+      "learning_rate": 3.489830685942397e-05,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 67370240,
+      "step": 10085
+    },
+    {
+      "epoch": 1.2361949098036813,
+      "grad_norm": 1.095493880410798,
+      "learning_rate": 3.485003204198041e-05,
+      "loss": 0.2157,
+      "num_input_tokens_seen": 67404432,
+      "step": 10090
+    },
+    {
+      "epoch": 1.2368074484701848,
+      "grad_norm": 1.4155671248879054,
+      "learning_rate": 3.480177276972051e-05,
+      "loss": 0.2186,
+      "num_input_tokens_seen": 67437912,
+      "step": 10095
+    },
+    {
+      "epoch": 1.237419987136688,
+      "grad_norm": 1.1597648700568828,
+      "learning_rate": 3.475352909216246e-05,
+      "loss": 0.2574,
+      "num_input_tokens_seen": 67471000,
+      "step": 10100
+    },
+    {
+      "epoch": 1.237419987136688,
+      "eval_loss": 0.21491877734661102,
+      "eval_runtime": 19.4089,
+      "eval_samples_per_second": 3.091,
+      "eval_steps_per_second": 0.773,
+      "num_input_tokens_seen": 67471000,
+      "step": 10100
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 67471000,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4232111462940672.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null