ben81828 commited on Dec 29, 2024

Commit

5d31129

verified ·

1 Parent(s): fce66e6

Training in progress, step 100, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/adapter_config.json +1 -1
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -6
last-checkpoint/training_args.bin +2 -2

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "r": 8,
   "rank_pattern": {},
   "revision": null,
-  "target_modules": "^(?!.*patch_embed).*(?:q_proj|up_proj|o_proj|fc2|fc1|v_proj|qkv|down_proj|k_proj|proj|gate_proj).*",
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false

   "r": 8,
   "rank_pattern": {},
   "revision": null,
+  "target_modules": "^(?!.*patch_embed).*(?:q_proj|gate_proj|proj|fc1|o_proj|k_proj|down_proj|up_proj|qkv|v_proj|fc2).*",
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17deb7272bd30e6445309cfde4487ac21a3f66aed23332eae15cc14a63d72c53
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f284874ecb3c168fcaa4bb347612cb315086af2a1d031e6473043f432bd269e
 size 29034840

last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8eb0b2e8da7018a7b82abb489dc554b3e7a4ab97e1efe44f37f6a5edae41879c
+size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d62086063622354393761b0c69741e9c48bc661117dae2f8e07d5c79def135bd
+size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa6808fa19ff9d4b801dfdc5b2b9e60bad092a7b0026ec197aa3f64ac8f6117c
+size 43429616

last-checkpoint/global_step100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe4f33d4473beb7012b75cc2503f10270bd6f9d203ffb4e8701e57cace7fa06d
+size 43429616

last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9f07147b2388988b815c03a752b2cc8ef912447b26904407c82c8c706e88d78
+size 637299

last-checkpoint/global_step100/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23b32dec1e577aee1d5a6e2210ba5c70615f4ef8b515ae176ec507b0ba1482a6
+size 637171

last-checkpoint/global_step100/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:153e0e0294283d54952c89cfa5f6ac81cdec0fe21aab3129adc20dc5f6fd4906
+size 637171

last-checkpoint/global_step100/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbff90e378863717116f9cfeb693baf52cbe4d45110248f20a2900b9cb9077ab
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbe0d720c4c75a6a04213fa3b64bacbe794718a53e2b56ebb67a1a795014dfad
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:308f94f9a5c24e1bad5c393d56ae7af7782600f4e791d9c6ac35b22fff2105b6
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72452d3138d0ca2ff89429e3294a834ae7a68e8596fc757735ca56ae52509d57
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b056f3c23cb32dc77a2ec9e7651e0b64e4440e21f0fdf969b86bfc56a1cbdf06
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f36e306fb8ebcf53a167bfd6c9af74db410a269ada1e619e3e816f5269543b9d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3f8a05714bc528f4885a2816181652f2303b3e8150f89b56aaee6bec56aa520
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb47ce0c6f815a6f8302b0e3819b4c2315ca71dae3138d97fdceb765cdd0a039
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f755bd3c330281961e5c03af9d10ce8c1e1678619d384f6f1fd5fd7dce2ff50
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ab82860e8f4753962498aa91f545ddf5d94711cc852b62536116736b2908eac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e451a9e086b06d7c667be8442b2115f5c088953bade0b625e61f2ce5c7fd404
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9696781039237976,
-  "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-50",
-  "epoch": 0.009188079997549845,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -96,11 +96,100 @@
       "eval_steps_per_second": 0.321,
       "num_input_tokens_seen": 502368,
       "step": 50
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
-  "num_input_tokens_seen": 502368,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -115,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 33095916453888.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9583126902580261,
+  "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-100",
+  "epoch": 0.01225077333006646,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.321,
       "num_input_tokens_seen": 502368,
       "step": 50
+    },
+    {
+      "epoch": 0.006737925331536553,
+      "grad_norm": 2.9313064922005103,
+      "learning_rate": 3.235294117647059e-05,
+      "loss": 0.9428,
+      "num_input_tokens_seen": 535968,
+      "step": 55
+    },
+    {
+      "epoch": 0.007350463998039876,
+      "grad_norm": 3.260215069553855,
+      "learning_rate": 3.529411764705883e-05,
+      "loss": 0.9121,
+      "num_input_tokens_seen": 569344,
+      "step": 60
+    },
+    {
+      "epoch": 0.007963002664543199,
+      "grad_norm": 2.4616389085641757,
+      "learning_rate": 3.8235294117647055e-05,
+      "loss": 0.915,
+      "num_input_tokens_seen": 603816,
+      "step": 65
+    },
+    {
+      "epoch": 0.008575541331046523,
+      "grad_norm": 1.3763238196623047,
+      "learning_rate": 4.11764705882353e-05,
+      "loss": 0.7588,
+      "num_input_tokens_seen": 637176,
+      "step": 70
+    },
+    {
+      "epoch": 0.009188079997549845,
+      "grad_norm": 36.34227648025132,
+      "learning_rate": 4.411764705882353e-05,
+      "loss": 0.8561,
+      "num_input_tokens_seen": 670512,
+      "step": 75
+    },
+    {
+      "epoch": 0.009800618664053169,
+      "grad_norm": 1.071482216851512,
+      "learning_rate": 4.705882352941177e-05,
+      "loss": 0.7766,
+      "num_input_tokens_seen": 704160,
+      "step": 80
+    },
+    {
+      "epoch": 0.010413157330556491,
+      "grad_norm": 3.4859797194036437,
+      "learning_rate": 5e-05,
+      "loss": 0.8268,
+      "num_input_tokens_seen": 738120,
+      "step": 85
+    },
+    {
+      "epoch": 0.011025695997059815,
+      "grad_norm": 1.3363836365243216,
+      "learning_rate": 5.294117647058824e-05,
+      "loss": 0.7961,
+      "num_input_tokens_seen": 771632,
+      "step": 90
+    },
+    {
+      "epoch": 0.011638234663563138,
+      "grad_norm": 0.852060257896713,
+      "learning_rate": 5.588235294117647e-05,
+      "loss": 0.7732,
+      "num_input_tokens_seen": 805328,
+      "step": 95
+    },
+    {
+      "epoch": 0.01225077333006646,
+      "grad_norm": 0.9476545112029625,
+      "learning_rate": 5.882352941176471e-05,
+      "loss": 0.8279,
+      "num_input_tokens_seen": 838824,
+      "step": 100
+    },
+    {
+      "epoch": 0.01225077333006646,
+      "eval_loss": 0.9583126902580261,
+      "eval_runtime": 47.2572,
+      "eval_samples_per_second": 1.27,
+      "eval_steps_per_second": 0.317,
+      "num_input_tokens_seen": 838824,
+      "step": 100
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
+  "num_input_tokens_seen": 838824,
   "num_train_epochs": 1,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 54166675128320.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:208cc2e644b3d1637a0930e0300b797eff3114eb490ba34b17c9a7a7bd31b210
-size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7f32119b091b5bde5ca46acc5e3ab877f21f6192b38814607357e85b8c632a1
+size 7480