Training in progress, step 10900, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step10900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step10900/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10900/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10900/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step10900/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c1c5ba72a645288345449582c32f12f85b9d30a5931a1b1d69a0fbc137b9b14
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ff0736f0881487b8244d2133fef7cb88a6ac691a37848cb82a476493d6efeee
 size 29034840

last-checkpoint/global_step10900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:332ff7240f2b8d7446bd7867e86e17e8d14f45c08f046dbe455a2347bafd8922
+size 43429616

last-checkpoint/global_step10900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce32ae173846d823cf9feb02140f23b9acd9b4d70c4a8d4cb30d6434b1dc7398
+size 43429616

last-checkpoint/global_step10900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74d4c9bf4c2f57a3fc2520f996a4427cfccbbc1b1adb6c9d799360e51b5215c3
+size 43429616

last-checkpoint/global_step10900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4838b04cd027a8ae8be16d4ccfc4cc0a27397a3cf67b764ebc10f91149e8a7d
+size 43429616

last-checkpoint/global_step10900/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067c5d08b56bda1ed8f453d34b0eec21c29d29346967d3b105f39e2968e35ccf
+size 637299

last-checkpoint/global_step10900/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:156b88936bb89f49e54d5cac5ce0640b90f00607787ccf1f90953cb9bb311246
+size 637171

last-checkpoint/global_step10900/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15f57c00d3d0d7f4e3be04b98b5c779e7c3595e8031cab176dbb35667d0101c2
+size 637171

last-checkpoint/global_step10900/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac44236a809ddcff98bf0ef937d14a7257fdfe4b119c5dfd9151e17b84a84367
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step10850~~


1	+ global_step10900

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d304ec5f4195800a799f3abd99d1b805509742519042bbe1df5769d1786e0f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9d3a6160d0905edda4f5d6565a1e909b7492e9250558ddb952664b28cf76f6f
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:783dfe41bac374b2e3e5707dc71c6ff71a6b62a2370fd8b5383cedabdfe41184
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:58e47c675ebf1b1688491bf8baefbb380531c820f51050fe07d1c2836f640595
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94b9ac08d6d18d50db0fc552823d03b7d4996ee25b811fd45c46f2b8005834fa
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:126cc2b8ba359be76c7c08b8c5b404d8759c46dce0b0fe23b4ab7fa6565d3ddb
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6290fc24bc38c26fa31af581b0144d08ae78bdf42b1a0e05ced0717ade19c43
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a0801e4fd6f4317ec8793f2b6303686ab6868ed680c95a065417ff9ee1ac54a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc160fbdfce0634b3c2cc703cc31d592117ef41851ff45575ea9e64f02532760
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:151dcdc36f0c528cf744fa0ce59d21db50650332df291ef322548af3dd56274c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.3293007871121865,
   "eval_steps": 50,
-  "global_step": 10850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19320,11 +19320,100 @@
       "eval_steps_per_second": 0.75,
       "num_input_tokens_seen": 72511424,
       "step": 10850
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 72511424,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -19339,7 +19428,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4548190160158720.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.3354261737772197,
   "eval_steps": 50,
+  "global_step": 10900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.75,
       "num_input_tokens_seen": 72511424,
       "step": 10850
+    },
+    {
+      "epoch": 1.3299133257786897,
+      "grad_norm": 0.9400960640670121,
+      "learning_rate": 2.767628579220536e-05,
+      "loss": 0.2181,
+      "num_input_tokens_seen": 72545080,
+      "step": 10855
+    },
+    {
+      "epoch": 1.3305258644451932,
+      "grad_norm": 0.9574102034561467,
+      "learning_rate": 2.7630977623137244e-05,
+      "loss": 0.2648,
+      "num_input_tokens_seen": 72578272,
+      "step": 10860
+    },
+    {
+      "epoch": 1.3311384031116964,
+      "grad_norm": 1.105259832070157,
+      "learning_rate": 2.758569240662998e-05,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 72612536,
+      "step": 10865
+    },
+    {
+      "epoch": 1.3317509417781999,
+      "grad_norm": 1.2001173134882535,
+      "learning_rate": 2.7540430189150098e-05,
+      "loss": 0.247,
+      "num_input_tokens_seen": 72645920,
+      "step": 10870
+    },
+    {
+      "epoch": 1.332363480444703,
+      "grad_norm": 1.3396654675470272,
+      "learning_rate": 2.7495191017140582e-05,
+      "loss": 0.1914,
+      "num_input_tokens_seen": 72680416,
+      "step": 10875
+    },
+    {
+      "epoch": 1.3329760191112063,
+      "grad_norm": 1.373286103807185,
+      "learning_rate": 2.7449974937020778e-05,
+      "loss": 0.2471,
+      "num_input_tokens_seen": 72714560,
+      "step": 10880
+    },
+    {
+      "epoch": 1.3335885577777098,
+      "grad_norm": 11.397219776191838,
+      "learning_rate": 2.7404781995186267e-05,
+      "loss": 0.231,
+      "num_input_tokens_seen": 72748336,
+      "step": 10885
+    },
+    {
+      "epoch": 1.334201096444213,
+      "grad_norm": 1.6874289712995845,
+      "learning_rate": 2.7359612238008968e-05,
+      "loss": 0.2507,
+      "num_input_tokens_seen": 72782040,
+      "step": 10890
+    },
+    {
+      "epoch": 1.3348136351107165,
+      "grad_norm": 1.0849549796943527,
+      "learning_rate": 2.7314465711836967e-05,
+      "loss": 0.2298,
+      "num_input_tokens_seen": 72815992,
+      "step": 10895
+    },
+    {
+      "epoch": 1.3354261737772197,
+      "grad_norm": 0.9600258760416324,
+      "learning_rate": 2.7269342462994563e-05,
+      "loss": 0.197,
+      "num_input_tokens_seen": 72850512,
+      "step": 10900
+    },
+    {
+      "epoch": 1.3354261737772197,
+      "eval_loss": 0.22737418115139008,
+      "eval_runtime": 19.6079,
+      "eval_samples_per_second": 3.06,
+      "eval_steps_per_second": 0.765,
+      "num_input_tokens_seen": 72850512,
+      "step": 10900
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 72850512,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4569494991798272.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null