Training in progress, step 40, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step40/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step40/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step40/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d62dedeb665c04b7b6ffa6c367729eb7db6c96d807c7043b572eae5b452b697a
 size 50366280

 version https://git-lfs.github.com/spec/v1
+oid sha256:db731f79ca86d0013abaa1fb37da8c14da5171b859e3066ce39128c035ada6dc
 size 50366280

last-checkpoint/global_step40/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccf7c6ae1c619e8b7fb7eaf615b4a849e8e05367b29ff3b0344a18ad8ec1145e
+size 151012240

last-checkpoint/global_step40/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6701c7a7281084993ad3416379207d46577a7370105473763d8e6196b3b59a3
+size 151012304

last-checkpoint/global_step40/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d23a43fd82838658d6e54edcb3d6f529500187033b85493f6e8f1df62fe11905
+size 50545132

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step20~~


1	+ global_step40

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c80714c896cc6f0cbc2d98b94bc92735ebd8ee5b353ae9b033d8ff45190b6549
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4ad2323bcc1d7a0eb63cdf5ecb58b03686e619a97f8a14f527185798453aebc
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3088ffcebd196290b5088b43f625285683cf3c67d987a8504f19892fa86b2171
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:029c95a1cda31a91744854cfb9706b07aa8421466625cd67fd9cefb52e35dc72
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18736548734a851b92d3756494d8be423c7fed60866f8bcf869edd642ecde4bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ede4a6256dba871b18edf8d74bdbe115c4f11f8c347f0333a2f56b0f5f676f6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.44139865040779114,
-  "best_model_checkpoint": "miner_id_24/checkpoint-20",
-  "epoch": 0.0013532028620240532,
   "eval_steps": 10,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -59,6 +59,50 @@
       "eval_samples_per_second": 9.503,
       "eval_steps_per_second": 2.376,
       "step": 20
     }
   ],
   "logging_steps": 5,
@@ -87,7 +131,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.977874746887373e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3463914096355438,
+  "best_model_checkpoint": "miner_id_24/checkpoint-40",
+  "epoch": 0.0027064057240481065,
   "eval_steps": 10,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.503,
       "eval_steps_per_second": 2.376,
       "step": 20
+    },
+    {
+      "epoch": 0.0016915035775300665,
+      "grad_norm": 0.14323154091835022,
+      "learning_rate": 9.96354437049027e-05,
+      "loss": 0.4016,
+      "step": 25
+    },
+    {
+      "epoch": 0.00202980429303608,
+      "grad_norm": 0.0649707093834877,
+      "learning_rate": 9.85470908713026e-05,
+      "loss": 0.4659,
+      "step": 30
+    },
+    {
+      "epoch": 0.00202980429303608,
+      "eval_loss": 0.3780137896537781,
+      "eval_runtime": 1308.0823,
+      "eval_samples_per_second": 9.515,
+      "eval_steps_per_second": 2.379,
+      "step": 30
+    },
+    {
+      "epoch": 0.002368105008542093,
+      "grad_norm": 0.05597348511219025,
+      "learning_rate": 9.675081213427076e-05,
+      "loss": 0.4218,
+      "step": 35
+    },
+    {
+      "epoch": 0.0027064057240481065,
+      "grad_norm": 0.08465484529733658,
+      "learning_rate": 9.42728012826605e-05,
+      "loss": 0.3385,
+      "step": 40
+    },
+    {
+      "epoch": 0.0027064057240481065,
+      "eval_loss": 0.3463914096355438,
+      "eval_runtime": 1306.7421,
+      "eval_samples_per_second": 9.525,
+      "eval_steps_per_second": 2.381,
+      "step": 40
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.1918619823623373e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null