Training in progress, step 1350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1adeacce160eee30a7b7f112deb15fd83a02d2b1897477759c0f1c02bf36d03d
 size 116744

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cdbb1a57278412e92152a4949d49ba4732c41ab6121dfb06ee65f0af9eda337
 size 116744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a006271130b19fe40e03a32f3c5eca6b0d66f4b61ad83cb905fa03ce3b082ec
 size 194232

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e1716ae3464eaef731275b1c94aab904a0491f865308d58ace787a8fbb5090a
 size 194232

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adf12ef8f6463911ee8aa1af296eae36d8607ed713341585f5542277591b95f4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d081faefb9e0a6fe5c1330abed4f18df22ca944dfb82a1f3198a99904e57c013
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:691717e600aaf0217103d9f677d016978cf61d1451c79796609a9daf6ab0e119
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6444f03632ac809ddd302ec167645d7a82c68acafc185363d92b0bcd166284dc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 9.77461051940918,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1200",
-  "epoch": 2.0833333333333335,
   "eval_steps": 150,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -919,6 +919,119 @@
       "eval_samples_per_second": 245.711,
       "eval_steps_per_second": 61.808,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -947,7 +1060,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 168069167185920.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 9.774312973022461,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1350",
+  "epoch": 2.34375,
   "eval_steps": 150,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 245.711,
       "eval_steps_per_second": 61.808,
       "step": 1200
+    },
+    {
+      "epoch": 2.1006944444444446,
+      "grad_norm": 0.1574486941099167,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 9.7931,
+      "step": 1210
+    },
+    {
+      "epoch": 2.1180555555555554,
+      "grad_norm": 0.1029452309012413,
+      "learning_rate": 8.921941636953435e-06,
+      "loss": 9.7825,
+      "step": 1220
+    },
+    {
+      "epoch": 2.1354166666666665,
+      "grad_norm": 0.1019529327750206,
+      "learning_rate": 8.3140151960435e-06,
+      "loss": 9.7713,
+      "step": 1230
+    },
+    {
+      "epoch": 2.1527777777777777,
+      "grad_norm": 0.08560575544834137,
+      "learning_rate": 7.725656321603413e-06,
+      "loss": 9.7779,
+      "step": 1240
+    },
+    {
+      "epoch": 2.170138888888889,
+      "grad_norm": 0.1940574049949646,
+      "learning_rate": 7.157141191620548e-06,
+      "loss": 9.7698,
+      "step": 1250
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 0.1854049563407898,
+      "learning_rate": 6.6087366693499295e-06,
+      "loss": 9.7892,
+      "step": 1260
+    },
+    {
+      "epoch": 2.204861111111111,
+      "grad_norm": 0.08304405212402344,
+      "learning_rate": 6.080700178047688e-06,
+      "loss": 9.779,
+      "step": 1270
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.1659172624349594,
+      "learning_rate": 5.573279580135438e-06,
+      "loss": 9.7726,
+      "step": 1280
+    },
+    {
+      "epoch": 2.2395833333333335,
+      "grad_norm": 0.09768513590097427,
+      "learning_rate": 5.086713060852788e-06,
+      "loss": 9.7745,
+      "step": 1290
+    },
+    {
+      "epoch": 2.2569444444444446,
+      "grad_norm": 0.25313788652420044,
+      "learning_rate": 4.621229016452156e-06,
+      "loss": 9.7725,
+      "step": 1300
+    },
+    {
+      "epoch": 2.2743055555555554,
+      "grad_norm": 0.14335955679416656,
+      "learning_rate": 4.1770459469887005e-06,
+      "loss": 9.7953,
+      "step": 1310
+    },
+    {
+      "epoch": 2.2916666666666665,
+      "grad_norm": 0.09536216408014297,
+      "learning_rate": 3.7543723537555585e-06,
+      "loss": 9.7852,
+      "step": 1320
+    },
+    {
+      "epoch": 2.3090277777777777,
+      "grad_norm": 0.0851445123553276,
+      "learning_rate": 3.35340664141246e-06,
+      "loss": 9.7754,
+      "step": 1330
+    },
+    {
+      "epoch": 2.326388888888889,
+      "grad_norm": 0.08119193464517593,
+      "learning_rate": 2.9743370248538017e-06,
+      "loss": 9.7722,
+      "step": 1340
+    },
+    {
+      "epoch": 2.34375,
+      "grad_norm": 0.13422377407550812,
+      "learning_rate": 2.6173414408598827e-06,
+      "loss": 9.771,
+      "step": 1350
+    },
+    {
+      "epoch": 2.34375,
+      "eval_loss": 9.774312973022461,
+      "eval_runtime": 2.0132,
+      "eval_samples_per_second": 240.915,
+      "eval_steps_per_second": 60.601,
+      "step": 1350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 189290889216000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null