Training in progress, step 172, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +158 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74f79106ad28919e8d453483ce0388d0ded1665036cd57ef8e4ca6efce270b60
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:c411d68959af9abf59382ef710209cccf965943c3b1d592223f24263cf751927
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a95eec8c50796630e4a8d944839fe19d83cf29a7fcb045d412dfaddf5c4d162
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ce2479a38502ae13f58ca9bd94e704c9a6ccebc738077688ac1c576602aa43f
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:212ef4af49986d47b8b6beaf90dc8ecebb759d7faf03afe15c8568ab3a36779b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fd07b30e460ba203cafa688fb397144ab46199319a60b6c79988b95e6186d10
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bc2ced7b135c293cfea73ba311aa2c673462445da1a975d4c5be5ca782caaa5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5dcbabca39db933080949f3d050deaca52ed2481401ecb28d097a787c7bad9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08335956186056137,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 2.6200873362445414,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,160 @@
       "eval_samples_per_second": 33.25,
       "eval_steps_per_second": 8.57,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1266,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.128095383584768e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08335956186056137,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 3.004366812227074,
   "eval_steps": 50,
+  "global_step": 172,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.25,
       "eval_steps_per_second": 8.57,
       "step": 150
+    },
+    {
+      "epoch": 2.6375545851528384,
+      "grad_norm": 0.8464643359184265,
+      "learning_rate": 4.089194655986306e-06,
+      "loss": 0.0425,
+      "step": 151
+    },
+    {
+      "epoch": 2.6550218340611353,
+      "grad_norm": 0.5147814750671387,
+      "learning_rate": 3.7138015365554833e-06,
+      "loss": 0.0333,
+      "step": 152
+    },
+    {
+      "epoch": 2.6724890829694323,
+      "grad_norm": 0.486793577671051,
+      "learning_rate": 3.3558147633999728e-06,
+      "loss": 0.027,
+      "step": 153
+    },
+    {
+      "epoch": 2.6899563318777293,
+      "grad_norm": 1.436091661453247,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0495,
+      "step": 154
+    },
+    {
+      "epoch": 2.7074235807860263,
+      "grad_norm": 2.1560921669006348,
+      "learning_rate": 2.692592156212487e-06,
+      "loss": 0.0305,
+      "step": 155
+    },
+    {
+      "epoch": 2.7248908296943233,
+      "grad_norm": 1.1343252658843994,
+      "learning_rate": 2.3876057330792346e-06,
+      "loss": 0.0429,
+      "step": 156
+    },
+    {
+      "epoch": 2.74235807860262,
+      "grad_norm": 0.5252926349639893,
+      "learning_rate": 2.100524384225555e-06,
+      "loss": 0.0663,
+      "step": 157
+    },
+    {
+      "epoch": 2.7598253275109172,
+      "grad_norm": 0.4776017665863037,
+      "learning_rate": 1.8314560692059835e-06,
+      "loss": 0.0578,
+      "step": 158
+    },
+    {
+      "epoch": 2.777292576419214,
+      "grad_norm": 0.4830605983734131,
+      "learning_rate": 1.5805019736097104e-06,
+      "loss": 0.0531,
+      "step": 159
+    },
+    {
+      "epoch": 2.7947598253275108,
+      "grad_norm": 0.4230193495750427,
+      "learning_rate": 1.3477564710088098e-06,
+      "loss": 0.0314,
+      "step": 160
+    },
+    {
+      "epoch": 2.8122270742358078,
+      "grad_norm": 0.6493737101554871,
+      "learning_rate": 1.1333070874682216e-06,
+      "loss": 0.0523,
+      "step": 161
+    },
+    {
+      "epoch": 2.8296943231441047,
+      "grad_norm": 0.2730914056301117,
+      "learning_rate": 9.372344686307655e-07,
+      "loss": 0.0168,
+      "step": 162
+    },
+    {
+      "epoch": 2.8471615720524017,
+      "grad_norm": 0.42375174164772034,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0308,
+      "step": 163
+    },
+    {
+      "epoch": 2.8646288209606987,
+      "grad_norm": 0.4749857783317566,
+      "learning_rate": 6.005075261595494e-07,
+      "loss": 0.0295,
+      "step": 164
+    },
+    {
+      "epoch": 2.8820960698689957,
+      "grad_norm": 0.4455066919326782,
+      "learning_rate": 4.5997983175773417e-07,
+      "loss": 0.0275,
+      "step": 165
+    },
+    {
+      "epoch": 2.8995633187772927,
+      "grad_norm": 0.6617838144302368,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 0.0339,
+      "step": 166
+    },
+    {
+      "epoch": 2.9170305676855897,
+      "grad_norm": 0.3624148964881897,
+      "learning_rate": 2.3486021034170857e-07,
+      "loss": 0.0242,
+      "step": 167
+    },
+    {
+      "epoch": 2.934497816593886,
+      "grad_norm": 0.6199899911880493,
+      "learning_rate": 1.503529416103988e-07,
+      "loss": 0.0337,
+      "step": 168
+    },
+    {
+      "epoch": 2.9519650655021836,
+      "grad_norm": 0.24329711496829987,
+      "learning_rate": 8.459208643659122e-08,
+      "loss": 0.0109,
+      "step": 169
+    },
+    {
+      "epoch": 2.96943231441048,
+      "grad_norm": 0.8114237189292908,
+      "learning_rate": 3.760237478849793e-08,
+      "loss": 0.05,
+      "step": 170
+    },
+    {
+      "epoch": 2.986899563318777,
+      "grad_norm": 0.4971747100353241,
+      "learning_rate": 9.401477574932926e-09,
+      "loss": 0.0369,
+      "step": 171
+    },
+    {
+      "epoch": 3.004366812227074,
+      "grad_norm": 0.4547681510448456,
+      "learning_rate": 0.0,
+      "loss": 0.0711,
+      "step": 172
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.729365147942912e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null