Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa43241d6bbe1b8688d4b3d389cb19ce25aa440ea5237cf9c9d6223655991c2
 size 37762064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa5f8a7cd68528767b439d0b894c881a41126f67afd9d793cf381c4dd083c2e8
 size 37762064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e0c1d1cac268ffb1aa4041c772c1044868f894ccf93ae99499f84f8f7a17796
 size 75554618

 version https://git-lfs.github.com/spec/v1
+oid sha256:5650fc7d3e852c12db5d5486177c4d10e906e6125b8f3ede3046568ca1c08dee
 size 75554618

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d877db9ecc482231270e060af265e5ab3a05c4da102ab8c9891457049722d35
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fc274fc8b34494ca7e848ad7db694a9a80d044675d4931e9e0d05b8bbbbb8b3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b255f2d1c973cfa51ba1fda92e29986986fe92677ef2d8675dbfd3f56dee4fb
 size 1192

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d9e8319412821b43121efd2a24b1f933f272e0b3d457c9e0efc6e16a87d08f4
 size 1192

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 5.1122517585754395,
-  "best_model_checkpoint": "miner_id_24/checkpoint-400",
-  "epoch": 0.03385311977656941,
   "eval_steps": 100,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -327,6 +327,84 @@
       "eval_samples_per_second": 42.698,
       "eval_steps_per_second": 10.677,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -350,12 +428,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.04695062331392e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.980154037475586,
+  "best_model_checkpoint": "miner_id_24/checkpoint-500",
+  "epoch": 0.04231639972071176,
   "eval_steps": 100,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.698,
       "eval_steps_per_second": 10.677,
       "step": 400
+    },
+    {
+      "epoch": 0.034699447770983646,
+      "grad_norm": 379.8584289550781,
+      "learning_rate": 0.0001,
+      "loss": 20.2979,
+      "step": 410
+    },
+    {
+      "epoch": 0.03554577576539788,
+      "grad_norm": 289.8234558105469,
+      "learning_rate": 0.0001,
+      "loss": 22.648,
+      "step": 420
+    },
+    {
+      "epoch": 0.03639210375981212,
+      "grad_norm": 171.6800079345703,
+      "learning_rate": 0.0001,
+      "loss": 20.6801,
+      "step": 430
+    },
+    {
+      "epoch": 0.03723843175422635,
+      "grad_norm": 210.1263427734375,
+      "learning_rate": 0.0001,
+      "loss": 20.6733,
+      "step": 440
+    },
+    {
+      "epoch": 0.03808475974864058,
+      "grad_norm": 193.63482666015625,
+      "learning_rate": 0.0001,
+      "loss": 20.3255,
+      "step": 450
+    },
+    {
+      "epoch": 0.03893108774305482,
+      "grad_norm": 141.79612731933594,
+      "learning_rate": 0.0001,
+      "loss": 20.8687,
+      "step": 460
+    },
+    {
+      "epoch": 0.039777415737469055,
+      "grad_norm": 349.568603515625,
+      "learning_rate": 0.0001,
+      "loss": 20.5823,
+      "step": 470
+    },
+    {
+      "epoch": 0.040623743731883294,
+      "grad_norm": 530.2523193359375,
+      "learning_rate": 0.0001,
+      "loss": 20.1998,
+      "step": 480
+    },
+    {
+      "epoch": 0.041470071726297526,
+      "grad_norm": 237.16026306152344,
+      "learning_rate": 0.0001,
+      "loss": 20.5495,
+      "step": 490
+    },
+    {
+      "epoch": 0.04231639972071176,
+      "grad_norm": 135.14451599121094,
+      "learning_rate": 0.0001,
+      "loss": 20.3705,
+      "step": 500
+    },
+    {
+      "epoch": 0.04231639972071176,
+      "eval_loss": 4.980154037475586,
+      "eval_runtime": 233.3643,
+      "eval_samples_per_second": 42.637,
+      "eval_steps_per_second": 10.661,
+      "step": 500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3086882791424e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null