Training in progress, step 1344, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +312 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d428d0fcbd28adbb948bf89771cac30bc1be8468636fe48cbec5bd96726d703f
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:d381fc9d2baf1537400899407212ebb9a4d0bfe09fb947104079ee02fbc31282
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:093077c817c8ec77b7d913173bb54ed6bc38a1faf3eab86f346d2a21243606db
 size 81730644

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d2daa0b731a3407eabb4ad05b7706b9214c2a2d905533de698a8df123909280
 size 81730644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9be6563fd9bac8b0f5354c2a89cc3e2af9d56ec377cec6cc13d1b649d2bac02c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c69e020a9e400b6d738a8ec17a4d6c33a7f2337aa9121cbdc73f0efaaa46392
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fc481c1c7314024438320e4d4df85c394e6afa7a5f85f07beec6af0275441f4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:463032c4d55d0ec912965e262645f4cf323e9bf452edfe308ba59def68123cc6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.6225559711456299,
   "best_model_checkpoint": "miner_id_24/checkpoint-1300",
-  "epoch": 0.053874844591794445,
   "eval_steps": 100,
-  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9219,6 +9219,314 @@
       "eval_samples_per_second": 7.295,
       "eval_steps_per_second": 1.824,
       "step": 1300
     }
   ],
   "logging_steps": 1,
@@ -9242,12 +9550,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.4438208526452e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.6225559711456299,
   "best_model_checkpoint": "miner_id_24/checkpoint-1300",
+  "epoch": 0.055698300870285954,
   "eval_steps": 100,
+  "global_step": 1344,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.295,
       "eval_steps_per_second": 1.824,
       "step": 1300
+    },
+    {
+      "epoch": 0.05391628677994198,
+      "grad_norm": 0.27076980471611023,
+      "learning_rate": 5.122993894501326e-07,
+      "loss": 0.6658,
+      "step": 1301
+    },
+    {
+      "epoch": 0.053957728968089515,
+      "grad_norm": 0.29129520058631897,
+      "learning_rate": 4.887677832549287e-07,
+      "loss": 0.6478,
+      "step": 1302
+    },
+    {
+      "epoch": 0.05399917115623705,
+      "grad_norm": 0.2577592730522156,
+      "learning_rate": 4.6578807654562575e-07,
+      "loss": 0.6443,
+      "step": 1303
+    },
+    {
+      "epoch": 0.054040613344384585,
+      "grad_norm": 0.30056890845298767,
+      "learning_rate": 4.4336039677002063e-07,
+      "loss": 0.6037,
+      "step": 1304
+    },
+    {
+      "epoch": 0.05408205553253212,
+      "grad_norm": 0.30648863315582275,
+      "learning_rate": 4.214848683143258e-07,
+      "loss": 0.6497,
+      "step": 1305
+    },
+    {
+      "epoch": 0.054123497720679654,
+      "grad_norm": 0.26266247034072876,
+      "learning_rate": 4.00161612502481e-07,
+      "loss": 0.6044,
+      "step": 1306
+    },
+    {
+      "epoch": 0.05416493990882719,
+      "grad_norm": 0.30877622961997986,
+      "learning_rate": 3.793907475954206e-07,
+      "loss": 0.5746,
+      "step": 1307
+    },
+    {
+      "epoch": 0.05420638209697472,
+      "grad_norm": 0.294593870639801,
+      "learning_rate": 3.591723887904963e-07,
+      "loss": 0.5445,
+      "step": 1308
+    },
+    {
+      "epoch": 0.05424782428512225,
+      "grad_norm": 0.2581484019756317,
+      "learning_rate": 3.395066482208109e-07,
+      "loss": 0.5654,
+      "step": 1309
+    },
+    {
+      "epoch": 0.05428926647326979,
+      "grad_norm": 0.3082786500453949,
+      "learning_rate": 3.203936349545522e-07,
+      "loss": 0.8039,
+      "step": 1310
+    },
+    {
+      "epoch": 0.05433070866141732,
+      "grad_norm": 0.2795157730579376,
+      "learning_rate": 3.0183345499447124e-07,
+      "loss": 0.6605,
+      "step": 1311
+    },
+    {
+      "epoch": 0.05437215084956486,
+      "grad_norm": 0.2830980122089386,
+      "learning_rate": 2.838262112772161e-07,
+      "loss": 0.6486,
+      "step": 1312
+    },
+    {
+      "epoch": 0.05441359303771239,
+      "grad_norm": 0.2507122755050659,
+      "learning_rate": 2.66372003672799e-07,
+      "loss": 0.7049,
+      "step": 1313
+    },
+    {
+      "epoch": 0.05445503522585993,
+      "grad_norm": 0.26423487067222595,
+      "learning_rate": 2.4947092898406356e-07,
+      "loss": 0.6777,
+      "step": 1314
+    },
+    {
+      "epoch": 0.05449647741400746,
+      "grad_norm": 0.2655765414237976,
+      "learning_rate": 2.3312308094607382e-07,
+      "loss": 0.5595,
+      "step": 1315
+    },
+    {
+      "epoch": 0.054537919602155,
+      "grad_norm": 0.26185721158981323,
+      "learning_rate": 2.1732855022570388e-07,
+      "loss": 0.7014,
+      "step": 1316
+    },
+    {
+      "epoch": 0.054579361790302525,
+      "grad_norm": 0.27304011583328247,
+      "learning_rate": 2.020874244210047e-07,
+      "loss": 0.6617,
+      "step": 1317
+    },
+    {
+      "epoch": 0.05462080397845006,
+      "grad_norm": 0.2839515805244446,
+      "learning_rate": 1.8739978806082691e-07,
+      "loss": 0.5651,
+      "step": 1318
+    },
+    {
+      "epoch": 0.054662246166597594,
+      "grad_norm": 0.25976067781448364,
+      "learning_rate": 1.7326572260433216e-07,
+      "loss": 0.5801,
+      "step": 1319
+    },
+    {
+      "epoch": 0.05470368835474513,
+      "grad_norm": 0.28524279594421387,
+      "learning_rate": 1.596853064404602e-07,
+      "loss": 0.665,
+      "step": 1320
+    },
+    {
+      "epoch": 0.054745130542892664,
+      "grad_norm": 0.28713470697402954,
+      "learning_rate": 1.4665861488761813e-07,
+      "loss": 0.6184,
+      "step": 1321
+    },
+    {
+      "epoch": 0.0547865727310402,
+      "grad_norm": 0.24788232147693634,
+      "learning_rate": 1.3418572019314736e-07,
+      "loss": 0.5796,
+      "step": 1322
+    },
+    {
+      "epoch": 0.054828014919187734,
+      "grad_norm": 0.2749631404876709,
+      "learning_rate": 1.2226669153302395e-07,
+      "loss": 0.625,
+      "step": 1323
+    },
+    {
+      "epoch": 0.05486945710733527,
+      "grad_norm": 0.27082398533821106,
+      "learning_rate": 1.109015950113812e-07,
+      "loss": 0.5955,
+      "step": 1324
+    },
+    {
+      "epoch": 0.054910899295482804,
+      "grad_norm": 0.23720403015613556,
+      "learning_rate": 1.0009049366022094e-07,
+      "loss": 0.6055,
+      "step": 1325
+    },
+    {
+      "epoch": 0.05495234148363034,
+      "grad_norm": 0.254350483417511,
+      "learning_rate": 8.98334474390139e-08,
+      "loss": 0.6254,
+      "step": 1326
+    },
+    {
+      "epoch": 0.05499378367177787,
+      "grad_norm": 0.2699224352836609,
+      "learning_rate": 8.01305132343999e-08,
+      "loss": 0.5862,
+      "step": 1327
+    },
+    {
+      "epoch": 0.0550352258599254,
+      "grad_norm": 0.26495426893234253,
+      "learning_rate": 7.098174485982156e-08,
+      "loss": 0.7193,
+      "step": 1328
+    },
+    {
+      "epoch": 0.05507666804807294,
+      "grad_norm": 0.2615576386451721,
+      "learning_rate": 6.238719305530216e-08,
+      "loss": 0.6821,
+      "step": 1329
+    },
+    {
+      "epoch": 0.05511811023622047,
+      "grad_norm": 0.27609899640083313,
+      "learning_rate": 5.4346905487101526e-08,
+      "loss": 0.5864,
+      "step": 1330
+    },
+    {
+      "epoch": 0.05515955242436801,
+      "grad_norm": 0.29252058267593384,
+      "learning_rate": 4.686092674748288e-08,
+      "loss": 0.7111,
+      "step": 1331
+    },
+    {
+      "epoch": 0.05520099461251554,
+      "grad_norm": 0.31968146562576294,
+      "learning_rate": 3.9929298354446365e-08,
+      "loss": 0.6327,
+      "step": 1332
+    },
+    {
+      "epoch": 0.055242436800663076,
+      "grad_norm": 0.2793462574481964,
+      "learning_rate": 3.3552058751518124e-08,
+      "loss": 0.7731,
+      "step": 1333
+    },
+    {
+      "epoch": 0.05528387898881061,
+      "grad_norm": 0.2697681486606598,
+      "learning_rate": 2.772924330751714e-08,
+      "loss": 0.6196,
+      "step": 1334
+    },
+    {
+      "epoch": 0.055325321176958146,
+      "grad_norm": 0.271357923746109,
+      "learning_rate": 2.2460884316377607e-08,
+      "loss": 0.5377,
+      "step": 1335
+    },
+    {
+      "epoch": 0.055366763365105674,
+      "grad_norm": 0.26375240087509155,
+      "learning_rate": 1.7747010996949087e-08,
+      "loss": 0.6309,
+      "step": 1336
+    },
+    {
+      "epoch": 0.05540820555325321,
+      "grad_norm": 0.25772351026535034,
+      "learning_rate": 1.3587649492874388e-08,
+      "loss": 0.7001,
+      "step": 1337
+    },
+    {
+      "epoch": 0.055449647741400744,
+      "grad_norm": 0.29098233580589294,
+      "learning_rate": 9.982822872378617e-09,
+      "loss": 0.6397,
+      "step": 1338
+    },
+    {
+      "epoch": 0.05549108992954828,
+      "grad_norm": 0.29976314306259155,
+      "learning_rate": 6.932551128202569e-09,
+      "loss": 0.5868,
+      "step": 1339
+    },
+    {
+      "epoch": 0.055532532117695814,
+      "grad_norm": 0.26712578535079956,
+      "learning_rate": 4.436851177480605e-09,
+      "loss": 0.603,
+      "step": 1340
+    },
+    {
+      "epoch": 0.05557397430584335,
+      "grad_norm": 0.2561587393283844,
+      "learning_rate": 2.495736861607423e-09,
+      "loss": 0.6869,
+      "step": 1341
+    },
+    {
+      "epoch": 0.055615416493990884,
+      "grad_norm": 0.3008159399032593,
+      "learning_rate": 1.1092189462047486e-09,
+      "loss": 0.6112,
+      "step": 1342
+    },
+    {
+      "epoch": 0.05565685868213842,
+      "grad_norm": 0.2835893929004669,
+      "learning_rate": 2.7730512104362506e-10,
+      "loss": 0.6679,
+      "step": 1343
+    },
+    {
+      "epoch": 0.055698300870285954,
+      "grad_norm": 0.3091060519218445,
+      "learning_rate": 0.0,
+      "loss": 0.7057,
+      "step": 1344
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.559845444924211e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null