Training in progress, step 2340, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +310 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a987788873c021c9d673558815b71bbfcf77d57a0a39a1d0c79e832fc62b27f
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e25481045a998d4e040b2d3114349e4f2ea96e62e32a39f2adeb51d25de7a48
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11aa88d182a9ec6576ec4228fa3402e4d824bd766717f06c8bdc910de1884d09
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ffcde3cd0ac7235d16ff44cbb1d360ca8c7288c11306fb4a4310cba5b85f523
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47785a56208855ad691ee4751f427a600446221eaa9a2b5467a89680132ac2e0
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:74b6236cf0b98164ed85bb41f9abc6098fd976f945ac9580a1a26ceb2561076b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.5646454924606994,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1808,6 +1808,312 @@
       "mean_token_accuracy": 0.8290239717811346,
       "num_tokens": 16371712.0,
       "step": 2000
     }
   ],
   "logging_steps": 10,
@@ -1822,12 +2128,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.326723801002803e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 2340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8290239717811346,
       "num_tokens": 16371712.0,
       "step": 2000
+    },
+    {
+      "epoch": 2.577478344562079,
+      "grad_norm": 1.7604620456695557,
+      "learning_rate": 1.5716999050332385e-06,
+      "loss": 0.1638,
+      "mean_token_accuracy": 0.7912915859371423,
+      "num_tokens": 16453632.0,
+      "step": 2010
+    },
+    {
+      "epoch": 2.5903111966634587,
+      "grad_norm": 0.9279603958129883,
+      "learning_rate": 1.5242165242165245e-06,
+      "loss": 0.1439,
+      "mean_token_accuracy": 0.8103840544819831,
+      "num_tokens": 16535552.0,
+      "step": 2020
+    },
+    {
+      "epoch": 2.603144048764838,
+      "grad_norm": 1.5552164316177368,
+      "learning_rate": 1.4767331433998102e-06,
+      "loss": 0.1597,
+      "mean_token_accuracy": 0.8110934458673,
+      "num_tokens": 16617472.0,
+      "step": 2030
+    },
+    {
+      "epoch": 2.6159769008662175,
+      "grad_norm": 1.2231167554855347,
+      "learning_rate": 1.429249762583096e-06,
+      "loss": 0.16,
+      "mean_token_accuracy": 0.7961350310593843,
+      "num_tokens": 16699392.0,
+      "step": 2040
+    },
+    {
+      "epoch": 2.628809752967597,
+      "grad_norm": 1.4283727407455444,
+      "learning_rate": 1.3817663817663818e-06,
+      "loss": 0.1861,
+      "mean_token_accuracy": 0.7857387486845255,
+      "num_tokens": 16781312.0,
+      "step": 2050
+    },
+    {
+      "epoch": 2.6416426050689767,
+      "grad_norm": 1.2813409566879272,
+      "learning_rate": 1.3342830009496678e-06,
+      "loss": 0.1599,
+      "mean_token_accuracy": 0.7960371825844049,
+      "num_tokens": 16863232.0,
+      "step": 2060
+    },
+    {
+      "epoch": 2.6544754571703564,
+      "grad_norm": 1.814128041267395,
+      "learning_rate": 1.2867996201329535e-06,
+      "loss": 0.1769,
+      "mean_token_accuracy": 0.7898116439580918,
+      "num_tokens": 16945152.0,
+      "step": 2070
+    },
+    {
+      "epoch": 2.6673083092717356,
+      "grad_norm": 1.8410574197769165,
+      "learning_rate": 1.2393162393162394e-06,
+      "loss": 0.1609,
+      "mean_token_accuracy": 0.8141511753201485,
+      "num_tokens": 17027072.0,
+      "step": 2080
+    },
+    {
+      "epoch": 2.680141161373115,
+      "grad_norm": 1.4829483032226562,
+      "learning_rate": 1.1918328584995251e-06,
+      "loss": 0.1742,
+      "mean_token_accuracy": 0.7898361060768366,
+      "num_tokens": 17108992.0,
+      "step": 2090
+    },
+    {
+      "epoch": 2.692974013474495,
+      "grad_norm": 1.1964958906173706,
+      "learning_rate": 1.144349477682811e-06,
+      "loss": 0.1827,
+      "mean_token_accuracy": 0.7777886476367712,
+      "num_tokens": 17190912.0,
+      "step": 2100
+    },
+    {
+      "epoch": 2.705806865575874,
+      "grad_norm": 1.4900107383728027,
+      "learning_rate": 1.096866096866097e-06,
+      "loss": 0.1289,
+      "mean_token_accuracy": 0.8270180996507406,
+      "num_tokens": 17272832.0,
+      "step": 2110
+    },
+    {
+      "epoch": 2.7186397176772537,
+      "grad_norm": 1.7298692464828491,
+      "learning_rate": 1.0493827160493827e-06,
+      "loss": 0.1671,
+      "mean_token_accuracy": 0.787377692013979,
+      "num_tokens": 17354752.0,
+      "step": 2120
+    },
+    {
+      "epoch": 2.7314725697786333,
+      "grad_norm": 1.5013244152069092,
+      "learning_rate": 1.0018993352326686e-06,
+      "loss": 0.1639,
+      "mean_token_accuracy": 0.7969789639115333,
+      "num_tokens": 17436672.0,
+      "step": 2130
+    },
+    {
+      "epoch": 2.744305421880013,
+      "grad_norm": 1.1740142107009888,
+      "learning_rate": 9.544159544159546e-07,
+      "loss": 0.1611,
+      "mean_token_accuracy": 0.794043542444706,
+      "num_tokens": 17518592.0,
+      "step": 2140
+    },
+    {
+      "epoch": 2.7571382739813926,
+      "grad_norm": 1.4351530075073242,
+      "learning_rate": 9.069325735992403e-07,
+      "loss": 0.1642,
+      "mean_token_accuracy": 0.8051247522234917,
+      "num_tokens": 17600512.0,
+      "step": 2150
+    },
+    {
+      "epoch": 2.7699711260827717,
+      "grad_norm": 1.5310108661651611,
+      "learning_rate": 8.594491927825262e-07,
+      "loss": 0.1683,
+      "mean_token_accuracy": 0.8000000014901161,
+      "num_tokens": 17682432.0,
+      "step": 2160
+    },
+    {
+      "epoch": 2.7828039781841514,
+      "grad_norm": 1.3762239217758179,
+      "learning_rate": 8.11965811965812e-07,
+      "loss": 0.1641,
+      "mean_token_accuracy": 0.7894324846565723,
+      "num_tokens": 17764352.0,
+      "step": 2170
+    },
+    {
+      "epoch": 2.795636830285531,
+      "grad_norm": 1.4585622549057007,
+      "learning_rate": 7.644824311490979e-07,
+      "loss": 0.1591,
+      "mean_token_accuracy": 0.7889432465657592,
+      "num_tokens": 17846272.0,
+      "step": 2180
+    },
+    {
+      "epoch": 2.8084696823869106,
+      "grad_norm": 1.2188738584518433,
+      "learning_rate": 7.169990503323837e-07,
+      "loss": 0.1447,
+      "mean_token_accuracy": 0.8227128185331821,
+      "num_tokens": 17928192.0,
+      "step": 2190
+    },
+    {
+      "epoch": 2.8213025344882903,
+      "grad_norm": 1.2576043605804443,
+      "learning_rate": 6.695156695156696e-07,
+      "loss": 0.1439,
+      "mean_token_accuracy": 0.8094300415366888,
+      "num_tokens": 18010112.0,
+      "step": 2200
+    },
+    {
+      "epoch": 2.8341353865896695,
+      "grad_norm": 1.0408450365066528,
+      "learning_rate": 6.220322886989554e-07,
+      "loss": 0.2027,
+      "mean_token_accuracy": 0.7656066533178091,
+      "num_tokens": 18092032.0,
+      "step": 2210
+    },
+    {
+      "epoch": 2.846968238691049,
+      "grad_norm": 1.3711516857147217,
+      "learning_rate": 5.745489078822413e-07,
+      "loss": 0.1703,
+      "mean_token_accuracy": 0.7800391372293234,
+      "num_tokens": 18173952.0,
+      "step": 2220
+    },
+    {
+      "epoch": 2.8598010907924287,
+      "grad_norm": 1.3574531078338623,
+      "learning_rate": 5.270655270655271e-07,
+      "loss": 0.1682,
+      "mean_token_accuracy": 0.7911692764610052,
+      "num_tokens": 18255872.0,
+      "step": 2230
+    },
+    {
+      "epoch": 2.872633942893808,
+      "grad_norm": 1.412182331085205,
+      "learning_rate": 4.795821462488129e-07,
+      "loss": 0.1805,
+      "mean_token_accuracy": 0.788820942863822,
+      "num_tokens": 18337792.0,
+      "step": 2240
+    },
+    {
+      "epoch": 2.8854667949951875,
+      "grad_norm": 1.5910438299179077,
+      "learning_rate": 4.320987654320988e-07,
+      "loss": 0.1588,
+      "mean_token_accuracy": 0.8040606647729873,
+      "num_tokens": 18419712.0,
+      "step": 2250
+    },
+    {
+      "epoch": 2.898299647096567,
+      "grad_norm": 1.3554024696350098,
+      "learning_rate": 3.846153846153847e-07,
+      "loss": 0.1601,
+      "mean_token_accuracy": 0.801565557718277,
+      "num_tokens": 18501632.0,
+      "step": 2260
+    },
+    {
+      "epoch": 2.911132499197947,
+      "grad_norm": 1.2987529039382935,
+      "learning_rate": 3.371320037986705e-07,
+      "loss": 0.1377,
+      "mean_token_accuracy": 0.8144080229103565,
+      "num_tokens": 18583552.0,
+      "step": 2270
+    },
+    {
+      "epoch": 2.9239653512993264,
+      "grad_norm": 1.268310308456421,
+      "learning_rate": 2.8964862298195633e-07,
+      "loss": 0.1426,
+      "mean_token_accuracy": 0.8171110570430755,
+      "num_tokens": 18665472.0,
+      "step": 2280
+    },
+    {
+      "epoch": 2.9367982034007056,
+      "grad_norm": 1.5489550828933716,
+      "learning_rate": 2.4216524216524215e-07,
+      "loss": 0.1686,
+      "mean_token_accuracy": 0.8061276923865079,
+      "num_tokens": 18747392.0,
+      "step": 2290
+    },
+    {
+      "epoch": 2.9496310555020853,
+      "grad_norm": 1.5315167903900146,
+      "learning_rate": 1.9468186134852803e-07,
+      "loss": 0.1734,
+      "mean_token_accuracy": 0.8045376718044281,
+      "num_tokens": 18829312.0,
+      "step": 2300
+    },
+    {
+      "epoch": 2.962463907603465,
+      "grad_norm": 1.887633204460144,
+      "learning_rate": 1.4719848053181388e-07,
+      "loss": 0.1881,
+      "mean_token_accuracy": 0.7852617412805557,
+      "num_tokens": 18911232.0,
+      "step": 2310
+    },
+    {
+      "epoch": 2.9752967597048445,
+      "grad_norm": 1.3356051445007324,
+      "learning_rate": 9.971509971509972e-08,
+      "loss": 0.1747,
+      "mean_token_accuracy": 0.7836839504539966,
+      "num_tokens": 18993152.0,
+      "step": 2320
+    },
+    {
+      "epoch": 2.988129611806224,
+      "grad_norm": 1.3567869663238525,
+      "learning_rate": 5.223171889838557e-08,
+      "loss": 0.1577,
+      "mean_token_accuracy": 0.8161815080791712,
+      "num_tokens": 19075072.0,
+      "step": 2330
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.3493268489837646,
+      "learning_rate": 4.7483380816714155e-09,
+      "loss": 0.1777,
+      "mean_token_accuracy": 0.7969138461190302,
+      "num_tokens": 19150848.0,
+      "step": 2340
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.061195179281613e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null