Training in progress, step 10345, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +310 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0036e61ddac96c13d28af5b7348463838da31642973c16e5370deba79e225fb7
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:70673c4b3a23c350c3d34964ccf5e6d071a142d9fed0284db5f78da9fe543e09
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81c5b9d8b1806de7455aa1e925033cdc78ae0c9f0b199eac035d87169284a120
 size 4768662910

 version https://git-lfs.github.com/spec/v1
+oid sha256:592af7aba28b8c635fdc8123da87f1a25c80f7f6ef5d578a1399d7cbe6c53fdd
 size 4768662910

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ba427af78f54355503e8fb146121e9f936d278226f07d5bf09468fc62083d77
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9139898b21e9040c38ef91d3deb1fcf3a1358aa4f9c7c7522299d4b1a4f3fc86
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9666038374172345,
   "eval_steps": 100,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9008,6 +9008,312 @@
       "mean_token_accuracy": 0.968175146728754,
       "num_tokens": 40960000.0,
       "step": 10000
     }
   ],
   "logging_steps": 10,
@@ -9022,12 +9328,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.0824928198656e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9999516698081291,
   "eval_steps": 100,
+  "global_step": 10345,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.968175146728754,
       "num_tokens": 40960000.0,
       "step": 10000
+    },
+    {
+      "epoch": 0.9675704412546517,
+      "grad_norm": 0.6231664419174194,
+      "learning_rate": 1.804511278195489e-06,
+      "loss": 0.1437,
+      "mean_token_accuracy": 0.9698630094528198,
+      "num_tokens": 41000960.0,
+      "step": 10010
+    },
+    {
+      "epoch": 0.9685370450920691,
+      "grad_norm": 0.767872154712677,
+      "learning_rate": 1.7508055853920516e-06,
+      "loss": 0.1313,
+      "mean_token_accuracy": 0.9726271979510784,
+      "num_tokens": 41041920.0,
+      "step": 10020
+    },
+    {
+      "epoch": 0.9695036489294863,
+      "grad_norm": 0.7130146622657776,
+      "learning_rate": 1.6970998925886145e-06,
+      "loss": 0.1165,
+      "mean_token_accuracy": 0.9753179997205734,
+      "num_tokens": 41082880.0,
+      "step": 10030
+    },
+    {
+      "epoch": 0.9704702527669035,
+      "grad_norm": 0.6905496716499329,
+      "learning_rate": 1.6433941997851776e-06,
+      "loss": 0.1549,
+      "mean_token_accuracy": 0.9695450082421303,
+      "num_tokens": 41123840.0,
+      "step": 10040
+    },
+    {
+      "epoch": 0.9714368566043207,
+      "grad_norm": 0.9023261070251465,
+      "learning_rate": 1.5896885069817402e-06,
+      "loss": 0.1334,
+      "mean_token_accuracy": 0.9723825827240944,
+      "num_tokens": 41164800.0,
+      "step": 10050
+    },
+    {
+      "epoch": 0.972403460441738,
+      "grad_norm": 0.7522259950637817,
+      "learning_rate": 1.5359828141783029e-06,
+      "loss": 0.1305,
+      "mean_token_accuracy": 0.9732142813503742,
+      "num_tokens": 41205760.0,
+      "step": 10060
+    },
+    {
+      "epoch": 0.9733700642791552,
+      "grad_norm": 0.7042533755302429,
+      "learning_rate": 1.4822771213748658e-06,
+      "loss": 0.1328,
+      "mean_token_accuracy": 0.9719422683119774,
+      "num_tokens": 41246720.0,
+      "step": 10070
+    },
+    {
+      "epoch": 0.9743366681165724,
+      "grad_norm": 0.6883172392845154,
+      "learning_rate": 1.4285714285714286e-06,
+      "loss": 0.1244,
+      "mean_token_accuracy": 0.973972599953413,
+      "num_tokens": 41287680.0,
+      "step": 10080
+    },
+    {
+      "epoch": 0.9753032719539897,
+      "grad_norm": 0.7336052656173706,
+      "learning_rate": 1.3748657357679915e-06,
+      "loss": 0.1481,
+      "mean_token_accuracy": 0.9694471590220928,
+      "num_tokens": 41328640.0,
+      "step": 10090
+    },
+    {
+      "epoch": 0.9762698757914069,
+      "grad_norm": 0.7422951459884644,
+      "learning_rate": 1.3211600429645542e-06,
+      "loss": 0.1391,
+      "mean_token_accuracy": 0.9710861049592495,
+      "num_tokens": 41369600.0,
+      "step": 10100
+    },
+    {
+      "epoch": 0.9772364796288241,
+      "grad_norm": 0.6071293354034424,
+      "learning_rate": 1.2674543501611172e-06,
+      "loss": 0.1317,
+      "mean_token_accuracy": 0.9728718191385269,
+      "num_tokens": 41410560.0,
+      "step": 10110
+    },
+    {
+      "epoch": 0.9782030834662414,
+      "grad_norm": 0.7155930995941162,
+      "learning_rate": 1.21374865735768e-06,
+      "loss": 0.1362,
+      "mean_token_accuracy": 0.9724804274737835,
+      "num_tokens": 41451520.0,
+      "step": 10120
+    },
+    {
+      "epoch": 0.9791696873036586,
+      "grad_norm": 0.6978849172592163,
+      "learning_rate": 1.1600429645542428e-06,
+      "loss": 0.1461,
+      "mean_token_accuracy": 0.9695205435156822,
+      "num_tokens": 41492480.0,
+      "step": 10130
+    },
+    {
+      "epoch": 0.9801362911410758,
+      "grad_norm": 0.6737282872200012,
+      "learning_rate": 1.1063372717508057e-06,
+      "loss": 0.1475,
+      "mean_token_accuracy": 0.9696183927357197,
+      "num_tokens": 41533440.0,
+      "step": 10140
+    },
+    {
+      "epoch": 0.981102894978493,
+      "grad_norm": 0.8504825234413147,
+      "learning_rate": 1.0526315789473685e-06,
+      "loss": 0.1474,
+      "mean_token_accuracy": 0.9688845336437225,
+      "num_tokens": 41574400.0,
+      "step": 10150
+    },
+    {
+      "epoch": 0.9820694988159103,
+      "grad_norm": 0.7281203269958496,
+      "learning_rate": 9.989258861439314e-07,
+      "loss": 0.1525,
+      "mean_token_accuracy": 0.9684197634458542,
+      "num_tokens": 41615360.0,
+      "step": 10160
+    },
+    {
+      "epoch": 0.9830361026533275,
+      "grad_norm": 0.686882734298706,
+      "learning_rate": 9.452201933404941e-07,
+      "loss": 0.1371,
+      "mean_token_accuracy": 0.971844419836998,
+      "num_tokens": 41656320.0,
+      "step": 10170
+    },
+    {
+      "epoch": 0.9840027064907447,
+      "grad_norm": 0.6194028854370117,
+      "learning_rate": 8.91514500537057e-07,
+      "loss": 0.14,
+      "mean_token_accuracy": 0.9716487258672715,
+      "num_tokens": 41697280.0,
+      "step": 10180
+    },
+    {
+      "epoch": 0.984969310328162,
+      "grad_norm": 0.7701581716537476,
+      "learning_rate": 8.378088077336197e-07,
+      "loss": 0.1333,
+      "mean_token_accuracy": 0.9725048907101155,
+      "num_tokens": 41738240.0,
+      "step": 10190
+    },
+    {
+      "epoch": 0.9859359141655792,
+      "grad_norm": 0.6333341002464294,
+      "learning_rate": 7.841031149301827e-07,
+      "loss": 0.1553,
+      "mean_token_accuracy": 0.9693982377648354,
+      "num_tokens": 41779200.0,
+      "step": 10200
+    },
+    {
+      "epoch": 0.9869025180029964,
+      "grad_norm": 0.7522182464599609,
+      "learning_rate": 7.303974221267455e-07,
+      "loss": 0.136,
+      "mean_token_accuracy": 0.9721624210476876,
+      "num_tokens": 41820160.0,
+      "step": 10210
+    },
+    {
+      "epoch": 0.9878691218404138,
+      "grad_norm": 0.7271556258201599,
+      "learning_rate": 6.766917293233083e-07,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.9710371807217598,
+      "num_tokens": 41861120.0,
+      "step": 10220
+    },
+    {
+      "epoch": 0.988835725677831,
+      "grad_norm": 0.6557773351669312,
+      "learning_rate": 6.229860365198711e-07,
+      "loss": 0.1551,
+      "mean_token_accuracy": 0.9677837543189526,
+      "num_tokens": 41902080.0,
+      "step": 10230
+    },
+    {
+      "epoch": 0.9898023295152482,
+      "grad_norm": 0.6414600014686584,
+      "learning_rate": 5.69280343716434e-07,
+      "loss": 0.1355,
+      "mean_token_accuracy": 0.9722602687776088,
+      "num_tokens": 41943040.0,
+      "step": 10240
+    },
+    {
+      "epoch": 0.9907689333526654,
+      "grad_norm": 0.6378936767578125,
+      "learning_rate": 5.155746509129967e-07,
+      "loss": 0.1462,
+      "mean_token_accuracy": 0.9706457868218422,
+      "num_tokens": 41984000.0,
+      "step": 10250
+    },
+    {
+      "epoch": 0.9917355371900827,
+      "grad_norm": 0.7637057304382324,
+      "learning_rate": 4.618689581095596e-07,
+      "loss": 0.1509,
+      "mean_token_accuracy": 0.9690313085913658,
+      "num_tokens": 42024960.0,
+      "step": 10260
+    },
+    {
+      "epoch": 0.9927021410274999,
+      "grad_norm": 0.8268054127693176,
+      "learning_rate": 4.081632653061225e-07,
+      "loss": 0.1434,
+      "mean_token_accuracy": 0.969985318928957,
+      "num_tokens": 42065920.0,
+      "step": 10270
+    },
+    {
+      "epoch": 0.9936687448649171,
+      "grad_norm": 0.685546338558197,
+      "learning_rate": 3.544575725026853e-07,
+      "loss": 0.1458,
+      "mean_token_accuracy": 0.9699608586728573,
+      "num_tokens": 42106880.0,
+      "step": 10280
+    },
+    {
+      "epoch": 0.9946353487023344,
+      "grad_norm": 0.6523056626319885,
+      "learning_rate": 3.007518796992482e-07,
+      "loss": 0.1334,
+      "mean_token_accuracy": 0.9717954970896244,
+      "num_tokens": 42147840.0,
+      "step": 10290
+    },
+    {
+      "epoch": 0.9956019525397516,
+      "grad_norm": 0.6793970465660095,
+      "learning_rate": 2.47046186895811e-07,
+      "loss": 0.1371,
+      "mean_token_accuracy": 0.9715264149010181,
+      "num_tokens": 42188800.0,
+      "step": 10300
+    },
+    {
+      "epoch": 0.9965685563771688,
+      "grad_norm": 0.6603143215179443,
+      "learning_rate": 1.933404940923738e-07,
+      "loss": 0.1116,
+      "mean_token_accuracy": 0.9765166319906712,
+      "num_tokens": 42229760.0,
+      "step": 10310
+    },
+    {
+      "epoch": 0.9975351602145861,
+      "grad_norm": 0.7608389258384705,
+      "learning_rate": 1.3963480128893664e-07,
+      "loss": 0.141,
+      "mean_token_accuracy": 0.9707680970430375,
+      "num_tokens": 42270720.0,
+      "step": 10320
+    },
+    {
+      "epoch": 0.9985017640520033,
+      "grad_norm": 0.7448744177818298,
+      "learning_rate": 8.592910848549947e-08,
+      "loss": 0.1155,
+      "mean_token_accuracy": 0.9754892319440842,
+      "num_tokens": 42311680.0,
+      "step": 10330
+    },
+    {
+      "epoch": 0.9994683678894205,
+      "grad_norm": 0.7076250910758972,
+      "learning_rate": 3.2223415682062296e-08,
+      "loss": 0.1324,
+      "mean_token_accuracy": 0.9716731876134872,
+      "num_tokens": 42352640.0,
+      "step": 10340
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.1198388221509632e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null