Training in progress, step 2808, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +298 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efcff6c48c08e94349cc49cc783b8ae3ecc9cd09a53a4758ee78a29572cccc1f
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:722a15a41fb1cf0c0aed8d758c5e1a337541cfa86629d2c46863528950276e2f
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0517d23275a28b9e0e485af28a3fd8e3367187b1b3fa646e2dad946ff34488fc
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:d12628f51c7f4bc8cb3f237b3ca8b7dcf3d7dfee77e7169e602bea9973ebd683
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:020a6f14b3cac02d92f73eeb404b16f26c01f0db6a2cbf8681f2b679e8af8524
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c29adc3f04b16f4ac7f5b1dc3d9fcb19c78040ad671c4b2bf4a3cc4d244df933
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a080da6311c41d255bb3f245c892db20898f0a63654357045b9affb58ad25368
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:284b167bb422ee615f8e9d8e8547811bfc46bf29da5b79cfc94d4da6720ac4b5
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.6711194229227893,
   "eval_steps": 100,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2458,6 +2458,300 @@
       "eval_samples_per_second": 30.289,
       "eval_steps_per_second": 1.893,
       "step": 2500
     }
   ],
   "logging_steps": 10,
@@ -2472,12 +2766,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.411381606508134e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 2808,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.289,
       "eval_steps_per_second": 1.893,
       "step": 2500
+    },
+    {
+      "epoch": 2.6818060379374833,
+      "grad_norm": 1.0547696352005005,
+      "learning_rate": 1.183221210922042e-06,
+      "loss": 0.158,
+      "mean_token_accuracy": 0.826284246146679,
+      "num_tokens": 20557824.0,
+      "step": 2510
+    },
+    {
+      "epoch": 2.6924926529521773,
+      "grad_norm": 1.7910685539245605,
+      "learning_rate": 1.143648595172141e-06,
+      "loss": 0.1559,
+      "mean_token_accuracy": 0.8219667319208384,
+      "num_tokens": 20639744.0,
+      "step": 2520
+    },
+    {
+      "epoch": 2.7031792679668714,
+      "grad_norm": 1.1875276565551758,
+      "learning_rate": 1.10407597942224e-06,
+      "loss": 0.1595,
+      "mean_token_accuracy": 0.8250611502677202,
+      "num_tokens": 20721664.0,
+      "step": 2530
+    },
+    {
+      "epoch": 2.7138658829815654,
+      "grad_norm": 1.1379560232162476,
+      "learning_rate": 1.064503363672339e-06,
+      "loss": 0.1273,
+      "mean_token_accuracy": 0.8377813111990691,
+      "num_tokens": 20803584.0,
+      "step": 2540
+    },
+    {
+      "epoch": 2.7245524979962594,
+      "grad_norm": 1.1959253549575806,
+      "learning_rate": 1.024930747922438e-06,
+      "loss": 0.1348,
+      "mean_token_accuracy": 0.832387474551797,
+      "num_tokens": 20885504.0,
+      "step": 2550
+    },
+    {
+      "epoch": 2.735239113010954,
+      "grad_norm": 1.2150254249572754,
+      "learning_rate": 9.853581321725367e-07,
+      "loss": 0.1551,
+      "mean_token_accuracy": 0.821587573364377,
+      "num_tokens": 20967424.0,
+      "step": 2560
+    },
+    {
+      "epoch": 2.745925728025648,
+      "grad_norm": 1.5686252117156982,
+      "learning_rate": 9.457855164226357e-07,
+      "loss": 0.1461,
+      "mean_token_accuracy": 0.8346624251455068,
+      "num_tokens": 21049344.0,
+      "step": 2570
+    },
+    {
+      "epoch": 2.756612343040342,
+      "grad_norm": 1.5219730138778687,
+      "learning_rate": 9.062129006727345e-07,
+      "loss": 0.1545,
+      "mean_token_accuracy": 0.8117783740162849,
+      "num_tokens": 21131264.0,
+      "step": 2580
+    },
+    {
+      "epoch": 2.767298958055036,
+      "grad_norm": 1.216352939605713,
+      "learning_rate": 8.666402849228335e-07,
+      "loss": 0.1249,
+      "mean_token_accuracy": 0.831531309708953,
+      "num_tokens": 21213184.0,
+      "step": 2590
+    },
+    {
+      "epoch": 2.77798557306973,
+      "grad_norm": 0.99131840467453,
+      "learning_rate": 8.270676691729324e-07,
+      "loss": 0.1551,
+      "step": 2600
+    },
+    {
+      "epoch": 2.77798557306973,
+      "eval_loss": 0.35856378078460693,
+      "eval_mean_token_accuracy": 0.9245799160920657,
+      "eval_num_tokens": 21295104.0,
+      "eval_runtime": 54.645,
+      "eval_samples_per_second": 30.451,
+      "eval_steps_per_second": 1.903,
+      "step": 2600
+    },
+    {
+      "epoch": 2.7886721880844245,
+      "grad_norm": 1.2371041774749756,
+      "learning_rate": 7.874950534230314e-07,
+      "loss": 0.155,
+      "mean_token_accuracy": 0.8295437873341143,
+      "num_tokens": 21377024.0,
+      "step": 2610
+    },
+    {
+      "epoch": 2.7993588030991186,
+      "grad_norm": 1.222365140914917,
+      "learning_rate": 7.479224376731302e-07,
+      "loss": 0.1379,
+      "mean_token_accuracy": 0.8334271032363176,
+      "num_tokens": 21458944.0,
+      "step": 2620
+    },
+    {
+      "epoch": 2.8100454181138126,
+      "grad_norm": 1.0691900253295898,
+      "learning_rate": 7.083498219232292e-07,
+      "loss": 0.1298,
+      "mean_token_accuracy": 0.8295743606984616,
+      "num_tokens": 21540864.0,
+      "step": 2630
+    },
+    {
+      "epoch": 2.8207320331285066,
+      "grad_norm": 1.298315167427063,
+      "learning_rate": 6.687772061733282e-07,
+      "loss": 0.1742,
+      "mean_token_accuracy": 0.8030210331082344,
+      "num_tokens": 21622784.0,
+      "step": 2640
+    },
+    {
+      "epoch": 2.8314186481432007,
+      "grad_norm": 1.385136604309082,
+      "learning_rate": 6.29204590423427e-07,
+      "loss": 0.1365,
+      "mean_token_accuracy": 0.8225048929452896,
+      "num_tokens": 21704704.0,
+      "step": 2650
+    },
+    {
+      "epoch": 2.8421052631578947,
+      "grad_norm": 1.5449044704437256,
+      "learning_rate": 5.89631974673526e-07,
+      "loss": 0.1761,
+      "mean_token_accuracy": 0.8003669247031212,
+      "num_tokens": 21786624.0,
+      "step": 2660
+    },
+    {
+      "epoch": 2.8527918781725887,
+      "grad_norm": 1.9411510229110718,
+      "learning_rate": 5.500593589236249e-07,
+      "loss": 0.1482,
+      "mean_token_accuracy": 0.8060420740395784,
+      "num_tokens": 21868544.0,
+      "step": 2670
+    },
+    {
+      "epoch": 2.8634784931872828,
+      "grad_norm": 1.0051461458206177,
+      "learning_rate": 5.104867431737238e-07,
+      "loss": 0.1443,
+      "mean_token_accuracy": 0.8296232867985964,
+      "num_tokens": 21950464.0,
+      "step": 2680
+    },
+    {
+      "epoch": 2.874165108201977,
+      "grad_norm": 1.6511443853378296,
+      "learning_rate": 4.7091412742382274e-07,
+      "loss": 0.1427,
+      "mean_token_accuracy": 0.829244127869606,
+      "num_tokens": 22032384.0,
+      "step": 2690
+    },
+    {
+      "epoch": 2.8848517232166713,
+      "grad_norm": 0.8944096565246582,
+      "learning_rate": 4.3134151167392167e-07,
+      "loss": 0.1335,
+      "step": 2700
+    },
+    {
+      "epoch": 2.8848517232166713,
+      "eval_loss": 0.35777753591537476,
+      "eval_mean_token_accuracy": 0.9246739997313573,
+      "eval_num_tokens": 22114304.0,
+      "eval_runtime": 55.0863,
+      "eval_samples_per_second": 30.207,
+      "eval_steps_per_second": 1.888,
+      "step": 2700
+    },
+    {
+      "epoch": 2.8955383382313653,
+      "grad_norm": 1.2431285381317139,
+      "learning_rate": 3.917688959240206e-07,
+      "loss": 0.1319,
+      "mean_token_accuracy": 0.8427042558789253,
+      "num_tokens": 22196224.0,
+      "step": 2710
+    },
+    {
+      "epoch": 2.9062249532460593,
+      "grad_norm": 1.1439481973648071,
+      "learning_rate": 3.5219628017411953e-07,
+      "loss": 0.1556,
+      "mean_token_accuracy": 0.82298189625144,
+      "num_tokens": 22278144.0,
+      "step": 2720
+    },
+    {
+      "epoch": 2.9169115682607534,
+      "grad_norm": 1.1549094915390015,
+      "learning_rate": 3.1262366442421846e-07,
+      "loss": 0.1336,
+      "mean_token_accuracy": 0.8487646751105785,
+      "num_tokens": 22360064.0,
+      "step": 2730
+    },
+    {
+      "epoch": 2.9275981832754474,
+      "grad_norm": 1.5530976057052612,
+      "learning_rate": 2.730510486743174e-07,
+      "loss": 0.1643,
+      "mean_token_accuracy": 0.8154109574854373,
+      "num_tokens": 22441984.0,
+      "step": 2740
+    },
+    {
+      "epoch": 2.9382847982901414,
+      "grad_norm": 1.057889699935913,
+      "learning_rate": 2.3347843292441632e-07,
+      "loss": 0.1249,
+      "mean_token_accuracy": 0.8479207433760166,
+      "num_tokens": 22523904.0,
+      "step": 2750
+    },
+    {
+      "epoch": 2.948971413304836,
+      "grad_norm": 1.149165153503418,
+      "learning_rate": 1.9390581717451524e-07,
+      "loss": 0.1343,
+      "mean_token_accuracy": 0.8305650681257248,
+      "num_tokens": 22605824.0,
+      "step": 2760
+    },
+    {
+      "epoch": 2.95965802831953,
+      "grad_norm": 1.325223684310913,
+      "learning_rate": 1.5433320142461417e-07,
+      "loss": 0.1251,
+      "mean_token_accuracy": 0.8496453046798706,
+      "num_tokens": 22687744.0,
+      "step": 2770
+    },
+    {
+      "epoch": 2.970344643334224,
+      "grad_norm": 1.2108739614486694,
+      "learning_rate": 1.1476058567471311e-07,
+      "loss": 0.14,
+      "mean_token_accuracy": 0.8448997050523758,
+      "num_tokens": 22769664.0,
+      "step": 2780
+    },
+    {
+      "epoch": 2.981031258348918,
+      "grad_norm": 1.3373411893844604,
+      "learning_rate": 7.518796992481203e-08,
+      "loss": 0.1486,
+      "mean_token_accuracy": 0.8307362981140614,
+      "num_tokens": 22851584.0,
+      "step": 2790
+    },
+    {
+      "epoch": 2.991717873363612,
+      "grad_norm": 1.7406622171401978,
+      "learning_rate": 3.5615354174910966e-08,
+      "loss": 0.1905,
+      "step": 2800
+    },
+    {
+      "epoch": 2.991717873363612,
+      "eval_loss": 0.3580096960067749,
+      "eval_mean_token_accuracy": 0.924671647640375,
+      "eval_num_tokens": 22933504.0,
+      "eval_runtime": 54.8159,
+      "eval_samples_per_second": 30.356,
+      "eval_steps_per_second": 1.897,
+      "step": 2800
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.077655937135411e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null