Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +493 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26aeee8082b762a47da2b73c5109b724ff428ec39574f7e7869b2955c2742438
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:383e7ccd95f2dc8638fcfa2e1aea691b7a5012239f94f88b0c027486d3e81534
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffb78fbe6df8d154184d04fe4a38dada15fb2b41a26e20271bd06e2ac87f8479
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e8832080f4ad58fc5492e49ef30f7b5a9c5492859d5d3ba2bfa8cc2e763339b
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14d9e6012c6b97b605d67334319a24f115c4686d9f7afc657c65afaed6893946
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5c708d5f614ec082a45510d833ad3c779e04045466fdb236d84ee02df75e1e2
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:155edb0600918d427d776d6c6d2b7d0773bb9551ba0efb64457f101d8ff17495
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:09649a50475eb2d1586d1fccd870b8855df045b32800fa9e87df238979448da3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.136873997504901,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1478,6 +1478,496 @@
       "eval_samples_per_second": 30.2,
       "eval_steps_per_second": 1.889,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1497,7 +1987,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2445016043421696e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.849759401176261,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.2,
       "eval_steps_per_second": 1.889,
       "step": 1500
+    },
+    {
+      "epoch": 2.151131705578328,
+      "grad_norm": 1.1753822565078735,
+      "learning_rate": 3.1503957783641167e-06,
+      "loss": 0.1709,
+      "mean_token_accuracy": 0.7948324346914888,
+      "num_tokens": 12358656.0,
+      "step": 1510
+    },
+    {
+      "epoch": 2.1653894136517553,
+      "grad_norm": 1.3583290576934814,
+      "learning_rate": 3.0976253298153036e-06,
+      "loss": 0.1516,
+      "mean_token_accuracy": 0.7987769071012736,
+      "num_tokens": 12440576.0,
+      "step": 1520
+    },
+    {
+      "epoch": 2.1796471217251825,
+      "grad_norm": 1.6773642301559448,
+      "learning_rate": 3.044854881266491e-06,
+      "loss": 0.1582,
+      "mean_token_accuracy": 0.8161937419325114,
+      "num_tokens": 12522496.0,
+      "step": 1530
+    },
+    {
+      "epoch": 2.1939048297986097,
+      "grad_norm": 1.700421929359436,
+      "learning_rate": 2.9920844327176783e-06,
+      "loss": 0.1651,
+      "mean_token_accuracy": 0.7837084148079156,
+      "num_tokens": 12604416.0,
+      "step": 1540
+    },
+    {
+      "epoch": 2.208162537872037,
+      "grad_norm": 1.278611183166504,
+      "learning_rate": 2.9393139841688656e-06,
+      "loss": 0.1459,
+      "mean_token_accuracy": 0.8016634039580822,
+      "num_tokens": 12686336.0,
+      "step": 1550
+    },
+    {
+      "epoch": 2.2224202459454645,
+      "grad_norm": 1.3623602390289307,
+      "learning_rate": 2.8865435356200525e-06,
+      "loss": 0.1754,
+      "mean_token_accuracy": 0.7952054802328348,
+      "num_tokens": 12768256.0,
+      "step": 1560
+    },
+    {
+      "epoch": 2.2366779540188917,
+      "grad_norm": 1.1797006130218506,
+      "learning_rate": 2.8337730870712403e-06,
+      "loss": 0.1854,
+      "mean_token_accuracy": 0.7857632093131542,
+      "num_tokens": 12850176.0,
+      "step": 1570
+    },
+    {
+      "epoch": 2.250935662092319,
+      "grad_norm": 1.2017779350280762,
+      "learning_rate": 2.7810026385224277e-06,
+      "loss": 0.1482,
+      "mean_token_accuracy": 0.8103106629103423,
+      "num_tokens": 12932096.0,
+      "step": 1580
+    },
+    {
+      "epoch": 2.265193370165746,
+      "grad_norm": 1.1322146654129028,
+      "learning_rate": 2.7282321899736154e-06,
+      "loss": 0.1539,
+      "mean_token_accuracy": 0.8084882564842701,
+      "num_tokens": 13014016.0,
+      "step": 1590
+    },
+    {
+      "epoch": 2.2794510782391733,
+      "grad_norm": 1.2803654670715332,
+      "learning_rate": 2.6754617414248023e-06,
+      "loss": 0.1495,
+      "step": 1600
+    },
+    {
+      "epoch": 2.2794510782391733,
+      "eval_loss": 0.423663467168808,
+      "eval_mean_token_accuracy": 0.9079369283639468,
+      "eval_num_tokens": 13095936.0,
+      "eval_runtime": 41.2866,
+      "eval_samples_per_second": 30.203,
+      "eval_steps_per_second": 1.889,
+      "step": 1600
+    },
+    {
+      "epoch": 2.2937087863126004,
+      "grad_norm": 1.110379934310913,
+      "learning_rate": 2.6226912928759897e-06,
+      "loss": 0.157,
+      "mean_token_accuracy": 0.8001467704772949,
+      "num_tokens": 13177856.0,
+      "step": 1610
+    },
+    {
+      "epoch": 2.3079664943860276,
+      "grad_norm": 1.2236034870147705,
+      "learning_rate": 2.5699208443271775e-06,
+      "loss": 0.1566,
+      "mean_token_accuracy": 0.807118396833539,
+      "num_tokens": 13259776.0,
+      "step": 1620
+    },
+    {
+      "epoch": 2.322224202459455,
+      "grad_norm": 1.439042329788208,
+      "learning_rate": 2.5171503957783644e-06,
+      "loss": 0.1979,
+      "mean_token_accuracy": 0.7804794508963824,
+      "num_tokens": 13341696.0,
+      "step": 1630
+    },
+    {
+      "epoch": 2.336481910532882,
+      "grad_norm": 1.3598966598510742,
+      "learning_rate": 2.4643799472295517e-06,
+      "loss": 0.1514,
+      "mean_token_accuracy": 0.8212695695459843,
+      "num_tokens": 13423616.0,
+      "step": 1640
+    },
+    {
+      "epoch": 2.350739618606309,
+      "grad_norm": 1.401573896408081,
+      "learning_rate": 2.411609498680739e-06,
+      "loss": 0.1588,
+      "mean_token_accuracy": 0.8089774928987026,
+      "num_tokens": 13505536.0,
+      "step": 1650
+    },
+    {
+      "epoch": 2.3649973266797364,
+      "grad_norm": 1.6068435907363892,
+      "learning_rate": 2.3588390501319264e-06,
+      "loss": 0.1647,
+      "mean_token_accuracy": 0.8134907066822052,
+      "num_tokens": 13587456.0,
+      "step": 1660
+    },
+    {
+      "epoch": 2.3792550347531636,
+      "grad_norm": 1.2568259239196777,
+      "learning_rate": 2.3060686015831133e-06,
+      "loss": 0.1664,
+      "mean_token_accuracy": 0.7954256378114224,
+      "num_tokens": 13669376.0,
+      "step": 1670
+    },
+    {
+      "epoch": 2.3935127428265908,
+      "grad_norm": 1.6980928182601929,
+      "learning_rate": 2.253298153034301e-06,
+      "loss": 0.1707,
+      "mean_token_accuracy": 0.7994985327124595,
+      "num_tokens": 13751296.0,
+      "step": 1680
+    },
+    {
+      "epoch": 2.407770450900018,
+      "grad_norm": 1.6247879266738892,
+      "learning_rate": 2.2005277044854884e-06,
+      "loss": 0.1579,
+      "mean_token_accuracy": 0.7971624247729778,
+      "num_tokens": 13833216.0,
+      "step": 1690
+    },
+    {
+      "epoch": 2.422028158973445,
+      "grad_norm": 1.6872649192810059,
+      "learning_rate": 2.1477572559366753e-06,
+      "loss": 0.1703,
+      "step": 1700
+    },
+    {
+      "epoch": 2.422028158973445,
+      "eval_loss": 0.4227621853351593,
+      "eval_mean_token_accuracy": 0.9080967650963709,
+      "eval_num_tokens": 13915136.0,
+      "eval_runtime": 41.2123,
+      "eval_samples_per_second": 30.258,
+      "eval_steps_per_second": 1.893,
+      "step": 1700
+    },
+    {
+      "epoch": 2.4362858670468723,
+      "grad_norm": 1.6167148351669312,
+      "learning_rate": 2.094986807387863e-06,
+      "loss": 0.1801,
+      "mean_token_accuracy": 0.7794765178114176,
+      "num_tokens": 13997056.0,
+      "step": 1710
+    },
+    {
+      "epoch": 2.4505435751202995,
+      "grad_norm": 1.2795140743255615,
+      "learning_rate": 2.0422163588390505e-06,
+      "loss": 0.1466,
+      "mean_token_accuracy": 0.8015288673341274,
+      "num_tokens": 14078976.0,
+      "step": 1720
+    },
+    {
+      "epoch": 2.4648012831937267,
+      "grad_norm": 1.2836272716522217,
+      "learning_rate": 1.989445910290238e-06,
+      "loss": 0.1587,
+      "mean_token_accuracy": 0.7941046960651874,
+      "num_tokens": 14160896.0,
+      "step": 1730
+    },
+    {
+      "epoch": 2.479058991267154,
+      "grad_norm": 1.1510287523269653,
+      "learning_rate": 1.9366754617414247e-06,
+      "loss": 0.1807,
+      "mean_token_accuracy": 0.7942025430500508,
+      "num_tokens": 14242816.0,
+      "step": 1740
+    },
+    {
+      "epoch": 2.493316699340581,
+      "grad_norm": 1.2959060668945312,
+      "learning_rate": 1.8839050131926123e-06,
+      "loss": 0.187,
+      "mean_token_accuracy": 0.7789016582071782,
+      "num_tokens": 14324736.0,
+      "step": 1750
+    },
+    {
+      "epoch": 2.5075744074140083,
+      "grad_norm": 1.0948452949523926,
+      "learning_rate": 1.8311345646437998e-06,
+      "loss": 0.1995,
+      "mean_token_accuracy": 0.761827296577394,
+      "num_tokens": 14406656.0,
+      "step": 1760
+    },
+    {
+      "epoch": 2.5218321154874355,
+      "grad_norm": 1.3183213472366333,
+      "learning_rate": 1.778364116094987e-06,
+      "loss": 0.1709,
+      "mean_token_accuracy": 0.7887353241443634,
+      "num_tokens": 14488576.0,
+      "step": 1770
+    },
+    {
+      "epoch": 2.5360898235608627,
+      "grad_norm": 1.2092057466506958,
+      "learning_rate": 1.7255936675461743e-06,
+      "loss": 0.1325,
+      "mean_token_accuracy": 0.8213796474039554,
+      "num_tokens": 14570496.0,
+      "step": 1780
+    },
+    {
+      "epoch": 2.55034753163429,
+      "grad_norm": 1.418562889099121,
+      "learning_rate": 1.6728232189973616e-06,
+      "loss": 0.1827,
+      "mean_token_accuracy": 0.7853595890104771,
+      "num_tokens": 14652416.0,
+      "step": 1790
+    },
+    {
+      "epoch": 2.564605239707717,
+      "grad_norm": 1.0960406064987183,
+      "learning_rate": 1.6200527704485488e-06,
+      "loss": 0.1758,
+      "step": 1800
+    },
+    {
+      "epoch": 2.564605239707717,
+      "eval_loss": 0.4227621257305145,
+      "eval_mean_token_accuracy": 0.9082627732020158,
+      "eval_num_tokens": 14734336.0,
+      "eval_runtime": 41.1309,
+      "eval_samples_per_second": 30.318,
+      "eval_steps_per_second": 1.896,
+      "step": 1800
+    },
+    {
+      "epoch": 2.578862947781144,
+      "grad_norm": 1.5267870426177979,
+      "learning_rate": 1.5672823218997363e-06,
+      "loss": 0.1732,
+      "mean_token_accuracy": 0.7900256833992898,
+      "num_tokens": 14816256.0,
+      "step": 1810
+    },
+    {
+      "epoch": 2.5931206558545714,
+      "grad_norm": 2.303779125213623,
+      "learning_rate": 1.5145118733509237e-06,
+      "loss": 0.1717,
+      "mean_token_accuracy": 0.8003057725727558,
+      "num_tokens": 14898176.0,
+      "step": 1820
+    },
+    {
+      "epoch": 2.6073783639279986,
+      "grad_norm": 1.3814704418182373,
+      "learning_rate": 1.4617414248021108e-06,
+      "loss": 0.1691,
+      "mean_token_accuracy": 0.8011741682887077,
+      "num_tokens": 14980096.0,
+      "step": 1830
+    },
+    {
+      "epoch": 2.621636072001426,
+      "grad_norm": 1.4888346195220947,
+      "learning_rate": 1.4089709762532984e-06,
+      "loss": 0.1665,
+      "mean_token_accuracy": 0.7911203544586897,
+      "num_tokens": 15062016.0,
+      "step": 1840
+    },
+    {
+      "epoch": 2.635893780074853,
+      "grad_norm": 1.7252527475357056,
+      "learning_rate": 1.3562005277044857e-06,
+      "loss": 0.1462,
+      "mean_token_accuracy": 0.8204623281955719,
+      "num_tokens": 15143936.0,
+      "step": 1850
+    },
+    {
+      "epoch": 2.65015148814828,
+      "grad_norm": 1.3731549978256226,
+      "learning_rate": 1.3034300791556728e-06,
+      "loss": 0.1469,
+      "mean_token_accuracy": 0.8153620343655348,
+      "num_tokens": 15225856.0,
+      "step": 1860
+    },
+    {
+      "epoch": 2.6644091962217074,
+      "grad_norm": 1.1390541791915894,
+      "learning_rate": 1.2506596306068602e-06,
+      "loss": 0.1511,
+      "mean_token_accuracy": 0.7933586105704308,
+      "num_tokens": 15307776.0,
+      "step": 1870
+    },
+    {
+      "epoch": 2.6786669042951345,
+      "grad_norm": 1.3843096494674683,
+      "learning_rate": 1.1978891820580475e-06,
+      "loss": 0.1743,
+      "mean_token_accuracy": 0.7874510768800974,
+      "num_tokens": 15389696.0,
+      "step": 1880
+    },
+    {
+      "epoch": 2.6929246123685617,
+      "grad_norm": 1.4261775016784668,
+      "learning_rate": 1.1451187335092349e-06,
+      "loss": 0.1775,
+      "mean_token_accuracy": 0.7992783728986979,
+      "num_tokens": 15471616.0,
+      "step": 1890
+    },
+    {
+      "epoch": 2.707182320441989,
+      "grad_norm": 1.4358237981796265,
+      "learning_rate": 1.0923482849604222e-06,
+      "loss": 0.1488,
+      "step": 1900
+    },
+    {
+      "epoch": 2.707182320441989,
+      "eval_loss": 0.4216897487640381,
+      "eval_mean_token_accuracy": 0.9083614570972247,
+      "eval_num_tokens": 15553536.0,
+      "eval_runtime": 41.1549,
+      "eval_samples_per_second": 30.3,
+      "eval_steps_per_second": 1.895,
+      "step": 1900
+    },
+    {
+      "epoch": 2.721440028515416,
+      "grad_norm": 1.4193668365478516,
+      "learning_rate": 1.0395778364116096e-06,
+      "loss": 0.1432,
+      "mean_token_accuracy": 0.8027458423748612,
+      "num_tokens": 15635456.0,
+      "step": 1910
+    },
+    {
+      "epoch": 2.7356977365888433,
+      "grad_norm": 1.3984283208847046,
+      "learning_rate": 9.86807387862797e-07,
+      "loss": 0.1751,
+      "mean_token_accuracy": 0.7997309185564518,
+      "num_tokens": 15717376.0,
+      "step": 1920
+    },
+    {
+      "epoch": 2.7499554446622705,
+      "grad_norm": 1.2041066884994507,
+      "learning_rate": 9.340369393139842e-07,
+      "loss": 0.2063,
+      "mean_token_accuracy": 0.770768103376031,
+      "num_tokens": 15799296.0,
+      "step": 1930
+    },
+    {
+      "epoch": 2.7642131527356977,
+      "grad_norm": 1.4668165445327759,
+      "learning_rate": 8.812664907651716e-07,
+      "loss": 0.1496,
+      "mean_token_accuracy": 0.7937133066356182,
+      "num_tokens": 15881216.0,
+      "step": 1940
+    },
+    {
+      "epoch": 2.778470860809125,
+      "grad_norm": 1.1798230409622192,
+      "learning_rate": 8.284960422163589e-07,
+      "loss": 0.1696,
+      "mean_token_accuracy": 0.7978228941559792,
+      "num_tokens": 15963136.0,
+      "step": 1950
+    },
+    {
+      "epoch": 2.792728568882552,
+      "grad_norm": 1.4253802299499512,
+      "learning_rate": 7.757255936675462e-07,
+      "loss": 0.1602,
+      "mean_token_accuracy": 0.8014432441443204,
+      "num_tokens": 16045056.0,
+      "step": 1960
+    },
+    {
+      "epoch": 2.8069862769559792,
+      "grad_norm": 1.3596400022506714,
+      "learning_rate": 7.229551451187336e-07,
+      "loss": 0.1672,
+      "mean_token_accuracy": 0.808916338160634,
+      "num_tokens": 16126976.0,
+      "step": 1970
+    },
+    {
+      "epoch": 2.8212439850294064,
+      "grad_norm": 1.4225387573242188,
+      "learning_rate": 6.701846965699208e-07,
+      "loss": 0.1767,
+      "mean_token_accuracy": 0.7800391383469105,
+      "num_tokens": 16208896.0,
+      "step": 1980
+    },
+    {
+      "epoch": 2.8355016931028336,
+      "grad_norm": 1.8448420763015747,
+      "learning_rate": 6.174142480211082e-07,
+      "loss": 0.1846,
+      "mean_token_accuracy": 0.792747063189745,
+      "num_tokens": 16290816.0,
+      "step": 1990
+    },
+    {
+      "epoch": 2.849759401176261,
+      "grad_norm": 1.4115536212921143,
+      "learning_rate": 5.646437994722955e-07,
+      "loss": 0.1398,
+      "step": 2000
+    },
+    {
+      "epoch": 2.849759401176261,
+      "eval_loss": 0.42159923911094666,
+      "eval_mean_token_accuracy": 0.9084225067725549,
+      "eval_num_tokens": 16372736.0,
+      "eval_runtime": 41.1801,
+      "eval_samples_per_second": 30.282,
+      "eval_steps_per_second": 1.894,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.32699442420777e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null