Training in progress, step 10000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ca7c4e3749f06ebc1778c062b3d70c4f488a26b411ddd7c3d301ae4023802d1
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:0036e61ddac96c13d28af5b7348463838da31642973c16e5370deba79e225fb7
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d45b61751a61e4b6f882922592537bf8e092f455741fa220a9008ab320f07ad
 size 4768662910

 version https://git-lfs.github.com/spec/v1
+oid sha256:81c5b9d8b1806de7455aa1e925033cdc78ae0c9f0b199eac035d87169284a120
 size 4768662910

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a81369904e00a468d2ec4beb1dd4e8f30c6191c2e29c4144f662ff07eadf5eab
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ba427af78f54355503e8fb146121e9f936d278226f07d5bf09468fc62083d77
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9182736455463728,
   "eval_steps": 100,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8558,6 +8558,456 @@
       "mean_token_accuracy": 0.9684931464493275,
       "num_tokens": 38912000.0,
       "step": 9500
     }
   ],
   "logging_steps": 10,
@@ -8577,7 +9027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.02836817887232e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9666038374172345,
   "eval_steps": 100,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.9684931464493275,
       "num_tokens": 38912000.0,
       "step": 9500
+    },
+    {
+      "epoch": 0.91924024938379,
+      "grad_norm": 0.8302338123321533,
+      "learning_rate": 4.489795918367347e-06,
+      "loss": 0.1492,
+      "mean_token_accuracy": 0.9706213280558587,
+      "num_tokens": 38952960.0,
+      "step": 9510
+    },
+    {
+      "epoch": 0.9202068532212073,
+      "grad_norm": 0.7152886390686035,
+      "learning_rate": 4.436090225563911e-06,
+      "loss": 0.123,
+      "mean_token_accuracy": 0.9749999962747097,
+      "num_tokens": 38993920.0,
+      "step": 9520
+    },
+    {
+      "epoch": 0.9211734570586245,
+      "grad_norm": 0.5830357074737549,
+      "learning_rate": 4.382384532760473e-06,
+      "loss": 0.1219,
+      "mean_token_accuracy": 0.9751712322235108,
+      "num_tokens": 39034880.0,
+      "step": 9530
+    },
+    {
+      "epoch": 0.9221400608960417,
+      "grad_norm": 0.8357058763504028,
+      "learning_rate": 4.328678839957036e-06,
+      "loss": 0.1569,
+      "mean_token_accuracy": 0.9674412876367569,
+      "num_tokens": 39075840.0,
+      "step": 9540
+    },
+    {
+      "epoch": 0.923106664733459,
+      "grad_norm": 0.8819809556007385,
+      "learning_rate": 4.274973147153598e-06,
+      "loss": 0.143,
+      "mean_token_accuracy": 0.9700097791850567,
+      "num_tokens": 39116800.0,
+      "step": 9550
+    },
+    {
+      "epoch": 0.9240732685708762,
+      "grad_norm": 0.6170474290847778,
+      "learning_rate": 4.221267454350161e-06,
+      "loss": 0.1453,
+      "mean_token_accuracy": 0.9699363976716995,
+      "num_tokens": 39157760.0,
+      "step": 9560
+    },
+    {
+      "epoch": 0.9250398724082934,
+      "grad_norm": 0.7918187975883484,
+      "learning_rate": 4.1675617615467236e-06,
+      "loss": 0.1473,
+      "mean_token_accuracy": 0.9694960817694664,
+      "num_tokens": 39198720.0,
+      "step": 9570
+    },
+    {
+      "epoch": 0.9260064762457106,
+      "grad_norm": 0.7999791502952576,
+      "learning_rate": 4.113856068743287e-06,
+      "loss": 0.12,
+      "mean_token_accuracy": 0.9749755367636681,
+      "num_tokens": 39239680.0,
+      "step": 9580
+    },
+    {
+      "epoch": 0.926973080083128,
+      "grad_norm": 0.794882595539093,
+      "learning_rate": 4.06015037593985e-06,
+      "loss": 0.1322,
+      "mean_token_accuracy": 0.9725782789289952,
+      "num_tokens": 39280640.0,
+      "step": 9590
+    },
+    {
+      "epoch": 0.9279396839205452,
+      "grad_norm": 0.6439830660820007,
+      "learning_rate": 4.006444683136413e-06,
+      "loss": 0.1463,
+      "mean_token_accuracy": 0.9704745531082153,
+      "num_tokens": 39321600.0,
+      "step": 9600
+    },
+    {
+      "epoch": 0.9289062877579624,
+      "grad_norm": 0.7629963159561157,
+      "learning_rate": 3.952738990332976e-06,
+      "loss": 0.1556,
+      "mean_token_accuracy": 0.9674657486379147,
+      "num_tokens": 39362560.0,
+      "step": 9610
+    },
+    {
+      "epoch": 0.9298728915953797,
+      "grad_norm": 0.7481008172035217,
+      "learning_rate": 3.899033297529538e-06,
+      "loss": 0.1459,
+      "mean_token_accuracy": 0.9704256355762482,
+      "num_tokens": 39403520.0,
+      "step": 9620
+    },
+    {
+      "epoch": 0.9308394954327969,
+      "grad_norm": 0.7382989525794983,
+      "learning_rate": 3.845327604726101e-06,
+      "loss": 0.1481,
+      "mean_token_accuracy": 0.9690802298486233,
+      "num_tokens": 39444480.0,
+      "step": 9630
+    },
+    {
+      "epoch": 0.9318060992702141,
+      "grad_norm": 0.7181780934333801,
+      "learning_rate": 3.791621911922664e-06,
+      "loss": 0.1432,
+      "mean_token_accuracy": 0.9703767105937005,
+      "num_tokens": 39485440.0,
+      "step": 9640
+    },
+    {
+      "epoch": 0.9327727031076314,
+      "grad_norm": 0.7073920369148254,
+      "learning_rate": 3.7379162191192266e-06,
+      "loss": 0.1423,
+      "mean_token_accuracy": 0.9701320916414261,
+      "num_tokens": 39526400.0,
+      "step": 9650
+    },
+    {
+      "epoch": 0.9337393069450486,
+      "grad_norm": 0.665108859539032,
+      "learning_rate": 3.6842105263157892e-06,
+      "loss": 0.1367,
+      "mean_token_accuracy": 0.9713796436786651,
+      "num_tokens": 39567360.0,
+      "step": 9660
+    },
+    {
+      "epoch": 0.9347059107824658,
+      "grad_norm": 0.6856437921524048,
+      "learning_rate": 3.6305048335123527e-06,
+      "loss": 0.1487,
+      "mean_token_accuracy": 0.9685665339231491,
+      "num_tokens": 39608320.0,
+      "step": 9670
+    },
+    {
+      "epoch": 0.935672514619883,
+      "grad_norm": 0.6998845934867859,
+      "learning_rate": 3.5767991407089154e-06,
+      "loss": 0.1325,
+      "mean_token_accuracy": 0.9735078237950802,
+      "num_tokens": 39649280.0,
+      "step": 9680
+    },
+    {
+      "epoch": 0.9366391184573003,
+      "grad_norm": 0.7220867276191711,
+      "learning_rate": 3.523093447905478e-06,
+      "loss": 0.1322,
+      "mean_token_accuracy": 0.9729941241443157,
+      "num_tokens": 39690240.0,
+      "step": 9690
+    },
+    {
+      "epoch": 0.9376057222947175,
+      "grad_norm": 0.750056803226471,
+      "learning_rate": 3.469387755102041e-06,
+      "loss": 0.1321,
+      "mean_token_accuracy": 0.9733365938067436,
+      "num_tokens": 39731200.0,
+      "step": 9700
+    },
+    {
+      "epoch": 0.9385723261321347,
+      "grad_norm": 0.5716467499732971,
+      "learning_rate": 3.415682062298604e-06,
+      "loss": 0.1513,
+      "mean_token_accuracy": 0.9702299371361732,
+      "num_tokens": 39772160.0,
+      "step": 9710
+    },
+    {
+      "epoch": 0.939538929969552,
+      "grad_norm": 0.7372239828109741,
+      "learning_rate": 3.3619763694951665e-06,
+      "loss": 0.1608,
+      "mean_token_accuracy": 0.9661448121070861,
+      "num_tokens": 39813120.0,
+      "step": 9720
+    },
+    {
+      "epoch": 0.9405055338069692,
+      "grad_norm": 0.6863879561424255,
+      "learning_rate": 3.308270676691729e-06,
+      "loss": 0.141,
+      "mean_token_accuracy": 0.9709148697555066,
+      "num_tokens": 39854080.0,
+      "step": 9730
+    },
+    {
+      "epoch": 0.9414721376443864,
+      "grad_norm": 0.7031144499778748,
+      "learning_rate": 3.2545649838882926e-06,
+      "loss": 0.1355,
+      "mean_token_accuracy": 0.9717954933643341,
+      "num_tokens": 39895040.0,
+      "step": 9740
+    },
+    {
+      "epoch": 0.9424387414818037,
+      "grad_norm": 0.6682131886482239,
+      "learning_rate": 3.2008592910848553e-06,
+      "loss": 0.145,
+      "mean_token_accuracy": 0.9700342446565628,
+      "num_tokens": 39936000.0,
+      "step": 9750
+    },
+    {
+      "epoch": 0.9434053453192209,
+      "grad_norm": 0.6650647521018982,
+      "learning_rate": 3.147153598281418e-06,
+      "loss": 0.1413,
+      "mean_token_accuracy": 0.9703767091035843,
+      "num_tokens": 39976960.0,
+      "step": 9760
+    },
+    {
+      "epoch": 0.9443719491566381,
+      "grad_norm": 0.8530674576759338,
+      "learning_rate": 3.0934479054779806e-06,
+      "loss": 0.151,
+      "mean_token_accuracy": 0.9692025408148766,
+      "num_tokens": 40017920.0,
+      "step": 9770
+    },
+    {
+      "epoch": 0.9453385529940553,
+      "grad_norm": 0.7780562043190002,
+      "learning_rate": 3.0397422126745437e-06,
+      "loss": 0.1308,
+      "mean_token_accuracy": 0.9729207396507263,
+      "num_tokens": 40058880.0,
+      "step": 9780
+    },
+    {
+      "epoch": 0.9463051568314726,
+      "grad_norm": 0.613500714302063,
+      "learning_rate": 2.9860365198711068e-06,
+      "loss": 0.1301,
+      "mean_token_accuracy": 0.9727984338998794,
+      "num_tokens": 40099840.0,
+      "step": 9790
+    },
+    {
+      "epoch": 0.9472717606688899,
+      "grad_norm": 0.629189670085907,
+      "learning_rate": 2.9323308270676694e-06,
+      "loss": 0.1198,
+      "mean_token_accuracy": 0.9759295471012592,
+      "num_tokens": 40140800.0,
+      "step": 9800
+    },
+    {
+      "epoch": 0.948238364506307,
+      "grad_norm": 0.7294339537620544,
+      "learning_rate": 2.878625134264232e-06,
+      "loss": 0.1376,
+      "mean_token_accuracy": 0.9716731905937195,
+      "num_tokens": 40181760.0,
+      "step": 9810
+    },
+    {
+      "epoch": 0.9492049683437244,
+      "grad_norm": 0.7860731482505798,
+      "learning_rate": 2.8249194414607948e-06,
+      "loss": 0.1398,
+      "mean_token_accuracy": 0.9713307186961174,
+      "num_tokens": 40222720.0,
+      "step": 9820
+    },
+    {
+      "epoch": 0.9501715721811416,
+      "grad_norm": 0.6915313601493835,
+      "learning_rate": 2.771213748657358e-06,
+      "loss": 0.1543,
+      "mean_token_accuracy": 0.9675146743655205,
+      "num_tokens": 40263680.0,
+      "step": 9830
+    },
+    {
+      "epoch": 0.9511381760185588,
+      "grad_norm": 0.6553166508674622,
+      "learning_rate": 2.7175080558539205e-06,
+      "loss": 0.143,
+      "mean_token_accuracy": 0.9713307216763496,
+      "num_tokens": 40304640.0,
+      "step": 9840
+    },
+    {
+      "epoch": 0.9521047798559761,
+      "grad_norm": 0.5625308752059937,
+      "learning_rate": 2.6638023630504836e-06,
+      "loss": 0.1415,
+      "mean_token_accuracy": 0.9711105637252331,
+      "num_tokens": 40345600.0,
+      "step": 9850
+    },
+    {
+      "epoch": 0.9530713836933933,
+      "grad_norm": 0.7295253872871399,
+      "learning_rate": 2.6100966702470467e-06,
+      "loss": 0.1567,
+      "mean_token_accuracy": 0.9681262217462063,
+      "num_tokens": 40386560.0,
+      "step": 9860
+    },
+    {
+      "epoch": 0.9540379875308105,
+      "grad_norm": 0.5923715233802795,
+      "learning_rate": 2.5563909774436093e-06,
+      "loss": 0.1241,
+      "mean_token_accuracy": 0.9743150658905506,
+      "num_tokens": 40427520.0,
+      "step": 9870
+    },
+    {
+      "epoch": 0.9550045913682277,
+      "grad_norm": 0.6577922105789185,
+      "learning_rate": 2.502685284640172e-06,
+      "loss": 0.1238,
+      "mean_token_accuracy": 0.9746086105704308,
+      "num_tokens": 40468480.0,
+      "step": 9880
+    },
+    {
+      "epoch": 0.955971195205645,
+      "grad_norm": 0.607589066028595,
+      "learning_rate": 2.4489795918367347e-06,
+      "loss": 0.1403,
+      "mean_token_accuracy": 0.9714041076600551,
+      "num_tokens": 40509440.0,
+      "step": 9890
+    },
+    {
+      "epoch": 0.9569377990430622,
+      "grad_norm": 0.620296835899353,
+      "learning_rate": 2.3952738990332978e-06,
+      "loss": 0.1438,
+      "mean_token_accuracy": 0.9697896286845207,
+      "num_tokens": 40550400.0,
+      "step": 9900
+    },
+    {
+      "epoch": 0.9579044028804794,
+      "grad_norm": 0.783877968788147,
+      "learning_rate": 2.3415682062298604e-06,
+      "loss": 0.1415,
+      "mean_token_accuracy": 0.9718688800930977,
+      "num_tokens": 40591360.0,
+      "step": 9910
+    },
+    {
+      "epoch": 0.9588710067178967,
+      "grad_norm": 0.6063189506530762,
+      "learning_rate": 2.287862513426423e-06,
+      "loss": 0.1497,
+      "mean_token_accuracy": 0.9689579211175442,
+      "num_tokens": 40632320.0,
+      "step": 9920
+    },
+    {
+      "epoch": 0.9598376105553139,
+      "grad_norm": 0.7489660382270813,
+      "learning_rate": 2.234156820622986e-06,
+      "loss": 0.135,
+      "mean_token_accuracy": 0.9724559679627418,
+      "num_tokens": 40673280.0,
+      "step": 9930
+    },
+    {
+      "epoch": 0.9608042143927311,
+      "grad_norm": 0.5833399891853333,
+      "learning_rate": 2.1804511278195492e-06,
+      "loss": 0.1408,
+      "mean_token_accuracy": 0.9712328761816025,
+      "num_tokens": 40714240.0,
+      "step": 9940
+    },
+    {
+      "epoch": 0.9617708182301484,
+      "grad_norm": 0.6912499666213989,
+      "learning_rate": 2.126745435016112e-06,
+      "loss": 0.1114,
+      "mean_token_accuracy": 0.975831700116396,
+      "num_tokens": 40755200.0,
+      "step": 9950
+    },
+    {
+      "epoch": 0.9627374220675656,
+      "grad_norm": 0.8001022934913635,
+      "learning_rate": 2.0730397422126746e-06,
+      "loss": 0.1424,
+      "mean_token_accuracy": 0.9710371777415275,
+      "num_tokens": 40796160.0,
+      "step": 9960
+    },
+    {
+      "epoch": 0.9637040259049828,
+      "grad_norm": 0.6807326674461365,
+      "learning_rate": 2.0193340494092377e-06,
+      "loss": 0.1397,
+      "mean_token_accuracy": 0.9719911940395832,
+      "num_tokens": 40837120.0,
+      "step": 9970
+    },
+    {
+      "epoch": 0.9646706297424,
+      "grad_norm": 0.603573203086853,
+      "learning_rate": 1.9656283566058003e-06,
+      "loss": 0.143,
+      "mean_token_accuracy": 0.9709393292665481,
+      "num_tokens": 40878080.0,
+      "step": 9980
+    },
+    {
+      "epoch": 0.9656372335798173,
+      "grad_norm": 0.7243348360061646,
+      "learning_rate": 1.911922663802363e-06,
+      "loss": 0.1455,
+      "mean_token_accuracy": 0.9693737730383873,
+      "num_tokens": 40919040.0,
+      "step": 9990
+    },
+    {
+      "epoch": 0.9666038374172345,
+      "grad_norm": 0.6356106996536255,
+      "learning_rate": 1.8582169709989259e-06,
+      "loss": 0.1502,
+      "mean_token_accuracy": 0.968175146728754,
+      "num_tokens": 40960000.0,
+      "step": 10000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0824928198656e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null