Training in progress, step 9500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20cf46c56d7f3485e1e04402e75314d9e24b57ac66adacab0e227b4e09b7b6ba
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ca7c4e3749f06ebc1778c062b3d70c4f488a26b411ddd7c3d301ae4023802d1
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8812294e6cc0d56351a244dc2b3183bad4f1c7754f092149fbe3c0af525abea9
 size 4768662910

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d45b61751a61e4b6f882922592537bf8e092f455741fa220a9008ab320f07ad
 size 4768662910

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e92ceb30375ee28452e703331052914ba0c2676dfeac9e08cb4ed5c07c26b7fd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81369904e00a468d2ec4beb1dd4e8f30c6191c2e29c4144f662ff07eadf5eab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8699434536755111,
   "eval_steps": 100,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8108,6 +8108,456 @@
       "mean_token_accuracy": 0.9694716207683086,
       "num_tokens": 36864000.0,
       "step": 9000
     }
   ],
   "logging_steps": 10,
@@ -8127,7 +8577,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.7424353787904e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9182736455463728,
   "eval_steps": 100,
+  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.9694716207683086,
       "num_tokens": 36864000.0,
       "step": 9000
+    },
+    {
+      "epoch": 0.8709100575129284,
+      "grad_norm": 0.7295970320701599,
+      "learning_rate": 7.175080558539206e-06,
+      "loss": 0.1497,
+      "mean_token_accuracy": 0.9693737745285034,
+      "num_tokens": 36904960.0,
+      "step": 9010
+    },
+    {
+      "epoch": 0.8718766613503456,
+      "grad_norm": 0.7322930097579956,
+      "learning_rate": 7.121374865735768e-06,
+      "loss": 0.144,
+      "mean_token_accuracy": 0.9701565556228161,
+      "num_tokens": 36945920.0,
+      "step": 9020
+    },
+    {
+      "epoch": 0.8728432651877628,
+      "grad_norm": 0.7817639112472534,
+      "learning_rate": 7.067669172932331e-06,
+      "loss": 0.1716,
+      "mean_token_accuracy": 0.9648238711059094,
+      "num_tokens": 36986880.0,
+      "step": 9030
+    },
+    {
+      "epoch": 0.87380986902518,
+      "grad_norm": 0.6489200592041016,
+      "learning_rate": 7.013963480128894e-06,
+      "loss": 0.1481,
+      "mean_token_accuracy": 0.9706457898020744,
+      "num_tokens": 37027840.0,
+      "step": 9040
+    },
+    {
+      "epoch": 0.8747764728625973,
+      "grad_norm": 0.8958516716957092,
+      "learning_rate": 6.960257787325457e-06,
+      "loss": 0.1468,
+      "mean_token_accuracy": 0.9693003885447979,
+      "num_tokens": 37068800.0,
+      "step": 9050
+    },
+    {
+      "epoch": 0.8757430767000145,
+      "grad_norm": 0.7400612235069275,
+      "learning_rate": 6.906552094522021e-06,
+      "loss": 0.1493,
+      "mean_token_accuracy": 0.9704745575785637,
+      "num_tokens": 37109760.0,
+      "step": 9060
+    },
+    {
+      "epoch": 0.8767096805374317,
+      "grad_norm": 0.6856247186660767,
+      "learning_rate": 6.852846401718582e-06,
+      "loss": 0.1293,
+      "mean_token_accuracy": 0.9728718161582947,
+      "num_tokens": 37150720.0,
+      "step": 9070
+    },
+    {
+      "epoch": 0.877676284374849,
+      "grad_norm": 0.7188942432403564,
+      "learning_rate": 6.799140708915146e-06,
+      "loss": 0.1254,
+      "mean_token_accuracy": 0.9737769059836865,
+      "num_tokens": 37191680.0,
+      "step": 9080
+    },
+    {
+      "epoch": 0.8786428882122662,
+      "grad_norm": 0.5900483727455139,
+      "learning_rate": 6.745435016111707e-06,
+      "loss": 0.1473,
+      "mean_token_accuracy": 0.9698874719440937,
+      "num_tokens": 37232640.0,
+      "step": 9090
+    },
+    {
+      "epoch": 0.8796094920496834,
+      "grad_norm": 0.7418830990791321,
+      "learning_rate": 6.691729323308271e-06,
+      "loss": 0.1365,
+      "mean_token_accuracy": 0.9710371784865857,
+      "num_tokens": 37273600.0,
+      "step": 9100
+    },
+    {
+      "epoch": 0.8805760958871006,
+      "grad_norm": 0.6702271699905396,
+      "learning_rate": 6.6380236305048335e-06,
+      "loss": 0.1411,
+      "mean_token_accuracy": 0.969960855692625,
+      "num_tokens": 37314560.0,
+      "step": 9110
+    },
+    {
+      "epoch": 0.8815426997245179,
+      "grad_norm": 0.8139868378639221,
+      "learning_rate": 6.584317937701397e-06,
+      "loss": 0.1456,
+      "mean_token_accuracy": 0.969985319674015,
+      "num_tokens": 37355520.0,
+      "step": 9120
+    },
+    {
+      "epoch": 0.8825093035619351,
+      "grad_norm": 0.6658422350883484,
+      "learning_rate": 6.53061224489796e-06,
+      "loss": 0.1475,
+      "mean_token_accuracy": 0.9693982362747192,
+      "num_tokens": 37396480.0,
+      "step": 9130
+    },
+    {
+      "epoch": 0.8834759073993523,
+      "grad_norm": 0.702655017375946,
+      "learning_rate": 6.476906552094522e-06,
+      "loss": 0.1379,
+      "mean_token_accuracy": 0.9712817974388599,
+      "num_tokens": 37437440.0,
+      "step": 9140
+    },
+    {
+      "epoch": 0.8844425112367696,
+      "grad_norm": 0.7942471504211426,
+      "learning_rate": 6.423200859291086e-06,
+      "loss": 0.1531,
+      "mean_token_accuracy": 0.9690068490803242,
+      "num_tokens": 37478400.0,
+      "step": 9150
+    },
+    {
+      "epoch": 0.8854091150741868,
+      "grad_norm": 0.7765222787857056,
+      "learning_rate": 6.369495166487647e-06,
+      "loss": 0.1528,
+      "mean_token_accuracy": 0.9692270055413246,
+      "num_tokens": 37519360.0,
+      "step": 9160
+    },
+    {
+      "epoch": 0.886375718911604,
+      "grad_norm": 0.5786271095275879,
+      "learning_rate": 6.315789473684211e-06,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.9717954978346824,
+      "num_tokens": 37560320.0,
+      "step": 9170
+    },
+    {
+      "epoch": 0.8873423227490214,
+      "grad_norm": 0.6450340151786804,
+      "learning_rate": 6.262083780880773e-06,
+      "loss": 0.1624,
+      "mean_token_accuracy": 0.9683219164609909,
+      "num_tokens": 37601280.0,
+      "step": 9180
+    },
+    {
+      "epoch": 0.8883089265864386,
+      "grad_norm": 0.6178423166275024,
+      "learning_rate": 6.2083780880773365e-06,
+      "loss": 0.1253,
+      "mean_token_accuracy": 0.973556748777628,
+      "num_tokens": 37642240.0,
+      "step": 9190
+    },
+    {
+      "epoch": 0.8892755304238558,
+      "grad_norm": 0.7988136410713196,
+      "learning_rate": 6.1546723952739e-06,
+      "loss": 0.1451,
+      "mean_token_accuracy": 0.969740703701973,
+      "num_tokens": 37683200.0,
+      "step": 9200
+    },
+    {
+      "epoch": 0.890242134261273,
+      "grad_norm": 0.6491620540618896,
+      "learning_rate": 6.100966702470462e-06,
+      "loss": 0.1374,
+      "mean_token_accuracy": 0.9728228926658631,
+      "num_tokens": 37724160.0,
+      "step": 9210
+    },
+    {
+      "epoch": 0.8912087380986903,
+      "grad_norm": 0.9206412434577942,
+      "learning_rate": 6.047261009667025e-06,
+      "loss": 0.1457,
+      "mean_token_accuracy": 0.9691780783236027,
+      "num_tokens": 37765120.0,
+      "step": 9220
+    },
+    {
+      "epoch": 0.8921753419361075,
+      "grad_norm": 0.672639787197113,
+      "learning_rate": 5.993555316863588e-06,
+      "loss": 0.1409,
+      "mean_token_accuracy": 0.9709882564842701,
+      "num_tokens": 37806080.0,
+      "step": 9230
+    },
+    {
+      "epoch": 0.8931419457735247,
+      "grad_norm": 0.626698911190033,
+      "learning_rate": 5.939849624060151e-06,
+      "loss": 0.1344,
+      "mean_token_accuracy": 0.9726027339696884,
+      "num_tokens": 37847040.0,
+      "step": 9240
+    },
+    {
+      "epoch": 0.894108549610942,
+      "grad_norm": 0.7072364091873169,
+      "learning_rate": 5.886143931256713e-06,
+      "loss": 0.1351,
+      "mean_token_accuracy": 0.9722113452851773,
+      "num_tokens": 37888000.0,
+      "step": 9250
+    },
+    {
+      "epoch": 0.8950751534483592,
+      "grad_norm": 0.6620608568191528,
+      "learning_rate": 5.832438238453276e-06,
+      "loss": 0.131,
+      "mean_token_accuracy": 0.9728228934109211,
+      "num_tokens": 37928960.0,
+      "step": 9260
+    },
+    {
+      "epoch": 0.8960417572857764,
+      "grad_norm": 0.649089515209198,
+      "learning_rate": 5.7787325456498395e-06,
+      "loss": 0.1534,
+      "mean_token_accuracy": 0.9675146721303463,
+      "num_tokens": 37969920.0,
+      "step": 9270
+    },
+    {
+      "epoch": 0.8970083611231937,
+      "grad_norm": 0.8602608442306519,
+      "learning_rate": 5.725026852846402e-06,
+      "loss": 0.1635,
+      "mean_token_accuracy": 0.9658512689173222,
+      "num_tokens": 38010880.0,
+      "step": 9280
+    },
+    {
+      "epoch": 0.8979749649606109,
+      "grad_norm": 0.6629733443260193,
+      "learning_rate": 5.671321160042965e-06,
+      "loss": 0.1449,
+      "mean_token_accuracy": 0.9702054776251317,
+      "num_tokens": 38051840.0,
+      "step": 9290
+    },
+    {
+      "epoch": 0.8989415687980281,
+      "grad_norm": 0.6702824831008911,
+      "learning_rate": 5.617615467239528e-06,
+      "loss": 0.1383,
+      "mean_token_accuracy": 0.9710861049592495,
+      "num_tokens": 38092800.0,
+      "step": 9300
+    },
+    {
+      "epoch": 0.8999081726354453,
+      "grad_norm": 0.633313000202179,
+      "learning_rate": 5.563909774436091e-06,
+      "loss": 0.1405,
+      "mean_token_accuracy": 0.9705724023282528,
+      "num_tokens": 38133760.0,
+      "step": 9310
+    },
+    {
+      "epoch": 0.9008747764728626,
+      "grad_norm": 0.701628565788269,
+      "learning_rate": 5.510204081632653e-06,
+      "loss": 0.1523,
+      "mean_token_accuracy": 0.9679794482886791,
+      "num_tokens": 38174720.0,
+      "step": 9320
+    },
+    {
+      "epoch": 0.9018413803102798,
+      "grad_norm": 0.6978937387466431,
+      "learning_rate": 5.456498388829216e-06,
+      "loss": 0.1476,
+      "mean_token_accuracy": 0.9705234795808793,
+      "num_tokens": 38215680.0,
+      "step": 9330
+    },
+    {
+      "epoch": 0.902807984147697,
+      "grad_norm": 0.6952319741249084,
+      "learning_rate": 5.4027926960257785e-06,
+      "loss": 0.1294,
+      "mean_token_accuracy": 0.9723825819790364,
+      "num_tokens": 38256640.0,
+      "step": 9340
+    },
+    {
+      "epoch": 0.9037745879851143,
+      "grad_norm": 0.7691527605056763,
+      "learning_rate": 5.349087003222342e-06,
+      "loss": 0.1352,
+      "mean_token_accuracy": 0.9732876695692539,
+      "num_tokens": 38297600.0,
+      "step": 9350
+    },
+    {
+      "epoch": 0.9047411918225315,
+      "grad_norm": 0.8168832659721375,
+      "learning_rate": 5.295381310418905e-06,
+      "loss": 0.1408,
+      "mean_token_accuracy": 0.9707191728055478,
+      "num_tokens": 38338560.0,
+      "step": 9360
+    },
+    {
+      "epoch": 0.9057077956599487,
+      "grad_norm": 0.7141739130020142,
+      "learning_rate": 5.241675617615467e-06,
+      "loss": 0.1324,
+      "mean_token_accuracy": 0.9724315024912358,
+      "num_tokens": 38379520.0,
+      "step": 9370
+    },
+    {
+      "epoch": 0.9066743994973661,
+      "grad_norm": 0.7228880524635315,
+      "learning_rate": 5.187969924812031e-06,
+      "loss": 0.1449,
+      "mean_token_accuracy": 0.9706213280558587,
+      "num_tokens": 38420480.0,
+      "step": 9380
+    },
+    {
+      "epoch": 0.9076410033347833,
+      "grad_norm": 0.6438316702842712,
+      "learning_rate": 5.134264232008593e-06,
+      "loss": 0.1572,
+      "mean_token_accuracy": 0.9682240657508373,
+      "num_tokens": 38461440.0,
+      "step": 9390
+    },
+    {
+      "epoch": 0.9086076071722005,
+      "grad_norm": 0.608272910118103,
+      "learning_rate": 5.080558539205156e-06,
+      "loss": 0.1341,
+      "mean_token_accuracy": 0.9718688815832138,
+      "num_tokens": 38502400.0,
+      "step": 9400
+    },
+    {
+      "epoch": 0.9095742110096177,
+      "grad_norm": 0.5616933107376099,
+      "learning_rate": 5.0268528464017184e-06,
+      "loss": 0.1406,
+      "mean_token_accuracy": 0.9704990208148956,
+      "num_tokens": 38543360.0,
+      "step": 9410
+    },
+    {
+      "epoch": 0.910540814847035,
+      "grad_norm": 0.758497416973114,
+      "learning_rate": 4.9731471535982815e-06,
+      "loss": 0.1427,
+      "mean_token_accuracy": 0.9709637947380543,
+      "num_tokens": 38584320.0,
+      "step": 9420
+    },
+    {
+      "epoch": 0.9115074186844522,
+      "grad_norm": 0.6793957948684692,
+      "learning_rate": 4.919441460794845e-06,
+      "loss": 0.1438,
+      "mean_token_accuracy": 0.9701320923864841,
+      "num_tokens": 38625280.0,
+      "step": 9430
+    },
+    {
+      "epoch": 0.9124740225218694,
+      "grad_norm": 0.7057655453681946,
+      "learning_rate": 4.865735767991407e-06,
+      "loss": 0.1398,
+      "mean_token_accuracy": 0.9713307209312916,
+      "num_tokens": 38666240.0,
+      "step": 9440
+    },
+    {
+      "epoch": 0.9134406263592867,
+      "grad_norm": 0.7207940220832825,
+      "learning_rate": 4.812030075187971e-06,
+      "loss": 0.1577,
+      "mean_token_accuracy": 0.9684442207217216,
+      "num_tokens": 38707200.0,
+      "step": 9450
+    },
+    {
+      "epoch": 0.9144072301967039,
+      "grad_norm": 0.625789999961853,
+      "learning_rate": 4.758324382384533e-06,
+      "loss": 0.1324,
+      "mean_token_accuracy": 0.9726516611874103,
+      "num_tokens": 38748160.0,
+      "step": 9460
+    },
+    {
+      "epoch": 0.9153738340341211,
+      "grad_norm": 0.7996525764465332,
+      "learning_rate": 4.704618689581096e-06,
+      "loss": 0.1499,
+      "mean_token_accuracy": 0.9679549895226955,
+      "num_tokens": 38789120.0,
+      "step": 9470
+    },
+    {
+      "epoch": 0.9163404378715384,
+      "grad_norm": 0.6713771820068359,
+      "learning_rate": 4.650912996777658e-06,
+      "loss": 0.152,
+      "mean_token_accuracy": 0.9697651579976082,
+      "num_tokens": 38830080.0,
+      "step": 9480
+    },
+    {
+      "epoch": 0.9173070417089556,
+      "grad_norm": 0.9124431014060974,
+      "learning_rate": 4.5972073039742214e-06,
+      "loss": 0.133,
+      "mean_token_accuracy": 0.9723336569964885,
+      "num_tokens": 38871040.0,
+      "step": 9490
+    },
+    {
+      "epoch": 0.9182736455463728,
+      "grad_norm": 0.6981998085975647,
+      "learning_rate": 4.5435016111707845e-06,
+      "loss": 0.1483,
+      "mean_token_accuracy": 0.9684931464493275,
+      "num_tokens": 38912000.0,
+      "step": 9500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.02836817887232e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null