Training in progress, step 10500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21e9c11e02543045a52d1d10e85b29deee320e577ed8c40299be1aac88002bab
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:b85521102a01aa9ca0cac30f77dc681cafb77e29acfb0cfb308a2655c5df66d7
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c87bdbbf96a91780aaf4a58c008036f2bfda78e91f3d428d63005f735fe1e0c
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:540ea13aa0494c204cfb6c6b5f87988f9d4d15f8ed6f18e14b57f97e602a0555
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33e6b43d263edc3fb19dbc74c4a7ae9df523ccc7c2602c8a0c606ae6abf92007
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dd1ea77e8b79a8e0c06815d69eb9b02aa74cbe131a4af6f145c955f8944e41f
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8320883633660214,
   "eval_steps": 100,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9008,6 +9008,456 @@
       "mean_token_accuracy": 0.7658023487776517,
       "num_tokens": 81917952.0,
       "step": 10000
     }
   ],
   "logging_steps": 10,
@@ -9027,7 +9477,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1649315150902067e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9736963217332812,
   "eval_steps": 100,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7658023487776517,
       "num_tokens": 81917952.0,
       "step": 10000
+    },
+    {
+      "epoch": 2.8349205225333662,
+      "grad_norm": 2.1276166439056396,
+      "learning_rate": 6.126088324766601e-07,
+      "loss": 0.1176,
+      "mean_token_accuracy": 0.7733365941792727,
+      "num_tokens": 81999872.0,
+      "step": 10010
+    },
+    {
+      "epoch": 2.8377526817007115,
+      "grad_norm": 1.4682493209838867,
+      "learning_rate": 6.021189552082242e-07,
+      "loss": 0.1185,
+      "mean_token_accuracy": 0.7733732853084803,
+      "num_tokens": 82081792.0,
+      "step": 10020
+    },
+    {
+      "epoch": 2.8405848408680567,
+      "grad_norm": 1.2164413928985596,
+      "learning_rate": 5.916290779397881e-07,
+      "loss": 0.1097,
+      "mean_token_accuracy": 0.7680772997438907,
+      "num_tokens": 82163712.0,
+      "step": 10030
+    },
+    {
+      "epoch": 2.843417000035402,
+      "grad_norm": 1.2230916023254395,
+      "learning_rate": 5.811392006713522e-07,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.770596868917346,
+      "num_tokens": 82245632.0,
+      "step": 10040
+    },
+    {
+      "epoch": 2.8462491592027472,
+      "grad_norm": 1.3805590867996216,
+      "learning_rate": 5.706493234029163e-07,
+      "loss": 0.1109,
+      "mean_token_accuracy": 0.7664261229336262,
+      "num_tokens": 82327552.0,
+      "step": 10050
+    },
+    {
+      "epoch": 2.8490813183700925,
+      "grad_norm": 1.2335084676742554,
+      "learning_rate": 5.601594461344803e-07,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.7922333665192127,
+      "num_tokens": 82409472.0,
+      "step": 10060
+    },
+    {
+      "epoch": 2.8519134775374377,
+      "grad_norm": 1.4766696691513062,
+      "learning_rate": 5.496695688660443e-07,
+      "loss": 0.0949,
+      "mean_token_accuracy": 0.7757460854947567,
+      "num_tokens": 82491392.0,
+      "step": 10070
+    },
+    {
+      "epoch": 2.8547456367047825,
+      "grad_norm": 1.2470474243164062,
+      "learning_rate": 5.391796915976084e-07,
+      "loss": 0.112,
+      "mean_token_accuracy": 0.7856042079627514,
+      "num_tokens": 82573312.0,
+      "step": 10080
+    },
+    {
+      "epoch": 2.8575777958721282,
+      "grad_norm": 1.7810742855072021,
+      "learning_rate": 5.286898143291724e-07,
+      "loss": 0.121,
+      "mean_token_accuracy": 0.7693003930151463,
+      "num_tokens": 82655232.0,
+      "step": 10090
+    },
+    {
+      "epoch": 2.860409955039473,
+      "grad_norm": 1.3474197387695312,
+      "learning_rate": 5.181999370607364e-07,
+      "loss": 0.1182,
+      "mean_token_accuracy": 0.7601394318044186,
+      "num_tokens": 82737152.0,
+      "step": 10100
+    },
+    {
+      "epoch": 2.8632421142068183,
+      "grad_norm": 1.096218466758728,
+      "learning_rate": 5.077100597923005e-07,
+      "loss": 0.13,
+      "mean_token_accuracy": 0.7537181980907917,
+      "num_tokens": 82819072.0,
+      "step": 10110
+    },
+    {
+      "epoch": 2.8660742733741635,
+      "grad_norm": 1.064784049987793,
+      "learning_rate": 4.972201825238645e-07,
+      "loss": 0.1348,
+      "mean_token_accuracy": 0.7513820916414261,
+      "num_tokens": 82900992.0,
+      "step": 10120
+    },
+    {
+      "epoch": 2.868906432541509,
+      "grad_norm": 1.5605591535568237,
+      "learning_rate": 4.867303052554286e-07,
+      "loss": 0.141,
+      "mean_token_accuracy": 0.7740704540163279,
+      "num_tokens": 82982912.0,
+      "step": 10130
+    },
+    {
+      "epoch": 2.871738591708854,
+      "grad_norm": 1.420284390449524,
+      "learning_rate": 4.7624042798699264e-07,
+      "loss": 0.11,
+      "mean_token_accuracy": 0.7743272982537747,
+      "num_tokens": 83064832.0,
+      "step": 10140
+    },
+    {
+      "epoch": 2.8745707508761993,
+      "grad_norm": 1.2748111486434937,
+      "learning_rate": 4.657505507185566e-07,
+      "loss": 0.1273,
+      "mean_token_accuracy": 0.7646037183701992,
+      "num_tokens": 83146752.0,
+      "step": 10150
+    },
+    {
+      "epoch": 2.8774029100435445,
+      "grad_norm": 1.1738097667694092,
+      "learning_rate": 4.552606734501207e-07,
+      "loss": 0.1224,
+      "mean_token_accuracy": 0.7754525426775217,
+      "num_tokens": 83228672.0,
+      "step": 10160
+    },
+    {
+      "epoch": 2.88023506921089,
+      "grad_norm": 1.5003738403320312,
+      "learning_rate": 4.4477079618168476e-07,
+      "loss": 0.1128,
+      "mean_token_accuracy": 0.7775073368102312,
+      "num_tokens": 83310592.0,
+      "step": 10170
+    },
+    {
+      "epoch": 2.883067228378235,
+      "grad_norm": 1.2533864974975586,
+      "learning_rate": 4.3428091891324873e-07,
+      "loss": 0.1311,
+      "mean_token_accuracy": 0.7413649678230285,
+      "num_tokens": 83392512.0,
+      "step": 10180
+    },
+    {
+      "epoch": 2.88589938754558,
+      "grad_norm": 1.5065313577651978,
+      "learning_rate": 4.237910416448128e-07,
+      "loss": 0.1546,
+      "mean_token_accuracy": 0.77030332647264,
+      "num_tokens": 83474432.0,
+      "step": 10190
+    },
+    {
+      "epoch": 2.8887315467129255,
+      "grad_norm": 1.491937518119812,
+      "learning_rate": 4.133011643763768e-07,
+      "loss": 0.1268,
+      "mean_token_accuracy": 0.7824853226542473,
+      "num_tokens": 83556352.0,
+      "step": 10200
+    },
+    {
+      "epoch": 2.8915637058802703,
+      "grad_norm": 1.166266918182373,
+      "learning_rate": 4.0281128710794085e-07,
+      "loss": 0.1116,
+      "mean_token_accuracy": 0.782081701233983,
+      "num_tokens": 83638272.0,
+      "step": 10210
+    },
+    {
+      "epoch": 2.8943958650476156,
+      "grad_norm": 1.42288076877594,
+      "learning_rate": 3.923214098395049e-07,
+      "loss": 0.1282,
+      "mean_token_accuracy": 0.7608121354132891,
+      "num_tokens": 83720192.0,
+      "step": 10220
+    },
+    {
+      "epoch": 2.897228024214961,
+      "grad_norm": 1.6304948329925537,
+      "learning_rate": 3.818315325710689e-07,
+      "loss": 0.1231,
+      "mean_token_accuracy": 0.7633317038416862,
+      "num_tokens": 83802112.0,
+      "step": 10230
+    },
+    {
+      "epoch": 2.900060183382306,
+      "grad_norm": 1.4208807945251465,
+      "learning_rate": 3.7134165530263297e-07,
+      "loss": 0.0992,
+      "mean_token_accuracy": 0.7627568505704403,
+      "num_tokens": 83884032.0,
+      "step": 10240
+    },
+    {
+      "epoch": 2.9028923425496513,
+      "grad_norm": 1.291266679763794,
+      "learning_rate": 3.6085177803419705e-07,
+      "loss": 0.11,
+      "mean_token_accuracy": 0.7762964777648449,
+      "num_tokens": 83965952.0,
+      "step": 10250
+    },
+    {
+      "epoch": 2.9057245017169966,
+      "grad_norm": 1.5174055099487305,
+      "learning_rate": 3.5036190076576107e-07,
+      "loss": 0.1259,
+      "mean_token_accuracy": 0.7930772956460714,
+      "num_tokens": 84047872.0,
+      "step": 10260
+    },
+    {
+      "epoch": 2.908556660884342,
+      "grad_norm": 1.2579764127731323,
+      "learning_rate": 3.398720234973251e-07,
+      "loss": 0.1173,
+      "mean_token_accuracy": 0.7738992158323527,
+      "num_tokens": 84129792.0,
+      "step": 10270
+    },
+    {
+      "epoch": 2.9113888200516866,
+      "grad_norm": 1.7533577680587769,
+      "learning_rate": 3.2938214622888917e-07,
+      "loss": 0.1219,
+      "mean_token_accuracy": 0.7630137003958225,
+      "num_tokens": 84211712.0,
+      "step": 10280
+    },
+    {
+      "epoch": 2.9142209792190323,
+      "grad_norm": 1.3265914916992188,
+      "learning_rate": 3.188922689604532e-07,
+      "loss": 0.139,
+      "mean_token_accuracy": 0.7553082194179297,
+      "num_tokens": 84293632.0,
+      "step": 10290
+    },
+    {
+      "epoch": 2.917053138386377,
+      "grad_norm": 1.803127408027649,
+      "learning_rate": 3.084023916920172e-07,
+      "loss": 0.1207,
+      "mean_token_accuracy": 0.7525073390454053,
+      "num_tokens": 84375552.0,
+      "step": 10300
+    },
+    {
+      "epoch": 2.9198852975537224,
+      "grad_norm": 1.6787763833999634,
+      "learning_rate": 2.979125144235813e-07,
+      "loss": 0.1139,
+      "mean_token_accuracy": 0.7773361060768366,
+      "num_tokens": 84457472.0,
+      "step": 10310
+    },
+    {
+      "epoch": 2.9227174567210676,
+      "grad_norm": 1.486560344696045,
+      "learning_rate": 2.874226371551453e-07,
+      "loss": 0.1424,
+      "mean_token_accuracy": 0.739921722188592,
+      "num_tokens": 84539392.0,
+      "step": 10320
+    },
+    {
+      "epoch": 2.925549615888413,
+      "grad_norm": 1.3302429914474487,
+      "learning_rate": 2.7693275988670933e-07,
+      "loss": 0.0954,
+      "mean_token_accuracy": 0.7770058684051037,
+      "num_tokens": 84621312.0,
+      "step": 10330
+    },
+    {
+      "epoch": 2.928381775055758,
+      "grad_norm": 1.5905101299285889,
+      "learning_rate": 2.664428826182734e-07,
+      "loss": 0.1068,
+      "mean_token_accuracy": 0.7657045032829046,
+      "num_tokens": 84703232.0,
+      "step": 10340
+    },
+    {
+      "epoch": 2.9312139342231034,
+      "grad_norm": 1.2340965270996094,
+      "learning_rate": 2.559530053498374e-07,
+      "loss": 0.121,
+      "mean_token_accuracy": 0.7530577316880226,
+      "num_tokens": 84785152.0,
+      "step": 10350
+    },
+    {
+      "epoch": 2.9340460933904486,
+      "grad_norm": 1.4800512790679932,
+      "learning_rate": 2.454631280814015e-07,
+      "loss": 0.1025,
+      "mean_token_accuracy": 0.783512718975544,
+      "num_tokens": 84867072.0,
+      "step": 10360
+    },
+    {
+      "epoch": 2.936878252557794,
+      "grad_norm": 1.4509563446044922,
+      "learning_rate": 2.349732508129655e-07,
+      "loss": 0.1136,
+      "mean_token_accuracy": 0.7643346376717091,
+      "num_tokens": 84948992.0,
+      "step": 10370
+    },
+    {
+      "epoch": 2.939710411725139,
+      "grad_norm": 1.5300997495651245,
+      "learning_rate": 2.2448337354452955e-07,
+      "loss": 0.1394,
+      "mean_token_accuracy": 0.7647504940629005,
+      "num_tokens": 85030912.0,
+      "step": 10380
+    },
+    {
+      "epoch": 2.942542570892484,
+      "grad_norm": 1.0120151042938232,
+      "learning_rate": 2.139934962760936e-07,
+      "loss": 0.1119,
+      "mean_token_accuracy": 0.7749999992549419,
+      "num_tokens": 85112832.0,
+      "step": 10390
+    },
+    {
+      "epoch": 2.9453747300598296,
+      "grad_norm": 1.1445319652557373,
+      "learning_rate": 2.0350361900765764e-07,
+      "loss": 0.1343,
+      "mean_token_accuracy": 0.7669031299650669,
+      "num_tokens": 85194752.0,
+      "step": 10400
+    },
+    {
+      "epoch": 2.9482068892271744,
+      "grad_norm": 1.1299060583114624,
+      "learning_rate": 1.9301374173922166e-07,
+      "loss": 0.1373,
+      "mean_token_accuracy": 0.7592465754598379,
+      "num_tokens": 85276672.0,
+      "step": 10410
+    },
+    {
+      "epoch": 2.9510390483945197,
+      "grad_norm": 1.0287593603134155,
+      "learning_rate": 1.8252386447078569e-07,
+      "loss": 0.1243,
+      "mean_token_accuracy": 0.7871330726891757,
+      "num_tokens": 85358592.0,
+      "step": 10420
+    },
+    {
+      "epoch": 2.953871207561865,
+      "grad_norm": 1.2568093538284302,
+      "learning_rate": 1.7203398720234976e-07,
+      "loss": 0.0979,
+      "mean_token_accuracy": 0.77096379250288,
+      "num_tokens": 85440512.0,
+      "step": 10430
+    },
+    {
+      "epoch": 2.95670336672921,
+      "grad_norm": 2.05387020111084,
+      "learning_rate": 1.6154410993391378e-07,
+      "loss": 0.1146,
+      "mean_token_accuracy": 0.7754647746682167,
+      "num_tokens": 85522432.0,
+      "step": 10440
+    },
+    {
+      "epoch": 2.9595355258965554,
+      "grad_norm": 1.3246551752090454,
+      "learning_rate": 1.5105423266547783e-07,
+      "loss": 0.1108,
+      "mean_token_accuracy": 0.779549902677536,
+      "num_tokens": 85604352.0,
+      "step": 10450
+    },
+    {
+      "epoch": 2.9623676850639007,
+      "grad_norm": 1.5421769618988037,
+      "learning_rate": 1.4056435539704185e-07,
+      "loss": 0.1215,
+      "mean_token_accuracy": 0.7485934443771839,
+      "num_tokens": 85686272.0,
+      "step": 10460
+    },
+    {
+      "epoch": 2.965199844231246,
+      "grad_norm": 1.457680583000183,
+      "learning_rate": 1.300744781286059e-07,
+      "loss": 0.1266,
+      "mean_token_accuracy": 0.7566780854016543,
+      "num_tokens": 85768192.0,
+      "step": 10470
+    },
+    {
+      "epoch": 2.9680320033985907,
+      "grad_norm": 1.1517871618270874,
+      "learning_rate": 1.1958460086016993e-07,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.7584148690104484,
+      "num_tokens": 85850112.0,
+      "step": 10480
+    },
+    {
+      "epoch": 2.9708641625659364,
+      "grad_norm": 1.3935081958770752,
+      "learning_rate": 1.0909472359173399e-07,
+      "loss": 0.1103,
+      "mean_token_accuracy": 0.782497552037239,
+      "num_tokens": 85932032.0,
+      "step": 10490
+    },
+    {
+      "epoch": 2.9736963217332812,
+      "grad_norm": 1.209938883781433,
+      "learning_rate": 9.860484632329804e-08,
+      "loss": 0.1417,
+      "mean_token_accuracy": 0.7534368880093097,
+      "num_tokens": 86013952.0,
+      "step": 10500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.2731807970767667e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null