Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53cd5e9c47598630429a0f3802a2cdb8986ab1df4396085d2e9cb28ab20196d2
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:782e8ac1da50805a0148b309fba266f389439b051c131233056ebbdcad3f58ee
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8acd0aae640672ec13140a99f0376026f7718d96d3224b6a8c7639108b56103
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:c664d5bbe4243e2d8db79e79e6b2516a49619d23a025b2135048a5763a753ef7
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a217269145a96df9b63b449d5f2df3bd2a63aa118b7645f02b3a7f2873da81a5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:83e59f17c2c0681a7d8c091fe9bc022de98a5c7804170d371d6b77c623b084c5
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9658224735677403,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -908,6 +908,456 @@
       "mean_token_accuracy": 0.935359588265419,
       "num_tokens": 8186880.0,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -927,7 +1377,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.163632523706368e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9481190066388,
   "eval_steps": 100,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.935359588265419,
       "num_tokens": 8186880.0,
       "step": 1000
+    },
+    {
+      "epoch": 1.985492992377674,
+      "grad_norm": 0.6394369602203369,
+      "learning_rate": 3.770014556040757e-06,
+      "loss": 0.0759,
+      "mean_token_accuracy": 0.9349559672176838,
+      "num_tokens": 8268800.0,
+      "step": 1010
+    },
+    {
+      "epoch": 2.0039341037619867,
+      "grad_norm": 0.7817333340644836,
+      "learning_rate": 3.6972343522561864e-06,
+      "loss": 0.0759,
+      "mean_token_accuracy": 0.935172860622406,
+      "num_tokens": 8345600.0,
+      "step": 1020
+    },
+    {
+      "epoch": 2.0236046225719204,
+      "grad_norm": 0.8923552632331848,
+      "learning_rate": 3.624454148471616e-06,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.937181992828846,
+      "num_tokens": 8427520.0,
+      "step": 1030
+    },
+    {
+      "epoch": 2.0432751413818537,
+      "grad_norm": 0.7769061326980591,
+      "learning_rate": 3.551673944687045e-06,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9345278829336167,
+      "num_tokens": 8509440.0,
+      "step": 1040
+    },
+    {
+      "epoch": 2.0629456601917875,
+      "grad_norm": 0.6698974967002869,
+      "learning_rate": 3.4788937409024746e-06,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9358243614435195,
+      "num_tokens": 8591360.0,
+      "step": 1050
+    },
+    {
+      "epoch": 2.0826161790017212,
+      "grad_norm": 0.8802694082260132,
+      "learning_rate": 3.406113537117904e-06,
+      "loss": 0.0687,
+      "mean_token_accuracy": 0.9373654581606388,
+      "num_tokens": 8673280.0,
+      "step": 1060
+    },
+    {
+      "epoch": 2.102286697811655,
+      "grad_norm": 1.0914084911346436,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0727,
+      "mean_token_accuracy": 0.9355552814900875,
+      "num_tokens": 8755200.0,
+      "step": 1070
+    },
+    {
+      "epoch": 2.1219572166215883,
+      "grad_norm": 0.9575169086456299,
+      "learning_rate": 3.260553129548763e-06,
+      "loss": 0.0693,
+      "mean_token_accuracy": 0.9379770055413246,
+      "num_tokens": 8837120.0,
+      "step": 1080
+    },
+    {
+      "epoch": 2.141627735431522,
+      "grad_norm": 0.7972959876060486,
+      "learning_rate": 3.1877729257641924e-06,
+      "loss": 0.067,
+      "mean_token_accuracy": 0.9371819935739041,
+      "num_tokens": 8919040.0,
+      "step": 1090
+    },
+    {
+      "epoch": 2.161298254241456,
+      "grad_norm": 0.9708478450775146,
+      "learning_rate": 3.1149927219796215e-06,
+      "loss": 0.0728,
+      "mean_token_accuracy": 0.9354329705238342,
+      "num_tokens": 9000960.0,
+      "step": 1100
+    },
+    {
+      "epoch": 2.180968773051389,
+      "grad_norm": 1.0096272230148315,
+      "learning_rate": 3.042212518195051e-06,
+      "loss": 0.0717,
+      "mean_token_accuracy": 0.9340875700116158,
+      "num_tokens": 9082880.0,
+      "step": 1110
+    },
+    {
+      "epoch": 2.200639291861323,
+      "grad_norm": 0.9769055247306824,
+      "learning_rate": 2.9694323144104806e-06,
+      "loss": 0.0729,
+      "mean_token_accuracy": 0.9370596796274185,
+      "num_tokens": 9164800.0,
+      "step": 1120
+    },
+    {
+      "epoch": 2.2203098106712567,
+      "grad_norm": 0.8182367086410522,
+      "learning_rate": 2.8966521106259098e-06,
+      "loss": 0.0714,
+      "mean_token_accuracy": 0.936338060349226,
+      "num_tokens": 9246720.0,
+      "step": 1130
+    },
+    {
+      "epoch": 2.23998032948119,
+      "grad_norm": 0.9285300374031067,
+      "learning_rate": 2.8238719068413393e-06,
+      "loss": 0.0717,
+      "mean_token_accuracy": 0.9357020534574986,
+      "num_tokens": 9328640.0,
+      "step": 1140
+    },
+    {
+      "epoch": 2.2596508482911237,
+      "grad_norm": 0.9658852219581604,
+      "learning_rate": 2.7510917030567684e-06,
+      "loss": 0.0722,
+      "mean_token_accuracy": 0.9356164373457432,
+      "num_tokens": 9410560.0,
+      "step": 1150
+    },
+    {
+      "epoch": 2.2793213671010575,
+      "grad_norm": 0.8002274632453918,
+      "learning_rate": 2.678311499272198e-06,
+      "loss": 0.0688,
+      "mean_token_accuracy": 0.9368272982537746,
+      "num_tokens": 9492480.0,
+      "step": 1160
+    },
+    {
+      "epoch": 2.298991885910991,
+      "grad_norm": 0.7488352060317993,
+      "learning_rate": 2.6055312954876275e-06,
+      "loss": 0.0696,
+      "mean_token_accuracy": 0.9345523476600647,
+      "num_tokens": 9574400.0,
+      "step": 1170
+    },
+    {
+      "epoch": 2.3186624047209246,
+      "grad_norm": 0.7775608897209167,
+      "learning_rate": 2.5327510917030567e-06,
+      "loss": 0.0701,
+      "mean_token_accuracy": 0.9374877654016018,
+      "num_tokens": 9656320.0,
+      "step": 1180
+    },
+    {
+      "epoch": 2.3383329235308583,
+      "grad_norm": 0.720152735710144,
+      "learning_rate": 2.4599708879184862e-06,
+      "loss": 0.0686,
+      "mean_token_accuracy": 0.9362769082188607,
+      "num_tokens": 9738240.0,
+      "step": 1190
+    },
+    {
+      "epoch": 2.3580034423407916,
+      "grad_norm": 0.8474797010421753,
+      "learning_rate": 2.3871906841339158e-06,
+      "loss": 0.0692,
+      "mean_token_accuracy": 0.9355308227241039,
+      "num_tokens": 9820160.0,
+      "step": 1200
+    },
+    {
+      "epoch": 2.3776739611507254,
+      "grad_norm": 0.9920778870582581,
+      "learning_rate": 2.3144104803493453e-06,
+      "loss": 0.0753,
+      "mean_token_accuracy": 0.9328767113387585,
+      "num_tokens": 9902080.0,
+      "step": 1210
+    },
+    {
+      "epoch": 2.397344479960659,
+      "grad_norm": 0.8659960627555847,
+      "learning_rate": 2.2416302765647744e-06,
+      "loss": 0.0699,
+      "mean_token_accuracy": 0.9354452028870582,
+      "num_tokens": 9984000.0,
+      "step": 1220
+    },
+    {
+      "epoch": 2.4170149987705924,
+      "grad_norm": 1.2485941648483276,
+      "learning_rate": 2.168850072780204e-06,
+      "loss": 0.0716,
+      "mean_token_accuracy": 0.9364236779510975,
+      "num_tokens": 10065920.0,
+      "step": 1230
+    },
+    {
+      "epoch": 2.436685517580526,
+      "grad_norm": 1.018085241317749,
+      "learning_rate": 2.096069868995633e-06,
+      "loss": 0.0694,
+      "mean_token_accuracy": 0.9354696646332741,
+      "num_tokens": 10147840.0,
+      "step": 1240
+    },
+    {
+      "epoch": 2.45635603639046,
+      "grad_norm": 0.7919542789459229,
+      "learning_rate": 2.0232896652110627e-06,
+      "loss": 0.0702,
+      "mean_token_accuracy": 0.9352005854249,
+      "num_tokens": 10229760.0,
+      "step": 1250
+    },
+    {
+      "epoch": 2.4760265552003933,
+      "grad_norm": 0.7705115079879761,
+      "learning_rate": 1.9505094614264922e-06,
+      "loss": 0.0713,
+      "mean_token_accuracy": 0.93606898188591,
+      "num_tokens": 10311680.0,
+      "step": 1260
+    },
+    {
+      "epoch": 2.495697074010327,
+      "grad_norm": 1.0156041383743286,
+      "learning_rate": 1.8777292576419216e-06,
+      "loss": 0.0692,
+      "mean_token_accuracy": 0.9370963759720325,
+      "num_tokens": 10393600.0,
+      "step": 1270
+    },
+    {
+      "epoch": 2.515367592820261,
+      "grad_norm": 0.8900818228721619,
+      "learning_rate": 1.8049490538573511e-06,
+      "loss": 0.0719,
+      "mean_token_accuracy": 0.9380381591618061,
+      "num_tokens": 10475520.0,
+      "step": 1280
+    },
+    {
+      "epoch": 2.535038111630194,
+      "grad_norm": 0.8240485191345215,
+      "learning_rate": 1.7321688500727804e-06,
+      "loss": 0.0691,
+      "mean_token_accuracy": 0.9369985312223434,
+      "num_tokens": 10557440.0,
+      "step": 1290
+    },
+    {
+      "epoch": 2.554708630440128,
+      "grad_norm": 1.0211061239242554,
+      "learning_rate": 1.6593886462882098e-06,
+      "loss": 0.0713,
+      "mean_token_accuracy": 0.9360078267753125,
+      "num_tokens": 10639360.0,
+      "step": 1300
+    },
+    {
+      "epoch": 2.5743791492500616,
+      "grad_norm": 0.8435456156730652,
+      "learning_rate": 1.5866084425036391e-06,
+      "loss": 0.0685,
+      "mean_token_accuracy": 0.9358488261699677,
+      "num_tokens": 10721280.0,
+      "step": 1310
+    },
+    {
+      "epoch": 2.594049668059995,
+      "grad_norm": 0.7593806982040405,
+      "learning_rate": 1.5138282387190687e-06,
+      "loss": 0.0692,
+      "mean_token_accuracy": 0.9353962808847427,
+      "num_tokens": 10803200.0,
+      "step": 1320
+    },
+    {
+      "epoch": 2.6137201868699287,
+      "grad_norm": 0.8326400518417358,
+      "learning_rate": 1.441048034934498e-06,
+      "loss": 0.0722,
+      "mean_token_accuracy": 0.9346868857741356,
+      "num_tokens": 10885120.0,
+      "step": 1330
+    },
+    {
+      "epoch": 2.6333907056798624,
+      "grad_norm": 0.8349006772041321,
+      "learning_rate": 1.3682678311499273e-06,
+      "loss": 0.0684,
+      "mean_token_accuracy": 0.9371330693364144,
+      "num_tokens": 10967040.0,
+      "step": 1340
+    },
+    {
+      "epoch": 2.6530612244897958,
+      "grad_norm": 0.8567010760307312,
+      "learning_rate": 1.2954876273653567e-06,
+      "loss": 0.0707,
+      "mean_token_accuracy": 0.9372064515948295,
+      "num_tokens": 11048960.0,
+      "step": 1350
+    },
+    {
+      "epoch": 2.6727317432997295,
+      "grad_norm": 1.053802728652954,
+      "learning_rate": 1.222707423580786e-06,
+      "loss": 0.0717,
+      "mean_token_accuracy": 0.9355430543422699,
+      "num_tokens": 11130880.0,
+      "step": 1360
+    },
+    {
+      "epoch": 2.6924022621096633,
+      "grad_norm": 1.380603313446045,
+      "learning_rate": 1.1499272197962156e-06,
+      "loss": 0.0673,
+      "mean_token_accuracy": 0.9371942266821861,
+      "num_tokens": 11212800.0,
+      "step": 1370
+    },
+    {
+      "epoch": 2.7120727809195966,
+      "grad_norm": 1.00258207321167,
+      "learning_rate": 1.077147016011645e-06,
+      "loss": 0.0698,
+      "mean_token_accuracy": 0.9354329757392407,
+      "num_tokens": 11294720.0,
+      "step": 1380
+    },
+    {
+      "epoch": 2.7317432997295303,
+      "grad_norm": 0.6895238757133484,
+      "learning_rate": 1.0043668122270742e-06,
+      "loss": 0.0696,
+      "mean_token_accuracy": 0.9364481404423713,
+      "num_tokens": 11376640.0,
+      "step": 1390
+    },
+    {
+      "epoch": 2.751413818539464,
+      "grad_norm": 0.7581794857978821,
+      "learning_rate": 9.315866084425038e-07,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9343321897089482,
+      "num_tokens": 11458560.0,
+      "step": 1400
+    },
+    {
+      "epoch": 2.7710843373493974,
+      "grad_norm": 0.8926005959510803,
+      "learning_rate": 8.58806404657933e-07,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9362157486379147,
+      "num_tokens": 11540480.0,
+      "step": 1410
+    },
+    {
+      "epoch": 2.790754856159331,
+      "grad_norm": 1.136520504951477,
+      "learning_rate": 7.860262008733626e-07,
+      "loss": 0.07,
+      "mean_token_accuracy": 0.936668298393488,
+      "num_tokens": 11622400.0,
+      "step": 1420
+    },
+    {
+      "epoch": 2.810425374969265,
+      "grad_norm": 0.910785436630249,
+      "learning_rate": 7.132459970887918e-07,
+      "loss": 0.0669,
+      "mean_token_accuracy": 0.9368028342723846,
+      "num_tokens": 11704320.0,
+      "step": 1430
+    },
+    {
+      "epoch": 2.8300958937791982,
+      "grad_norm": 1.0571502447128296,
+      "learning_rate": 6.404657933042214e-07,
+      "loss": 0.072,
+      "mean_token_accuracy": 0.9329623252153396,
+      "num_tokens": 11786240.0,
+      "step": 1440
+    },
+    {
+      "epoch": 2.849766412589132,
+      "grad_norm": 0.9572676420211792,
+      "learning_rate": 5.676855895196507e-07,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9353106647729874,
+      "num_tokens": 11868160.0,
+      "step": 1450
+    },
+    {
+      "epoch": 2.8694369313990657,
+      "grad_norm": 1.240408182144165,
+      "learning_rate": 4.949053857350801e-07,
+      "loss": 0.0712,
+      "mean_token_accuracy": 0.9353962816298008,
+      "num_tokens": 11950080.0,
+      "step": 1460
+    },
+    {
+      "epoch": 2.889107450208999,
+      "grad_norm": 1.247115135192871,
+      "learning_rate": 4.221251819505095e-07,
+      "loss": 0.0706,
+      "mean_token_accuracy": 0.9364236749708652,
+      "num_tokens": 12032000.0,
+      "step": 1470
+    },
+    {
+      "epoch": 2.908777969018933,
+      "grad_norm": 0.9491878747940063,
+      "learning_rate": 3.4934497816593887e-07,
+      "loss": 0.0686,
+      "mean_token_accuracy": 0.9364603698253632,
+      "num_tokens": 12113920.0,
+      "step": 1480
+    },
+    {
+      "epoch": 2.9284484878288666,
+      "grad_norm": 0.7979325652122498,
+      "learning_rate": 2.765647743813683e-07,
+      "loss": 0.0695,
+      "mean_token_accuracy": 0.9378180019557476,
+      "num_tokens": 12195840.0,
+      "step": 1490
+    },
+    {
+      "epoch": 2.9481190066388,
+      "grad_norm": 0.8599417209625244,
+      "learning_rate": 2.0378457059679768e-07,
+      "loss": 0.0727,
+      "mean_token_accuracy": 0.9342954941093922,
+      "num_tokens": 12277760.0,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.244772227547136e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null