Training in progress, step 437, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1390 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87bde366c0f938aea480d242a5bf224a510317d08084ffe62b29e957b4227097
 size 304998596

 version https://git-lfs.github.com/spec/v1
+oid sha256:94dab5bfb47f564438af988f3574bb0f0e9507107f7995229ba7c0b407533a9b
 size 304998596

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cb654e8cf1c7b1a57dd79203448d54af6b7d23e7e587c7359076401b158e0ad
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:05483b02c0f77daae352ffb8f45d8d17bcaf90caa568067a2ed2383fb7d92545
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4304b040f49f93c2e70f46ade1d722bd4cc715b8c97554e8cd73483bd320b151
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:43cdf166fd391100ddd836aff220772a70fdca8f5f3ab782a162cdf93eef1cc4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5462857142857143,
   "eval_steps": 500,
-  "global_step": 239,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1680,6 +1680,1392 @@
       "learning_rate": 6.357763004631104e-05,
       "loss": 0.0,
       "step": 239
     }
   ],
   "logging_steps": 1,
@@ -1694,12 +3080,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3113320216264704.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9988571428571429,
   "eval_steps": 500,
+  "global_step": 437,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.357763004631104e-05,
       "loss": 0.0,
       "step": 239
+    },
+    {
+      "epoch": 0.5485714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 6.31284497017055e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.5508571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 6.26781284501043e-05,
+      "loss": 0.0,
+      "step": 241
+    },
+    {
+      "epoch": 0.5531428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 6.2226705425958e-05,
+      "loss": 0.0,
+      "step": 242
+    },
+    {
+      "epoch": 0.5554285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 6.177421985946499e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.5577142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 6.13207110731622e-05,
+      "loss": 0.0,
+      "step": 244
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": NaN,
+      "learning_rate": 6.086621847850788e-05,
+      "loss": 0.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.5622857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 6.0410781572456486e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.5645714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 5.995443993402647e-05,
+      "loss": 0.0,
+      "step": 247
+    },
+    {
+      "epoch": 0.5668571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 5.949723322086053e-05,
+      "loss": 0.0,
+      "step": 248
+    },
+    {
+      "epoch": 0.5691428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 5.9039201165779315e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 5.85803835733285e-05,
+      "loss": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.5737142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 5.812082031631966e-05,
+      "loss": 0.0,
+      "step": 251
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": NaN,
+      "learning_rate": 5.766055133236513e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.5782857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 5.719961662040733e-05,
+      "loss": 0.0,
+      "step": 253
+    },
+    {
+      "epoch": 0.5805714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 5.673805623724272e-05,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 0.5828571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 5.627591029404071e-05,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.5851428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 5.581321895285787e-05,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 0.5874285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 5.535002242314772e-05,
+      "loss": 0.0,
+      "step": 257
+    },
+    {
+      "epoch": 0.5897142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 5.488636095826636e-05,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": NaN,
+      "learning_rate": 5.442227485197435e-05,
+      "loss": 0.0,
+      "step": 259
+    },
+    {
+      "epoch": 0.5942857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 5.395780443493508e-05,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.5965714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 5.3492990071209806e-05,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 0.5988571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 5.3027872154749915e-05,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 0.6011428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 5.256249110588659e-05,
+      "loss": 0.0,
+      "step": 263
+    },
+    {
+      "epoch": 0.6034285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 5.2096887367818105e-05,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 0.6057142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 5.1631101403095184e-05,
+      "loss": 0.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": NaN,
+      "learning_rate": 5.116517369010466e-05,
+      "loss": 0.0,
+      "step": 266
+    },
+    {
+      "epoch": 0.6102857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 5.069914471955178e-05,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 0.6125714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 5.023305499094144e-05,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 0.6148571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 4.976694500905857e-05,
+      "loss": 0.0,
+      "step": 269
+    },
+    {
+      "epoch": 0.6171428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 4.930085528044823e-05,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.6194285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 4.883482630989535e-05,
+      "loss": 0.0,
+      "step": 271
+    },
+    {
+      "epoch": 0.6217142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 4.8368898596904834e-05,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": NaN,
+      "learning_rate": 4.790311263218191e-05,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 0.6262857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 4.743750889411342e-05,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 0.6285714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 4.697212784525008e-05,
+      "loss": 0.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.6308571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 4.65070099287902e-05,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.6331428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 4.604219556506492e-05,
+      "loss": 0.0,
+      "step": 277
+    },
+    {
+      "epoch": 0.6354285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 4.5577725148025646e-05,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 0.6377142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 4.511363904173366e-05,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": NaN,
+      "learning_rate": 4.46499775768523e-05,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.6422857142857142,
+      "grad_norm": NaN,
+      "learning_rate": 4.418678104714214e-05,
+      "loss": 0.0,
+      "step": 281
+    },
+    {
+      "epoch": 0.6445714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 4.3724089705959305e-05,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.6468571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 4.3261943762757287e-05,
+      "loss": 0.0,
+      "step": 283
+    },
+    {
+      "epoch": 0.6491428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 4.280038337959268e-05,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 0.6514285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 4.233944866763489e-05,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.6537142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 4.187917968368036e-05,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": NaN,
+      "learning_rate": 4.141961642667152e-05,
+      "loss": 0.0,
+      "step": 287
+    },
+    {
+      "epoch": 0.6582857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 4.0960798834220704e-05,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.6605714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 4.0502766779139484e-05,
+      "loss": 0.0,
+      "step": 289
+    },
+    {
+      "epoch": 0.6628571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 4.004556006597353e-05,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.6651428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 3.958921842754351e-05,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 0.6674285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 3.913378152149214e-05,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 0.6697142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 3.8679288926837804e-05,
+      "loss": 0.0,
+      "step": 293
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": NaN,
+      "learning_rate": 3.8225780140535025e-05,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.6742857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 3.777329457404202e-05,
+      "loss": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.6765714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 3.7321871549895714e-05,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 0.6788571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 3.68715502982945e-05,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 0.6811428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 3.642236995368897e-05,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 0.6834285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 3.597436955138102e-05,
+      "loss": 0.0,
+      "step": 299
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 3.5527588024131544e-05,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": NaN,
+      "learning_rate": 3.5082064198777e-05,
+      "loss": 0.0,
+      "step": 301
+    },
+    {
+      "epoch": 0.6902857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 3.463783679285535e-05,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 0.6925714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 3.419494441124121e-05,
+      "loss": 0.0,
+      "step": 303
+    },
+    {
+      "epoch": 0.6948571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 3.375342554279111e-05,
+      "loss": 0.0,
+      "step": 304
+    },
+    {
+      "epoch": 0.6971428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 3.3313318556998526e-05,
+      "loss": 0.0,
+      "step": 305
+    },
+    {
+      "epoch": 0.6994285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 3.287466170065959e-05,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 0.7017142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 3.243749309454922e-05,
+      "loss": 0.0,
+      "step": 307
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": NaN,
+      "learning_rate": 3.200185073010831e-05,
+      "loss": 0.0,
+      "step": 308
+    },
+    {
+      "epoch": 0.7062857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 3.1567772466142156e-05,
+      "loss": 0.0,
+      "step": 309
+    },
+    {
+      "epoch": 0.7085714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 3.113529602553042e-05,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.7108571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 3.070445899194885e-05,
+      "loss": 0.0,
+      "step": 311
+    },
+    {
+      "epoch": 0.7131428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 3.02752988066031e-05,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 0.7154285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 2.984785276497507e-05,
+      "loss": 0.0,
+      "step": 313
+    },
+    {
+      "epoch": 0.7177142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 2.9422158013581658e-05,
+      "loss": 0.0,
+      "step": 314
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": NaN,
+      "learning_rate": 2.899825154674674e-05,
+      "loss": 0.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.7222857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 2.8576170203386143e-05,
+      "loss": 0.0,
+      "step": 316
+    },
+    {
+      "epoch": 0.7245714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 2.8155950663806235e-05,
+      "loss": 0.0,
+      "step": 317
+    },
+    {
+      "epoch": 0.7268571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 2.773762944651632e-05,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 0.7291428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 2.7321242905055013e-05,
+      "loss": 0.0,
+      "step": 319
+    },
+    {
+      "epoch": 0.7314285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 2.690682722483102e-05,
+      "loss": 0.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.7337142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 2.6494418419978482e-05,
+      "loss": 0.0,
+      "step": 321
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": NaN,
+      "learning_rate": 2.6084052330227238e-05,
+      "loss": 0.0,
+      "step": 322
+    },
+    {
+      "epoch": 0.7382857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 2.5675764617788234e-05,
+      "loss": 0.0,
+      "step": 323
+    },
+    {
+      "epoch": 0.7405714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 2.526959076425434e-05,
+      "loss": 0.0,
+      "step": 324
+    },
+    {
+      "epoch": 0.7428571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 2.4865566067516893e-05,
+      "loss": 0.0,
+      "step": 325
+    },
+    {
+      "epoch": 0.7451428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 2.4463725638698183e-05,
+      "loss": 0.0,
+      "step": 326
+    },
+    {
+      "epoch": 0.7474285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 2.406410439910017e-05,
+      "loss": 0.0,
+      "step": 327
+    },
+    {
+      "epoch": 0.7497142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 2.3666737077169726e-05,
+      "loss": 0.0,
+      "step": 328
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": NaN,
+      "learning_rate": 2.327165820548059e-05,
+      "loss": 0.0,
+      "step": 329
+    },
+    {
+      "epoch": 0.7542857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 2.287890211773238e-05,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.7565714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 2.2488502945766894e-05,
+      "loss": 0.0,
+      "step": 331
+    },
+    {
+      "epoch": 0.7588571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 2.2100494616601893e-05,
+      "loss": 0.0,
+      "step": 332
+    },
+    {
+      "epoch": 0.7611428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 2.171491084948278e-05,
+      "loss": 0.0,
+      "step": 333
+    },
+    {
+      "epoch": 0.7634285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 2.1331785152952243e-05,
+      "loss": 0.0,
+      "step": 334
+    },
+    {
+      "epoch": 0.7657142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 2.0951150821938275e-05,
+      "loss": 0.0,
+      "step": 335
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": NaN,
+      "learning_rate": 2.0573040934860717e-05,
+      "loss": 0.0,
+      "step": 336
+    },
+    {
+      "epoch": 0.7702857142857142,
+      "grad_norm": NaN,
+      "learning_rate": 2.0197488350756616e-05,
+      "loss": 0.0,
+      "step": 337
+    },
+    {
+      "epoch": 0.7725714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.98245257064247e-05,
+      "loss": 0.0,
+      "step": 338
+    },
+    {
+      "epoch": 0.7748571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 1.945418541358911e-05,
+      "loss": 0.0,
+      "step": 339
+    },
+    {
+      "epoch": 0.7771428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 1.9086499656082686e-05,
+      "loss": 0.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.7794285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 1.872150038705015e-05,
+      "loss": 0.0,
+      "step": 341
+    },
+    {
+      "epoch": 0.7817142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 1.835921932617119e-05,
+      "loss": 0.0,
+      "step": 342
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": NaN,
+      "learning_rate": 1.7999687956903953e-05,
+      "loss": 0.0,
+      "step": 343
+    },
+    {
+      "epoch": 0.7862857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.7642937523749038e-05,
+      "loss": 0.0,
+      "step": 344
+    },
+    {
+      "epoch": 0.7885714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.7288999029534176e-05,
+      "loss": 0.0,
+      "step": 345
+    },
+    {
+      "epoch": 0.7908571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 1.6937903232720077e-05,
+      "loss": 0.0,
+      "step": 346
+    },
+    {
+      "epoch": 0.7931428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 1.6589680644727344e-05,
+      "loss": 0.0,
+      "step": 347
+    },
+    {
+      "epoch": 0.7954285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 1.6244361527284952e-05,
+      "loss": 0.0,
+      "step": 348
+    },
+    {
+      "epoch": 0.7977142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 1.5901975889800386e-05,
+      "loss": 0.0,
+      "step": 349
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": NaN,
+      "learning_rate": 1.5562553486751743e-05,
+      "loss": 0.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.8022857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.5226123815101951e-05,
+      "loss": 0.0,
+      "step": 351
+    },
+    {
+      "epoch": 0.8045714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.4892716111735378e-05,
+      "loss": 0.0,
+      "step": 352
+    },
+    {
+      "epoch": 0.8068571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 1.4562359350917054e-05,
+      "loss": 0.0,
+      "step": 353
+    },
+    {
+      "epoch": 0.8091428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 1.423508224177474e-05,
+      "loss": 0.0,
+      "step": 354
+    },
+    {
+      "epoch": 0.8114285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 1.3910913225803945e-05,
+      "loss": 0.0,
+      "step": 355
+    },
+    {
+      "epoch": 0.8137142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 1.35898804743963e-05,
+      "loss": 0.0,
+      "step": 356
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": NaN,
+      "learning_rate": 1.3272011886391366e-05,
+      "loss": 0.0,
+      "step": 357
+    },
+    {
+      "epoch": 0.8182857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.2957335085652129e-05,
+      "loss": 0.0,
+      "step": 358
+    },
+    {
+      "epoch": 0.8205714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.2645877418664392e-05,
+      "loss": 0.0,
+      "step": 359
+    },
+    {
+      "epoch": 0.8228571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 1.2337665952160266e-05,
+      "loss": 0.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.8251428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 1.203272747076598e-05,
+      "loss": 0.0,
+      "step": 361
+    },
+    {
+      "epoch": 0.8274285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 1.1731088474674234e-05,
+      "loss": 0.0,
+      "step": 362
+    },
+    {
+      "epoch": 0.8297142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 1.1432775177341165e-05,
+      "loss": 0.0,
+      "step": 363
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": NaN,
+      "learning_rate": 1.11378135032084e-05,
+      "loss": 0.0,
+      "step": 364
+    },
+    {
+      "epoch": 0.8342857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.0846229085450099e-05,
+      "loss": 0.0,
+      "step": 365
+    },
+    {
+      "epoch": 0.8365714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 1.0558047263745297e-05,
+      "loss": 0.0,
+      "step": 366
+    },
+    {
+      "epoch": 0.8388571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 1.0273293082075913e-05,
+      "loss": 0.0,
+      "step": 367
+    },
+    {
+      "epoch": 0.8411428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 9.991991286550207e-06,
+      "loss": 0.0,
+      "step": 368
+    },
+    {
+      "epoch": 0.8434285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 9.71416632325235e-06,
+      "loss": 0.0,
+      "step": 369
+    },
+    {
+      "epoch": 0.8457142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 9.439842336117954e-06,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": NaN,
+      "learning_rate": 9.169043164835867e-06,
+      "loss": 0.0,
+      "step": 371
+    },
+    {
+      "epoch": 0.8502857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 8.901792342776437e-06,
+      "loss": 0.0,
+      "step": 372
+    },
+    {
+      "epoch": 0.8525714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 8.638113094946381e-06,
+      "loss": 0.0,
+      "step": 373
+    },
+    {
+      "epoch": 0.8548571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 8.37802833597045e-06,
+      "loss": 0.0,
+      "step": 374
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 8.121560668100064e-06,
+      "loss": 0.0,
+      "step": 375
+    },
+    {
+      "epoch": 0.8594285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 7.868732379249121e-06,
+      "loss": 0.0,
+      "step": 376
+    },
+    {
+      "epoch": 0.8617142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 7.619565441057075e-06,
+      "loss": 0.0,
+      "step": 377
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": NaN,
+      "learning_rate": 7.37408150697953e-06,
+      "loss": 0.0,
+      "step": 378
+    },
+    {
+      "epoch": 0.8662857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 7.132301910406503e-06,
+      "loss": 0.0,
+      "step": 379
+    },
+    {
+      "epoch": 0.8685714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 6.894247662808456e-06,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.8708571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 6.659939451910341e-06,
+      "loss": 0.0,
+      "step": 381
+    },
+    {
+      "epoch": 0.8731428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 6.429397639893758e-06,
+      "loss": 0.0,
+      "step": 382
+    },
+    {
+      "epoch": 0.8754285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 6.202642261627411e-06,
+      "loss": 0.0,
+      "step": 383
+    },
+    {
+      "epoch": 0.8777142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 5.979693022926025e-06,
+      "loss": 0.0,
+      "step": 384
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": NaN,
+      "learning_rate": 5.7605692988378255e-06,
+      "loss": 0.0,
+      "step": 385
+    },
+    {
+      "epoch": 0.8822857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 5.5452901319607894e-06,
+      "loss": 0.0,
+      "step": 386
+    },
+    {
+      "epoch": 0.8845714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 5.333874230787772e-06,
+      "loss": 0.0,
+      "step": 387
+    },
+    {
+      "epoch": 0.8868571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 5.126339968080696e-06,
+      "loss": 0.0,
+      "step": 388
+    },
+    {
+      "epoch": 0.8891428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 4.922705379273862e-06,
+      "loss": 0.0,
+      "step": 389
+    },
+    {
+      "epoch": 0.8914285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 4.722988160906638e-06,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.8937142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 4.527205669085549e-06,
+      "loss": 0.0,
+      "step": 391
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": NaN,
+      "learning_rate": 4.335374917975981e-06,
+      "loss": 0.0,
+      "step": 392
+    },
+    {
+      "epoch": 0.8982857142857142,
+      "grad_norm": NaN,
+      "learning_rate": 4.147512578323614e-06,
+      "loss": 0.0,
+      "step": 393
+    },
+    {
+      "epoch": 0.9005714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 3.963634976005642e-06,
+      "loss": 0.0,
+      "step": 394
+    },
+    {
+      "epoch": 0.9028571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 3.783758090611983e-06,
+      "loss": 0.0,
+      "step": 395
+    },
+    {
+      "epoch": 0.9051428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 3.6078975540566716e-06,
+      "loss": 0.0,
+      "step": 396
+    },
+    {
+      "epoch": 0.9074285714285715,
+      "grad_norm": NaN,
+      "learning_rate": 3.436068649219326e-06,
+      "loss": 0.0,
+      "step": 397
+    },
+    {
+      "epoch": 0.9097142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 3.268286308617041e-06,
+      "loss": 0.0,
+      "step": 398
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": NaN,
+      "learning_rate": 3.1045651131066887e-06,
+      "loss": 0.0,
+      "step": 399
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 2.94491929061782e-06,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.9165714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 2.7893627149161716e-06,
+      "loss": 0.0,
+      "step": 401
+    },
+    {
+      "epoch": 0.9188571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 2.6379089043980067e-06,
+      "loss": 0.0,
+      "step": 402
+    },
+    {
+      "epoch": 0.9211428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 2.4905710209153223e-06,
+      "loss": 0.0,
+      "step": 403
+    },
+    {
+      "epoch": 0.9234285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 2.3473618686320474e-06,
+      "loss": 0.0,
+      "step": 404
+    },
+    {
+      "epoch": 0.9257142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 2.208293892911284e-06,
+      "loss": 0.0,
+      "step": 405
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": NaN,
+      "learning_rate": 2.07337917923382e-06,
+      "loss": 0.0,
+      "step": 406
+    },
+    {
+      "epoch": 0.9302857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.9426294521477873e-06,
+      "loss": 0.0,
+      "step": 407
+    },
+    {
+      "epoch": 0.9325714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.8160560742498222e-06,
+      "loss": 0.0,
+      "step": 408
+    },
+    {
+      "epoch": 0.9348571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 1.6936700451975817e-06,
+      "loss": 0.0,
+      "step": 409
+    },
+    {
+      "epoch": 0.9371428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 1.5754820007538474e-06,
+      "loss": 0.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.9394285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 1.4615022118622367e-06,
+      "loss": 0.0,
+      "step": 411
+    },
+    {
+      "epoch": 0.9417142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 1.3517405837546403e-06,
+      "loss": 0.0,
+      "step": 412
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": NaN,
+      "learning_rate": 1.2462066550903817e-06,
+      "loss": 0.0,
+      "step": 413
+    },
+    {
+      "epoch": 0.9462857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.1449095971273305e-06,
+      "loss": 0.0,
+      "step": 414
+    },
+    {
+      "epoch": 0.9485714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 1.0478582129248515e-06,
+      "loss": 0.0,
+      "step": 415
+    },
+    {
+      "epoch": 0.9508571428571428,
+      "grad_norm": NaN,
+      "learning_rate": 9.550609365787888e-07,
+      "loss": 0.0,
+      "step": 416
+    },
+    {
+      "epoch": 0.9531428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 8.66525832488535e-07,
+      "loss": 0.0,
+      "step": 417
+    },
+    {
+      "epoch": 0.9554285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 7.822605946561923e-07,
+      "loss": 0.0,
+      "step": 418
+    },
+    {
+      "epoch": 0.9577142857142857,
+      "grad_norm": NaN,
+      "learning_rate": 7.022725460179457e-07,
+      "loss": 0.0,
+      "step": 419
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": NaN,
+      "learning_rate": 6.265686378076729e-07,
+      "loss": 0.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.9622857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 5.551554489528432e-07,
+      "loss": 0.0,
+      "step": 421
+    },
+    {
+      "epoch": 0.9645714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 4.880391855028088e-07,
+      "loss": 0.0,
+      "step": 422
+    },
+    {
+      "epoch": 0.9668571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 4.252256800894694e-07,
+      "loss": 0.0,
+      "step": 423
+    },
+    {
+      "epoch": 0.9691428571428572,
+      "grad_norm": NaN,
+      "learning_rate": 3.667203914203943e-07,
+      "loss": 0.0,
+      "step": 424
+    },
+    {
+      "epoch": 0.9714285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 3.1252840380444073e-07,
+      "loss": 0.0,
+      "step": 425
+    },
+    {
+      "epoch": 0.9737142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 2.626544267099129e-07,
+      "loss": 0.0,
+      "step": 426
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": NaN,
+      "learning_rate": 2.1710279435530057e-07,
+      "loss": 0.0,
+      "step": 427
+    },
+    {
+      "epoch": 0.9782857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 1.7587746533260784e-07,
+      "loss": 0.0,
+      "step": 428
+    },
+    {
+      "epoch": 0.9805714285714285,
+      "grad_norm": NaN,
+      "learning_rate": 1.3898202226333423e-07,
+      "loss": 0.0,
+      "step": 429
+    },
+    {
+      "epoch": 0.9828571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 1.0641967148716236e-07,
+      "loss": 0.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.9851428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 7.8193242783281e-08,
+      "loss": 0.0,
+      "step": 431
+    },
+    {
+      "epoch": 0.9874285714285714,
+      "grad_norm": NaN,
+      "learning_rate": 5.430518912448168e-08,
+      "loss": 0.0,
+      "step": 432
+    },
+    {
+      "epoch": 0.9897142857142858,
+      "grad_norm": NaN,
+      "learning_rate": 3.475758646400151e-08,
+      "loss": 0.0,
+      "step": 433
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": NaN,
+      "learning_rate": 1.9552133555084117e-08,
+      "loss": 0.0,
+      "step": 434
+    },
+    {
+      "epoch": 0.9942857142857143,
+      "grad_norm": NaN,
+      "learning_rate": 8.690151803386616e-09,
+      "loss": 0.0,
+      "step": 435
+    },
+    {
+      "epoch": 0.9965714285714286,
+      "grad_norm": NaN,
+      "learning_rate": 2.1725851521103846e-09,
+      "loss": 0.0,
+      "step": 436
+    },
+    {
+      "epoch": 0.9988571428571429,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 437
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5599012097359872.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null