Training in progress, step 30000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +159 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6789ecf17de6b09ea80d804f0b8dc5e1c1b21bcba924a77a805e56dd4ee42061
 size 641630264

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8abd655a9b44d771c5739a43035851191180013c05198446b425dced1ab3d2e
 size 641630264

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffca1600b0efb977373a4c2ece9c0412c55a4fd4474eebaa16d8012352dae00e
 size 1283324282

 version https://git-lfs.github.com/spec/v1
+oid sha256:768112938401618c4edaf6704bba0a776118317185538856e2178b0e3f6df8f3
 size 1283324282

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b03a5c8e99d354bc4c6dd731292cef24d6f5abef66e79af41e19acbb72904f5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e8920ec89da786a5fc2fb4b9f1869b6bd25c311f6d06cbb6e1066128e3d88f7
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74bef543997127e7c2c660d0faf1701a82784e882d7ffc358a865a081ae18884
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:e494a2773f091703acc430a5f9f465e98f323447a3c54b31aebd20d1297c3d30
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:634cc21d2ee6681c0a2a9372f98b9644e031750fd180f98cae66b1e01b326f8b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49bc4c081ed4c8705851a14034a365f34c3c0a4efcee412cbd9dc7fcb3ff7092
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.49662296384584825,
   "eval_steps": 5000,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -320,6 +320,162 @@
       "eval_samples_per_second": 305.443,
       "eval_steps_per_second": 9.545,
       "step": 20000
     }
   ],
   "logging_steps": 500,
@@ -339,7 +495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.405239526988595e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7449344457687723,
   "eval_steps": 5000,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 305.443,
       "eval_steps_per_second": 9.545,
       "step": 20000
+    },
+    {
+      "epoch": 0.5090385379419944,
+      "grad_norm": 2.7354369163513184,
+      "learning_rate": 0.0004730348487195945,
+      "loss": 2.6474,
+      "step": 20500
+    },
+    {
+      "epoch": 0.5214541120381406,
+      "grad_norm": 3.169034719467163,
+      "learning_rate": 0.0004723431862951241,
+      "loss": 2.6225,
+      "step": 21000
+    },
+    {
+      "epoch": 0.5338696861342869,
+      "grad_norm": 2.654437780380249,
+      "learning_rate": 0.0004716515238706536,
+      "loss": 2.6248,
+      "step": 21500
+    },
+    {
+      "epoch": 0.546285260230433,
+      "grad_norm": 3.1007559299468994,
+      "learning_rate": 0.0004709598614461831,
+      "loss": 2.6233,
+      "step": 22000
+    },
+    {
+      "epoch": 0.5587008343265792,
+      "grad_norm": 2.5275120735168457,
+      "learning_rate": 0.0004702681990217127,
+      "loss": 2.6037,
+      "step": 22500
+    },
+    {
+      "epoch": 0.5711164084227255,
+      "grad_norm": 2.6772823333740234,
+      "learning_rate": 0.0004695765365972422,
+      "loss": 2.6014,
+      "step": 23000
+    },
+    {
+      "epoch": 0.5835319825188717,
+      "grad_norm": 3.494856595993042,
+      "learning_rate": 0.00046888625749762073,
+      "loss": 2.5994,
+      "step": 23500
+    },
+    {
+      "epoch": 0.5959475566150179,
+      "grad_norm": 3.0711567401885986,
+      "learning_rate": 0.00046819597839799915,
+      "loss": 2.5539,
+      "step": 24000
+    },
+    {
+      "epoch": 0.6083631307111641,
+      "grad_norm": 2.804976224899292,
+      "learning_rate": 0.0004675043159735287,
+      "loss": 2.5649,
+      "step": 24500
+    },
+    {
+      "epoch": 0.6207787048073103,
+      "grad_norm": 2.4519996643066406,
+      "learning_rate": 0.00046681265354905823,
+      "loss": 2.5486,
+      "step": 25000
+    },
+    {
+      "epoch": 0.6207787048073103,
+      "eval_loss": 1.5942130088806152,
+      "eval_runtime": 4197.6423,
+      "eval_samples_per_second": 307.004,
+      "eval_steps_per_second": 9.594,
+      "step": 25000
+    },
+    {
+      "epoch": 0.6331942789034565,
+      "grad_norm": 2.5043067932128906,
+      "learning_rate": 0.00046612099112458777,
+      "loss": 2.5406,
+      "step": 25500
+    },
+    {
+      "epoch": 0.6456098529996027,
+      "grad_norm": 2.5639116764068604,
+      "learning_rate": 0.00046543071202496624,
+      "loss": 2.5053,
+      "step": 26000
+    },
+    {
+      "epoch": 0.658025427095749,
+      "grad_norm": 3.016726493835449,
+      "learning_rate": 0.0004647390496004958,
+      "loss": 2.5144,
+      "step": 26500
+    },
+    {
+      "epoch": 0.6704410011918951,
+      "grad_norm": 3.4621164798736572,
+      "learning_rate": 0.0004640487705008743,
+      "loss": 2.5116,
+      "step": 27000
+    },
+    {
+      "epoch": 0.6828565752880413,
+      "grad_norm": 3.288008451461792,
+      "learning_rate": 0.0004633571080764038,
+      "loss": 2.4934,
+      "step": 27500
+    },
+    {
+      "epoch": 0.6952721493841876,
+      "grad_norm": 2.741086721420288,
+      "learning_rate": 0.00046266544565193334,
+      "loss": 2.4951,
+      "step": 28000
+    },
+    {
+      "epoch": 0.7076877234803337,
+      "grad_norm": 2.276293992996216,
+      "learning_rate": 0.0004619737832274629,
+      "loss": 2.4767,
+      "step": 28500
+    },
+    {
+      "epoch": 0.72010329757648,
+      "grad_norm": 2.5310287475585938,
+      "learning_rate": 0.0004612821208029924,
+      "loss": 2.5034,
+      "step": 29000
+    },
+    {
+      "epoch": 0.7325188716726262,
+      "grad_norm": 2.1986629962921143,
+      "learning_rate": 0.00046059045837852197,
+      "loss": 2.459,
+      "step": 29500
+    },
+    {
+      "epoch": 0.7449344457687723,
+      "grad_norm": 1.948871374130249,
+      "learning_rate": 0.0004598987959540515,
+      "loss": 2.4328,
+      "step": 30000
+    },
+    {
+      "epoch": 0.7449344457687723,
+      "eval_loss": 1.53118896484375,
+      "eval_runtime": 4144.3778,
+      "eval_samples_per_second": 310.949,
+      "eval_steps_per_second": 9.717,
+      "step": 30000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.260592966550446e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null