Training in progress, step 500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +25 -25
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc0336bab9ad53a5d9ba35f689531e4f56cffd1eb07fbe59ee2bf923acde76a8
 size 577789320

 version https://git-lfs.github.com/spec/v1
+oid sha256:035117b09dfdc6d12c531cfa1a299a6930aa3a0980fda5f4ee497e90ef6b21a2
 size 577789320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52d54884dc3d75a7228a6f73783a44ed6321489769a21ba9feb34fcacc24f3c9
 size 1155772233

 version https://git-lfs.github.com/spec/v1
+oid sha256:30a7fd3a5cb53128eff1159920c614d981a3c68664d5045b0c30873828f04da0
 size 1155772233

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.4566049873828888,
   "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-500",
   "epoch": 0.837696335078534,
   "eval_steps": 500,
@@ -10,80 +10,80 @@
   "log_history": [
     {
       "epoch": 0.08376963350785341,
-      "grad_norm": 2.9717624187469482,
       "learning_rate": 2.4500000000000003e-06,
-      "loss": 1.0424,
       "step": 50
     },
     {
       "epoch": 0.16753926701570682,
-      "grad_norm": 2.9720630645751953,
       "learning_rate": 4.950000000000001e-06,
-      "loss": 0.8474,
       "step": 100
     },
     {
       "epoch": 0.2513089005235602,
-      "grad_norm": 2.445929765701294,
       "learning_rate": 7.45e-06,
-      "loss": 0.7336,
       "step": 150
     },
     {
       "epoch": 0.33507853403141363,
-      "grad_norm": 5.502955913543701,
       "learning_rate": 9.950000000000001e-06,
-      "loss": 0.6492,
       "step": 200
     },
     {
       "epoch": 0.418848167539267,
-      "grad_norm": 2.3356130123138428,
       "learning_rate": 1.2450000000000001e-05,
-      "loss": 0.6133,
       "step": 250
     },
     {
       "epoch": 0.5026178010471204,
-      "grad_norm": 1.937270164489746,
       "learning_rate": 1.4950000000000001e-05,
-      "loss": 0.5889,
       "step": 300
     },
     {
       "epoch": 0.5863874345549738,
-      "grad_norm": 2.392244338989258,
       "learning_rate": 1.745e-05,
-      "loss": 0.5694,
       "step": 350
     },
     {
       "epoch": 0.6701570680628273,
-      "grad_norm": 7.3209919929504395,
       "learning_rate": 1.995e-05,
-      "loss": 0.5477,
       "step": 400
     },
     {
       "epoch": 0.7539267015706806,
-      "grad_norm": 3.415917158126831,
       "learning_rate": 2.245e-05,
-      "loss": 0.5329,
       "step": 450
     },
     {
       "epoch": 0.837696335078534,
-      "grad_norm": 3.0256705284118652,
       "learning_rate": 2.495e-05,
-      "loss": 0.5173,
       "step": 500
     },
     {
       "epoch": 0.837696335078534,
-      "eval_loss": 0.4566049873828888,
-      "eval_runtime": 281.3712,
-      "eval_samples_per_second": 30.17,
-      "eval_steps_per_second": 3.774,
       "step": 500
     }
   ],

 {
+  "best_metric": 0.4793977439403534,
   "best_model_checkpoint": "mikhail_panzo/zlm_b128_le4_s8000/checkpoint-500",
   "epoch": 0.837696335078534,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.08376963350785341,
+      "grad_norm": 2.9895308017730713,
       "learning_rate": 2.4500000000000003e-06,
+      "loss": 1.0423,
       "step": 50
     },
     {
       "epoch": 0.16753926701570682,
+      "grad_norm": 3.051593542098999,
       "learning_rate": 4.950000000000001e-06,
+      "loss": 0.8473,
       "step": 100
     },
     {
       "epoch": 0.2513089005235602,
+      "grad_norm": 2.0044381618499756,
       "learning_rate": 7.45e-06,
+      "loss": 0.733,
       "step": 150
     },
     {
       "epoch": 0.33507853403141363,
+      "grad_norm": 3.4974701404571533,
       "learning_rate": 9.950000000000001e-06,
+      "loss": 0.6511,
       "step": 200
     },
     {
       "epoch": 0.418848167539267,
+      "grad_norm": 1.854073405265808,
       "learning_rate": 1.2450000000000001e-05,
+      "loss": 0.6143,
       "step": 250
     },
     {
       "epoch": 0.5026178010471204,
+      "grad_norm": 1.737787127494812,
       "learning_rate": 1.4950000000000001e-05,
+      "loss": 0.5909,
       "step": 300
     },
     {
       "epoch": 0.5863874345549738,
+      "grad_norm": 2.0971367359161377,
       "learning_rate": 1.745e-05,
+      "loss": 0.5684,
       "step": 350
     },
     {
       "epoch": 0.6701570680628273,
+      "grad_norm": 1.8380221128463745,
       "learning_rate": 1.995e-05,
+      "loss": 0.5472,
       "step": 400
     },
     {
       "epoch": 0.7539267015706806,
+      "grad_norm": 3.9271857738494873,
       "learning_rate": 2.245e-05,
+      "loss": 0.5287,
       "step": 450
     },
     {
       "epoch": 0.837696335078534,
+      "grad_norm": 7.809891700744629,
       "learning_rate": 2.495e-05,
+      "loss": 0.5174,
       "step": 500
     },
     {
       "epoch": 0.837696335078534,
+      "eval_loss": 0.4793977439403534,
+      "eval_runtime": 265.0789,
+      "eval_samples_per_second": 32.024,
+      "eval_steps_per_second": 4.006,
       "step": 500
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11675416f8a34c5963cafc78c11d51d2aedc5632f839698999d98e8c1dadbc99
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:62d52fd5824337d8e4069d6134741e66eb5d5a1f4cbab34634a7b544eccabdfb
 size 5304