Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff65517a5e9f73ab753caee129180a904c7be8f2d1906184ca1d9133e6c17d4e
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a9fe368cada65a1d14e0d43824db3cfa6564a7e9352735addd8e143a521f036
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2945835dfba158e8c92d9a6bbb20ef702ed8937783f2a27f58ae9e0c926e7003
 size 591203178

 version https://git-lfs.github.com/spec/v1
+oid sha256:d891655449340c3c183b53db468d2b34e252acd512740f3ba321650b6e87a4db
 size 591203178

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c062f7f375beded48b5337f5a3f3a5cb38807fa3e85dbf3e294c0ab6b627bfc2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:69f50a692634404f2eebb2eab9f456865957578d752987bc52d843ac2a774366
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c10fa2121ab6afd6fed1f0664ee144253e5014a952691dbd6b2d21b27fc1ee76
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04d66d5cf9f88eb471f3ee880f779ee95d8aa2fa1c7189416b5337797176b58
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.819672131147541,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -397,6 +397,84 @@
       "eval_samples_per_second": 1.092,
       "eval_steps_per_second": 1.092,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -416,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9342816307322880.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9836065573770492,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.092,
       "eval_steps_per_second": 1.092,
       "step": 500
+    },
+    {
+      "epoch": 0.8360655737704918,
+      "grad_norm": 0.8413804173469543,
+      "learning_rate": 7.965471193905954e-06,
+      "loss": 0.114,
+      "step": 510
+    },
+    {
+      "epoch": 0.8524590163934426,
+      "grad_norm": 0.9656268954277039,
+      "learning_rate": 6.4857379484922375e-06,
+      "loss": 0.1114,
+      "step": 520
+    },
+    {
+      "epoch": 0.8688524590163934,
+      "grad_norm": 0.6842993497848511,
+      "learning_rate": 5.148456576529081e-06,
+      "loss": 0.1265,
+      "step": 530
+    },
+    {
+      "epoch": 0.8852459016393442,
+      "grad_norm": 1.1006067991256714,
+      "learning_rate": 3.958004912496127e-06,
+      "loss": 0.1418,
+      "step": 540
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 0.8723937273025513,
+      "learning_rate": 2.918280117043709e-06,
+      "loss": 0.1555,
+      "step": 550
+    },
+    {
+      "epoch": 0.9180327868852459,
+      "grad_norm": 0.810757577419281,
+      "learning_rate": 2.032685918926508e-06,
+      "loss": 0.1195,
+      "step": 560
+    },
+    {
+      "epoch": 0.9344262295081968,
+      "grad_norm": 1.3418116569519043,
+      "learning_rate": 1.3041214722768035e-06,
+      "loss": 0.1395,
+      "step": 570
+    },
+    {
+      "epoch": 0.9508196721311475,
+      "grad_norm": 0.7165635228157043,
+      "learning_rate": 7.349718656945504e-07,
+      "loss": 0.1296,
+      "step": 580
+    },
+    {
+      "epoch": 0.9672131147540983,
+      "grad_norm": 0.7757364511489868,
+      "learning_rate": 3.271003142248652e-07,
+      "loss": 0.1411,
+      "step": 590
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 0.8983824253082275,
+      "learning_rate": 8.184205978370996e-08,
+      "loss": 0.1174,
+      "step": 600
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "eval_loss": 0.12527307868003845,
+      "eval_runtime": 62.1952,
+      "eval_samples_per_second": 1.093,
+      "eval_steps_per_second": 1.093,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.115979432247296e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null