Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +51 -51
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/llmsft/huggingface/runs/vakbg73g)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/llmsft/huggingface/runs/njo2ftcp)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9955555555555555,
     "total_flos": 175887366488064.0,
-    "train_loss": 0.6538210674410775,
-    "train_runtime": 1576.8233,
     "train_samples": 16610,
-    "train_samples_per_second": 13.679,
-    "train_steps_per_second": 0.107
 }

 {
     "epoch": 0.9955555555555555,
     "total_flos": 175887366488064.0,
+    "train_loss": 0.6538166212184089,
+    "train_runtime": 1597.3219,
     "train_samples": 16610,
+    "train_samples_per_second": 13.504,
+    "train_steps_per_second": 0.105
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0e0dc79d05f5574c390b6ee1ad7b22b9de1a1901daa9dcbb953ffd7542a3df
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:9486d203577d3381f80a9ca2e7c15750c61c83000cf655427e198349a3ed7781
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:857596a0a9f7ce187c12dec96728563bc9dd73827fc88d3368dcaa2430ab5670
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eb58c1603e3596bea2a7796f92e2f17ad046f9ae7d43b01cd21e5cb9ae87abb
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf312e60b66da6a986275c636b0de1066985dc473716930b08b294f7cfa3f1f0
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2dc26088dc9d1e62d830c178ed50a89ee44cd797c0f273ce42cd21dc88e6669
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4f5577ae2821db26f52e4b5098d28e171a28be74646af3f15727d8465b59559
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0897afbc1facc9b6add4ef7939f679aa8927b89346f7b66360d6b1d7aa75083
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9955555555555555,
     "total_flos": 175887366488064.0,
-    "train_loss": 0.6538210674410775,
-    "train_runtime": 1576.8233,
     "train_samples": 16610,
-    "train_samples_per_second": 13.679,
-    "train_steps_per_second": 0.107
 }

 {
     "epoch": 0.9955555555555555,
     "total_flos": 175887366488064.0,
+    "train_loss": 0.6538166212184089,
+    "train_runtime": 1597.3219,
     "train_samples": 16610,
+    "train_samples_per_second": 13.504,
+    "train_steps_per_second": 0.105
 }

trainer_state.json CHANGED Viewed

@@ -10,239 +10,239 @@
   "log_history": [
     {
       "epoch": 0.02962962962962963,
-      "grad_norm": 3.2335889970397633,
       "learning_rate": 5.882352941176471e-06,
-      "loss": 1.017,
       "step": 5
     },
     {
       "epoch": 0.05925925925925926,
-      "grad_norm": 2.1236109791934235,
       "learning_rate": 1.1764705882352942e-05,
       "loss": 0.8756,
       "step": 10
     },
     {
       "epoch": 0.08888888888888889,
-      "grad_norm": 1.4239649144116726,
       "learning_rate": 1.7647058823529414e-05,
       "loss": 0.7716,
       "step": 15
     },
     {
       "epoch": 0.11851851851851852,
-      "grad_norm": 1.026423527207296,
       "learning_rate": 1.9980527694749952e-05,
       "loss": 0.733,
       "step": 20
     },
     {
       "epoch": 0.14814814814814814,
-      "grad_norm": 0.7195683369586703,
       "learning_rate": 1.986180478852149e-05,
       "loss": 0.7059,
       "step": 25
     },
     {
       "epoch": 0.17777777777777778,
-      "grad_norm": 0.566755743770087,
       "learning_rate": 1.963645895935632e-05,
       "loss": 0.6695,
       "step": 30
     },
     {
       "epoch": 0.2074074074074074,
-      "grad_norm": 0.6053406442761077,
       "learning_rate": 1.930692657985482e-05,
       "loss": 0.6779,
       "step": 35
     },
     {
       "epoch": 0.23703703703703705,
-      "grad_norm": 0.5095813602660316,
       "learning_rate": 1.887677045685188e-05,
       "loss": 0.6563,
       "step": 40
     },
     {
       "epoch": 0.26666666666666666,
-      "grad_norm": 0.6095732174400462,
       "learning_rate": 1.8350641311400813e-05,
       "loss": 0.6597,
       "step": 45
     },
     {
       "epoch": 0.2962962962962963,
-      "grad_norm": 0.5307967748491872,
       "learning_rate": 1.773422749654988e-05,
-      "loss": 0.6482,
       "step": 50
     },
     {
       "epoch": 0.32592592592592595,
-      "grad_norm": 0.5861838961227068,
       "learning_rate": 1.7034193496547903e-05,
-      "loss": 0.6491,
       "step": 55
     },
     {
       "epoch": 0.35555555555555557,
-      "grad_norm": 0.4535084044049933,
       "learning_rate": 1.6258107872407376e-05,
       "loss": 0.6319,
       "step": 60
     },
     {
       "epoch": 0.3851851851851852,
-      "grad_norm": 0.5336831242871914,
       "learning_rate": 1.5414361432856475e-05,
-      "loss": 0.6309,
       "step": 65
     },
     {
       "epoch": 0.4148148148148148,
-      "grad_norm": 0.5806830551489788,
       "learning_rate": 1.4512076515391375e-05,
       "loss": 0.6328,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
-      "grad_norm": 0.48899625875520547,
       "learning_rate": 1.356100835825547e-05,
       "loss": 0.6254,
       "step": 75
     },
     {
       "epoch": 0.4740740740740741,
-      "grad_norm": 0.4871540647070326,
       "learning_rate": 1.257143962968246e-05,
-      "loss": 0.6176,
       "step": 80
     },
     {
       "epoch": 0.5037037037037037,
-      "grad_norm": 0.4589196113274742,
       "learning_rate": 1.155406925472205e-05,
       "loss": 0.6298,
       "step": 85
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 0.4397604117092943,
       "learning_rate": 1.0519896741619803e-05,
       "loss": 0.6215,
       "step": 90
     },
     {
       "epoch": 0.562962962962963,
-      "grad_norm": 0.4750309164051992,
       "learning_rate": 9.480103258380198e-06,
-      "loss": 0.6246,
       "step": 95
     },
     {
       "epoch": 0.5925925925925926,
-      "grad_norm": 0.42827284754034906,
       "learning_rate": 8.445930745277953e-06,
       "loss": 0.6157,
       "step": 100
     },
     {
       "epoch": 0.5925925925925926,
-      "eval_loss": 0.6399269700050354,
-      "eval_runtime": 2.3977,
-      "eval_samples_per_second": 52.968,
-      "eval_steps_per_second": 1.668,
       "step": 100
     },
     {
       "epoch": 0.6222222222222222,
-      "grad_norm": 0.4125966722094787,
       "learning_rate": 7.428560370317542e-06,
       "loss": 0.6167,
       "step": 105
     },
     {
       "epoch": 0.6518518518518519,
-      "grad_norm": 0.4781922605492141,
       "learning_rate": 6.438991641744531e-06,
-      "loss": 0.6218,
       "step": 110
     },
     {
       "epoch": 0.6814814814814815,
-      "grad_norm": 0.43856592253458193,
       "learning_rate": 5.487923484608629e-06,
       "loss": 0.6041,
       "step": 115
     },
     {
       "epoch": 0.7111111111111111,
-      "grad_norm": 0.3807903239963169,
       "learning_rate": 4.5856385671435285e-06,
       "loss": 0.5991,
       "step": 120
     },
     {
       "epoch": 0.7407407407407407,
-      "grad_norm": 0.40916534060623017,
       "learning_rate": 3.7418921275926245e-06,
       "loss": 0.5976,
       "step": 125
     },
     {
       "epoch": 0.7703703703703704,
-      "grad_norm": 0.36653352461201527,
       "learning_rate": 2.965806503452098e-06,
       "loss": 0.6132,
       "step": 130
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.3609344511157987,
       "learning_rate": 2.265772503450122e-06,
-      "loss": 0.6103,
       "step": 135
     },
     {
       "epoch": 0.8296296296296296,
-      "grad_norm": 0.367245145966204,
       "learning_rate": 1.6493586885991908e-06,
       "loss": 0.606,
       "step": 140
     },
     {
       "epoch": 0.8592592592592593,
-      "grad_norm": 0.345492870844588,
       "learning_rate": 1.1232295431481222e-06,
       "loss": 0.6084,
       "step": 145
     },
     {
       "epoch": 0.8888888888888888,
-      "grad_norm": 0.5799467118789525,
       "learning_rate": 6.930734201451817e-07,
       "loss": 0.6146,
       "step": 150
     },
     {
       "epoch": 0.9185185185185185,
-      "grad_norm": 0.3382771573960439,
       "learning_rate": 3.635410406436857e-07,
-      "loss": 0.6067,
       "step": 155
     },
     {
       "epoch": 0.9481481481481482,
-      "grad_norm": 0.3280172387536944,
       "learning_rate": 1.3819521147851122e-07,
-      "loss": 0.6099,
       "step": 160
     },
     {
       "epoch": 0.9777777777777777,
-      "grad_norm": 0.32601111538642685,
       "learning_rate": 1.947230525005006e-08,
       "loss": 0.6117,
       "step": 165
@@ -251,10 +251,10 @@
       "epoch": 0.9955555555555555,
       "step": 168,
       "total_flos": 175887366488064.0,
-      "train_loss": 0.6538210674410775,
-      "train_runtime": 1576.8233,
-      "train_samples_per_second": 13.679,
-      "train_steps_per_second": 0.107
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.02962962962962963,
+      "grad_norm": 3.2346072118607885,
       "learning_rate": 5.882352941176471e-06,
+      "loss": 1.0169,
       "step": 5
     },
     {
       "epoch": 0.05925925925925926,
+      "grad_norm": 2.1264769797556,
       "learning_rate": 1.1764705882352942e-05,
       "loss": 0.8756,
       "step": 10
     },
     {
       "epoch": 0.08888888888888889,
+      "grad_norm": 1.4231223829611963,
       "learning_rate": 1.7647058823529414e-05,
       "loss": 0.7716,
       "step": 15
     },
     {
       "epoch": 0.11851851851851852,
+      "grad_norm": 1.0239519248217772,
       "learning_rate": 1.9980527694749952e-05,
       "loss": 0.733,
       "step": 20
     },
     {
       "epoch": 0.14814814814814814,
+      "grad_norm": 0.7202299506697141,
       "learning_rate": 1.986180478852149e-05,
       "loss": 0.7059,
       "step": 25
     },
     {
       "epoch": 0.17777777777777778,
+      "grad_norm": 0.5695527206070538,
       "learning_rate": 1.963645895935632e-05,
       "loss": 0.6695,
       "step": 30
     },
     {
       "epoch": 0.2074074074074074,
+      "grad_norm": 0.6039878702944135,
       "learning_rate": 1.930692657985482e-05,
       "loss": 0.6779,
       "step": 35
     },
     {
       "epoch": 0.23703703703703705,
+      "grad_norm": 0.5093109436831765,
       "learning_rate": 1.887677045685188e-05,
       "loss": 0.6563,
       "step": 40
     },
     {
       "epoch": 0.26666666666666666,
+      "grad_norm": 0.6018876927034159,
       "learning_rate": 1.8350641311400813e-05,
       "loss": 0.6597,
       "step": 45
     },
     {
       "epoch": 0.2962962962962963,
+      "grad_norm": 0.5268268034517721,
       "learning_rate": 1.773422749654988e-05,
+      "loss": 0.6483,
       "step": 50
     },
     {
       "epoch": 0.32592592592592595,
+      "grad_norm": 0.5861151838314477,
       "learning_rate": 1.7034193496547903e-05,
+      "loss": 0.649,
       "step": 55
     },
     {
       "epoch": 0.35555555555555557,
+      "grad_norm": 0.4503680956414544,
       "learning_rate": 1.6258107872407376e-05,
       "loss": 0.6319,
       "step": 60
     },
     {
       "epoch": 0.3851851851851852,
+      "grad_norm": 0.5307966629696642,
       "learning_rate": 1.5414361432856475e-05,
+      "loss": 0.631,
       "step": 65
     },
     {
       "epoch": 0.4148148148148148,
+      "grad_norm": 0.5782202441621853,
       "learning_rate": 1.4512076515391375e-05,
       "loss": 0.6328,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
+      "grad_norm": 0.48265196188960013,
       "learning_rate": 1.356100835825547e-05,
       "loss": 0.6254,
       "step": 75
     },
     {
       "epoch": 0.4740740740740741,
+      "grad_norm": 0.4813265336090251,
       "learning_rate": 1.257143962968246e-05,
+      "loss": 0.6175,
       "step": 80
     },
     {
       "epoch": 0.5037037037037037,
+      "grad_norm": 0.4515213148563428,
       "learning_rate": 1.155406925472205e-05,
       "loss": 0.6298,
       "step": 85
     },
     {
       "epoch": 0.5333333333333333,
+      "grad_norm": 0.44644143858157415,
       "learning_rate": 1.0519896741619803e-05,
       "loss": 0.6215,
       "step": 90
     },
     {
       "epoch": 0.562962962962963,
+      "grad_norm": 0.4691339692298715,
       "learning_rate": 9.480103258380198e-06,
+      "loss": 0.6245,
       "step": 95
     },
     {
       "epoch": 0.5925925925925926,
+      "grad_norm": 0.4311309942505263,
       "learning_rate": 8.445930745277953e-06,
       "loss": 0.6157,
       "step": 100
     },
     {
       "epoch": 0.5925925925925926,
+      "eval_loss": 0.6399185061454773,
+      "eval_runtime": 2.407,
+      "eval_samples_per_second": 52.763,
+      "eval_steps_per_second": 1.662,
       "step": 100
     },
     {
       "epoch": 0.6222222222222222,
+      "grad_norm": 0.42038278194306516,
       "learning_rate": 7.428560370317542e-06,
       "loss": 0.6167,
       "step": 105
     },
     {
       "epoch": 0.6518518518518519,
+      "grad_norm": 0.478843319690418,
       "learning_rate": 6.438991641744531e-06,
+      "loss": 0.6219,
       "step": 110
     },
     {
       "epoch": 0.6814814814814815,
+      "grad_norm": 0.4347536528553071,
       "learning_rate": 5.487923484608629e-06,
       "loss": 0.6041,
       "step": 115
     },
     {
       "epoch": 0.7111111111111111,
+      "grad_norm": 0.3769111515881631,
       "learning_rate": 4.5856385671435285e-06,
       "loss": 0.5991,
       "step": 120
     },
     {
       "epoch": 0.7407407407407407,
+      "grad_norm": 0.4099151217963583,
       "learning_rate": 3.7418921275926245e-06,
       "loss": 0.5976,
       "step": 125
     },
     {
       "epoch": 0.7703703703703704,
+      "grad_norm": 0.36781593886520214,
       "learning_rate": 2.965806503452098e-06,
       "loss": 0.6132,
       "step": 130
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.3627464720674499,
       "learning_rate": 2.265772503450122e-06,
+      "loss": 0.6104,
       "step": 135
     },
     {
       "epoch": 0.8296296296296296,
+      "grad_norm": 0.3608772496918306,
       "learning_rate": 1.6493586885991908e-06,
       "loss": 0.606,
       "step": 140
     },
     {
       "epoch": 0.8592592592592593,
+      "grad_norm": 0.34531094549512426,
       "learning_rate": 1.1232295431481222e-06,
       "loss": 0.6084,
       "step": 145
     },
     {
       "epoch": 0.8888888888888888,
+      "grad_norm": 0.3242007784943698,
       "learning_rate": 6.930734201451817e-07,
       "loss": 0.6146,
       "step": 150
     },
     {
       "epoch": 0.9185185185185185,
+      "grad_norm": 0.3386165753528116,
       "learning_rate": 3.635410406436857e-07,
+      "loss": 0.6066,
       "step": 155
     },
     {
       "epoch": 0.9481481481481482,
+      "grad_norm": 0.32706837162712976,
       "learning_rate": 1.3819521147851122e-07,
+      "loss": 0.6098,
       "step": 160
     },
     {
       "epoch": 0.9777777777777777,
+      "grad_norm": 0.3256703232456208,
       "learning_rate": 1.947230525005006e-08,
       "loss": 0.6117,
       "step": 165
       "epoch": 0.9955555555555555,
       "step": 168,
       "total_flos": 175887366488064.0,
+      "train_loss": 0.6538166212184089,
+      "train_runtime": 1597.3219,
+      "train_samples_per_second": 13.504,
+      "train_steps_per_second": 0.105
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:248e08927be4400c838b0f09e774f72e44a12d4ff9c367f35284d75dc9aaeddc
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:96346f7c06fe7d9fcb5198a3d6ffa4922fda2cc78c41d3d9705faee0b7f7b32a
 size 7352