Model save

Browse files

Files changed (7) hide show

all_results.json +6 -6
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +95 -65
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
     "total_flos": 0.0,
-    "train_loss": 0.8720041565273119,
-    "train_runtime": 584.014,
-    "train_samples": 1466,
-    "train_samples_per_second": 2.51,
-    "train_steps_per_second": 0.079
 }

 {
+    "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.8712061278281673,
+    "train_runtime": 704.489,
+    "train_samples": 1997,
+    "train_samples_per_second": 2.835,
+    "train_steps_per_second": 0.088
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf1444504557a8b0fbab21fadde0f326be8b57227b3a562fd5013a63982872fa
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:26af5658aeb940e3d8df3d6ec482623a03d41463ef3b9324352bc3cea12ef355
 size 4938985352

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5dd95b3cb73d1a921986168ac5d8322ddd9453d66be41e58c3f4f861d94037f
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ee76989dd281c40f08189f2acff9216deddfe73c2daf975531c2860bfe87eb5
 size 4947390880

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6c32a9f796df5e119a0be617e0dc2402b20addd27f51d4405d366e9019d2d62
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a8e0ad0150ed7a73bba4827864e7578c68941a48f4c8917fd70842258428e06
 size 3590488816

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
     "total_flos": 0.0,
-    "train_loss": 0.8720041565273119,
-    "train_runtime": 584.014,
-    "train_samples": 1466,
-    "train_samples_per_second": 2.51,
-    "train_steps_per_second": 0.079
 }

 {
+    "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.8712061278281673,
+    "train_runtime": 704.489,
+    "train_samples": 1997,
+    "train_samples_per_second": 2.835,
+    "train_steps_per_second": 0.088
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 200,
-  "global_step": 46,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.021739130434782608,
-      "grad_norm": 49.405524700479546,
-      "learning_rate": 1e-07,
-      "logits/generated": -0.6996344327926636,
-      "logits/real": -0.6411839723587036,
-      "logps/generated": -268.8082580566406,
-      "logps/real": -278.0677490234375,
-      "loss": 0.9671,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
@@ -24,77 +24,107 @@
       "step": 1
     },
     {
-      "epoch": 0.21739130434782608,
-      "grad_norm": 41.54584385387338,
-      "learning_rate": 4.390243902439024e-07,
-      "logits/generated": -0.8907153010368347,
-      "logits/real": -0.8477872014045715,
-      "logps/generated": -284.6246337890625,
-      "logps/real": -273.05023193359375,
-      "loss": 0.972,
-      "rewards/accuracies": 0.4444444477558136,
-      "rewards/generated": 0.16897444427013397,
-      "rewards/margins": -0.029052892699837685,
-      "rewards/real": 0.13992153108119965,
       "step": 10
     },
     {
-      "epoch": 0.43478260869565216,
-      "grad_norm": 34.40402976139953,
-      "learning_rate": 3.170731707317073e-07,
-      "logits/generated": -0.8808904886245728,
-      "logits/real": -0.8196160197257996,
-      "logps/generated": -291.40716552734375,
-      "logps/real": -271.150634765625,
-      "loss": 0.8645,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/generated": 0.16139307618141174,
-      "rewards/margins": 0.2521939277648926,
-      "rewards/real": 0.4135870039463043,
       "step": 20
     },
     {
-      "epoch": 0.6521739130434783,
-      "grad_norm": 33.980993784539564,
-      "learning_rate": 1.951219512195122e-07,
-      "logits/generated": -0.8029176592826843,
-      "logits/real": -0.7914024591445923,
-      "logps/generated": -294.6733093261719,
-      "logps/real": -278.3045349121094,
-      "loss": 0.8687,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/generated": 0.16676124930381775,
-      "rewards/margins": 0.27672332525253296,
-      "rewards/real": 0.4434846043586731,
       "step": 30
     },
     {
-      "epoch": 0.8695652173913043,
-      "grad_norm": 51.08625886158765,
-      "learning_rate": 7.317073170731706e-08,
-      "logits/generated": -0.8437131643295288,
-      "logits/real": -0.8044729232788086,
-      "logps/generated": -295.627685546875,
-      "logps/real": -277.035400390625,
-      "loss": 0.8454,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/generated": 0.19026382267475128,
-      "rewards/margins": 0.39240655303001404,
-      "rewards/real": 0.5826703906059265,
       "step": 40
     },
     {
-      "epoch": 1.0,
-      "step": 46,
       "total_flos": 0.0,
-      "train_loss": 0.8720041565273119,
-      "train_runtime": 584.014,
-      "train_samples_per_second": 2.51,
-      "train_steps_per_second": 0.079
     }
   ],
   "logging_steps": 10,
-  "max_steps": 46,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.992,
   "eval_steps": 200,
+  "global_step": 62,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.016,
+      "grad_norm": 43.21725757428246,
+      "learning_rate": 7.142857142857142e-08,
+      "logits/generated": -0.9537944793701172,
+      "logits/real": -1.0051143169403076,
+      "logps/generated": -316.6651611328125,
+      "logps/real": -291.36328125,
+      "loss": 0.9684,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.16,
+      "grad_norm": 40.965171560031784,
+      "learning_rate": 4.727272727272727e-07,
+      "logits/generated": -0.8021091818809509,
+      "logits/real": -0.7525854706764221,
+      "logps/generated": -295.2068176269531,
+      "logps/real": -279.92877197265625,
+      "loss": 0.9499,
+      "rewards/accuracies": 0.5555555820465088,
+      "rewards/generated": -0.0021832569036632776,
+      "rewards/margins": 0.04766163229942322,
+      "rewards/real": 0.045478373765945435,
       "step": 10
     },
     {
+      "epoch": 0.32,
+      "grad_norm": 44.279849646311796,
+      "learning_rate": 3.818181818181818e-07,
+      "logits/generated": -0.7875266671180725,
+      "logits/real": -0.7331272959709167,
+      "logps/generated": -282.63128662109375,
+      "logps/real": -270.755126953125,
+      "loss": 0.9017,
+      "rewards/accuracies": 0.6875,
+      "rewards/generated": 0.061399005353450775,
+      "rewards/margins": 0.26890262961387634,
+      "rewards/real": 0.3303016722202301,
       "step": 20
     },
     {
+      "epoch": 0.48,
+      "grad_norm": 54.547186171140005,
+      "learning_rate": 2.909090909090909e-07,
+      "logits/generated": -0.8387455940246582,
+      "logits/real": -0.7834113836288452,
+      "logps/generated": -286.93084716796875,
+      "logps/real": -276.5713806152344,
+      "loss": 0.8875,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/generated": 0.2545087933540344,
+      "rewards/margins": 0.18184302747249603,
+      "rewards/real": 0.43635183572769165,
       "step": 30
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 43.815629015597885,
+      "learning_rate": 2e-07,
+      "logits/generated": -0.882081151008606,
+      "logits/real": -0.8120096325874329,
+      "logps/generated": -298.81744384765625,
+      "logps/real": -270.52203369140625,
+      "loss": 0.8268,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/generated": 0.1146630272269249,
+      "rewards/margins": 0.46714526414871216,
+      "rewards/real": 0.5818082690238953,
       "step": 40
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 34.532344880201805,
+      "learning_rate": 1.0909090909090908e-07,
+      "logits/generated": -0.8125056028366089,
+      "logits/real": -0.8328151702880859,
+      "logps/generated": -292.03656005859375,
+      "logps/real": -276.155029296875,
+      "loss": 0.8497,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/generated": 0.2003205567598343,
+      "rewards/margins": 0.3035683035850525,
+      "rewards/real": 0.5038889050483704,
+      "step": 50
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 32.27958496678707,
+      "learning_rate": 1.818181818181818e-08,
+      "logits/generated": -0.8254791498184204,
+      "logits/real": -0.8004539608955383,
+      "logps/generated": -292.7684020996094,
+      "logps/real": -276.4676513671875,
+      "loss": 0.8181,
+      "rewards/accuracies": 0.75,
+      "rewards/generated": 0.117733433842659,
+      "rewards/margins": 0.36951756477355957,
+      "rewards/real": 0.487250953912735,
+      "step": 60
+    },
+    {
+      "epoch": 0.992,
+      "step": 62,
       "total_flos": 0.0,
+      "train_loss": 0.8712061278281673,
+      "train_runtime": 704.489,
+      "train_samples_per_second": 2.835,
+      "train_steps_per_second": 0.088
     }
   ],
   "logging_steps": 10,
+  "max_steps": 62,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5002df4ba0cf3523d59d0c398c6d4559e323644cf7998b516f1320555392825b
 size 6392

 version https://git-lfs.github.com/spec/v1
+oid sha256:21383022ec863887b417a835a30b51dd8d64986145c3645c8e517696c1c3a00d
 size 6392