End of training

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +128 -128

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a467da6dfef24340866ff5a1d37beebfcda14ce6c55d69b6b79a1962c0a5919
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a4c704ffdbac9452e06e97669259701f79604811b80818b66077ed79c2fefc7
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00020942270639352502,
-    "train_runtime": 1080.3296,
-    "train_samples": 45,
-    "train_samples_per_second": 0.296,
-    "train_steps_per_second": 0.019
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00019092126749455928,
+    "train_runtime": 976.6916,
+    "train_samples": 32,
+    "train_samples_per_second": 0.328,
+    "train_steps_per_second": 0.02
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00020942270639352502,
-    "train_runtime": 1080.3296,
-    "train_samples": 45,
-    "train_samples_per_second": 0.296,
-    "train_steps_per_second": 0.019
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00019092126749455928,
+    "train_runtime": 976.6916,
+    "train_samples": 32,
+    "train_samples_per_second": 0.328,
+    "train_steps_per_second": 0.02
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7111111111111112,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -9,209 +9,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 530.96875,
-      "epoch": 0.17777777777777778,
-      "grad_norm": 2.4989676475524902,
-      "kl": 0.21733939740806818,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0002,
-      "reward": 1.9155707880854607,
-      "reward_std": 0.9734031483530998,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0,
-      "rewards/question_recreation_reward_func": 0.5404457412660122,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3751249983906746,
       "step": 2
     },
     {
-      "completion_length": 341.71875,
-      "epoch": 0.35555555555555557,
-      "grad_norm": 2.766711711883545,
-      "kl": 0.23056768160313368,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0002,
-      "reward": 2.9589971601963043,
-      "reward_std": 2.357203096151352,
-      "rewards/concensus_correctness_reward_func": 0.7106874957680702,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.875,
-      "rewards/question_recreation_reward_func": 0.44834090769290924,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.674968745559454,
       "step": 4
     },
     {
-      "completion_length": 357.6875,
-      "epoch": 0.5333333333333333,
-      "grad_norm": 2.8552253246307373,
-      "kl": 0.2545619700103998,
       "learning_rate": 4.193203929064353e-07,
-      "loss": 0.0003,
-      "reward": 1.4644720628857613,
-      "reward_std": 2.1972636580467224,
-      "rewards/concensus_correctness_reward_func": 0.1769999973475933,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.4375,
-      "rewards/question_recreation_reward_func": 0.3716908162459731,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0625,
-      "rewards/xmlcount_reward_func": 0.22828125581145287,
       "step": 6
     },
     {
-      "completion_length": 532.40625,
-      "epoch": 0.7111111111111111,
-      "grad_norm": 1.9201836585998535,
-      "kl": 0.15701038390398026,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0002,
-      "reward": 1.613306075334549,
-      "reward_std": 1.291415523737669,
-      "rewards/concensus_correctness_reward_func": 0.09756249934434891,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6875,
-      "rewards/question_recreation_reward_func": 0.46139981178566813,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.3512187674641609,
       "step": 8
     },
     {
-      "completion_length": 456.0,
-      "epoch": 0.8888888888888888,
-      "grad_norm": 2.7403085231781006,
-      "kl": 0.21460377983748913,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0002,
-      "reward": 2.472989559173584,
-      "reward_std": 1.5739564411342144,
-      "rewards/concensus_correctness_reward_func": 0.12181250005960464,
       "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.125,
-      "rewards/question_recreation_reward_func": 0.5545520260930061,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.5935000069439411,
       "step": 10
     },
     {
-      "completion_length": 489.05,
-      "epoch": 1.0,
-      "grad_norm": 0.374750018119812,
-      "kl": 0.2088455319404602,
       "learning_rate": 1.886286282148002e-07,
-      "loss": 0.0001,
-      "reward": 2.262187898159027,
-      "reward_std": 1.726797068119049,
-      "rewards/concensus_correctness_reward_func": 0.19279999732971193,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.3,
-      "rewards/question_recreation_reward_func": 0.43668795824050904,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.025,
-      "rewards/xmlcount_reward_func": 0.307699990272522,
       "step": 12
     },
     {
-      "completion_length": 406.125,
-      "epoch": 1.1777777777777778,
-      "grad_norm": 2.49137544631958,
-      "kl": 0.217071239836514,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0002,
-      "reward": 2.1967150270938873,
-      "reward_std": 1.0636013373732567,
-      "rewards/concensus_correctness_reward_func": 0.10824999958276749,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.5827462673187256,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.046875,
-      "rewards/xmlcount_reward_func": 0.7713437601923943,
       "step": 14
     },
     {
-      "completion_length": 442.46875,
-      "epoch": 1.3555555555555556,
-      "grad_norm": 3.027392864227295,
-      "kl": 0.22122804075479507,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0002,
-      "reward": 3.0656663402915,
-      "reward_std": 2.4597536213696003,
-      "rewards/concensus_correctness_reward_func": 0.8694375231862068,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.125,
-      "rewards/question_recreation_reward_func": 0.5497601740062237,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.45896876603364944,
       "step": 16
     },
     {
-      "completion_length": 501.03125,
-      "epoch": 1.5333333333333332,
-      "grad_norm": 1.7962393760681152,
-      "kl": 0.22798582073301077,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0002,
-      "reward": 2.4092493802309036,
-      "reward_std": 1.1413909941911697,
-      "rewards/concensus_correctness_reward_func": 0.18249999731779099,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.125,
-      "rewards/question_recreation_reward_func": 0.4226243682205677,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.6009999997913837,
       "step": 18
     },
     {
-      "completion_length": 466.53125,
-      "epoch": 1.7111111111111112,
-      "grad_norm": 3.0079150199890137,
-      "kl": 0.22341299941763282,
       "learning_rate": 0.0,
       "loss": 0.0002,
-      "reward": 2.485578492283821,
-      "reward_std": 1.303988529369235,
-      "rewards/concensus_correctness_reward_func": 0.12087500095367432,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.25,
-      "rewards/question_recreation_reward_func": 0.5260785156860948,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5261249858886003,
       "step": 20
     },
     {
-      "epoch": 1.7111111111111112,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 0.00020942270639352502,
-      "train_runtime": 1080.3296,
-      "train_samples_per_second": 0.296,
-      "train_steps_per_second": 0.019
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.5,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 469.4375,
+      "epoch": 0.25,
+      "grad_norm": 3.423996686935425,
+      "kl": 0.24222635943442583,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0002,
+      "reward": 2.1027765348553658,
+      "reward_std": 2.2172846607863903,
+      "rewards/concensus_correctness_reward_func": 0.625,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5625,
+      "rewards/question_recreation_reward_func": 0.23833905532956123,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0625,
+      "rewards/xmlcount_reward_func": 0.551937498152256,
       "step": 2
     },
     {
+      "completion_length": 552.65625,
+      "epoch": 0.5,
+      "grad_norm": 2.1609866619110107,
+      "kl": 0.15485292114317417,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0002,
+      "reward": 2.4315611086785793,
+      "reward_std": 2.3908147886395454,
+      "rewards/concensus_correctness_reward_func": 0.625,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.6140298657119274,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.22378122806549072,
       "step": 4
     },
     {
+      "completion_length": 437.8125,
+      "epoch": 0.75,
+      "grad_norm": 3.9912779331207275,
+      "kl": 0.16812472557649016,
       "learning_rate": 4.193203929064353e-07,
+      "loss": 0.0002,
+      "reward": 1.896638199687004,
+      "reward_std": 1.4613052681088448,
+      "rewards/concensus_correctness_reward_func": 0.125,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5625,
+      "rewards/question_recreation_reward_func": 0.6531069651246071,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.4779062494635582,
       "step": 6
     },
     {
+      "completion_length": 411.84375,
+      "epoch": 1.0,
+      "grad_norm": 2.287323474884033,
+      "kl": 0.1949609499424696,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0002,
+      "reward": 1.4827010408043861,
+      "reward_std": 2.01706550270319,
+      "rewards/concensus_correctness_reward_func": 0.16625000163912773,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3125,
+      "rewards/question_recreation_reward_func": 0.4630447644740343,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0625,
+      "rewards/xmlcount_reward_func": 0.29090625420212746,
       "step": 8
     },
     {
+      "completion_length": 463.125,
+      "epoch": 1.25,
+      "grad_norm": 2.7352001667022705,
+      "kl": 0.18110767006874084,
       "learning_rate": 2.706448363680831e-07,
       "loss": 0.0002,
+      "reward": 1.263205625116825,
+      "reward_std": 1.7421698048710823,
+      "rewards/concensus_correctness_reward_func": 0.12274999916553497,
       "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5625,
+      "rewards/question_recreation_reward_func": 0.5095805916935205,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": -0.009749993681907654,
       "step": 10
     },
     {
+      "completion_length": 351.71875,
+      "epoch": 1.5,
+      "grad_norm": 2.7147586345672607,
+      "kl": 0.23088416643440723,
       "learning_rate": 1.886286282148002e-07,
+      "loss": 0.0002,
+      "reward": 1.9199633374810219,
+      "reward_std": 1.0638368101790547,
+      "rewards/concensus_correctness_reward_func": 0.1172500029206276,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.42355713434517384,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5666562579572201,
       "step": 12
     },
     {
+      "completion_length": 437.03125,
+      "epoch": 1.75,
+      "grad_norm": 3.333895206451416,
+      "kl": 0.17828004295006394,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0002,
+      "reward": 1.6909483969211578,
+      "reward_std": 1.299113318324089,
+      "rewards/concensus_correctness_reward_func": 0.11999999731779099,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.7196984179317951,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.078125,
+      "rewards/xmlcount_reward_func": 0.46062498819082975,
       "step": 14
     },
     {
+      "completion_length": 535.40625,
+      "epoch": 2.0,
+      "grad_norm": 2.2899842262268066,
+      "kl": 0.16378580778837204,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0002,
+      "reward": 3.338853247463703,
+      "reward_std": 4.333399765193462,
+      "rewards/concensus_correctness_reward_func": 1.875,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.9375,
+      "rewards/question_recreation_reward_func": 0.46935323998332024,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.04137500189244747,
       "step": 16
     },
     {
+      "completion_length": 453.0625,
+      "epoch": 2.25,
+      "grad_norm": 3.0789365768432617,
+      "kl": 0.19641543040052056,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0002,
+      "reward": 2.0624579712748528,
+      "reward_std": 1.581074796617031,
+      "rewards/concensus_correctness_reward_func": 0.3570624999701977,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6875,
+      "rewards/question_recreation_reward_func": 0.5363016966730356,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.046875,
+      "rewards/xmlcount_reward_func": 0.2472187504172325,
       "step": 18
     },
     {
+      "completion_length": 435.53125,
+      "epoch": 2.5,
+      "grad_norm": 2.3260388374328613,
+      "kl": 0.1985931508243084,
       "learning_rate": 0.0,
       "loss": 0.0002,
+      "reward": 0.8565310798585415,
+      "reward_std": 1.408127337694168,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.33818733133375645,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.11209375411272049,
       "step": 20
     },
     {
+      "epoch": 2.5,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 0.00019092126749455928,
+      "train_runtime": 976.6916,
+      "train_samples_per_second": 0.328,
+      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {