End of training

Browse files

Files changed (6) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +4 -4
train_results.json +4 -4
trainer_state.json +53 -53
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "gate_proj",
-    "up_proj",
-    "q_proj",
-    "k_proj",
     "down_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "down_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ff2bcc7b9777ea9247a1e4b9123b4d60d3419e6b60d6aaa2a47d8f969daace2
 size 536991984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ca363c1b5edad2ba4196a98e67ea59bd0227a147540d4eca1842fecc859fd50
 size 536991984

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.3282401312153524e-07,
-    "train_runtime": 2466.767,
     "train_samples": 9,
-    "train_samples_per_second": 0.032,
-    "train_steps_per_second": 0.004
 }

 {
     "total_flos": 0.0,
+    "train_loss": 8.153455610226957e-07,
+    "train_runtime": 2152.5231,
     "train_samples": 9,
+    "train_samples_per_second": 0.037,
+    "train_steps_per_second": 0.005
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.3282401312153524e-07,
-    "train_runtime": 2466.767,
     "train_samples": 9,
-    "train_samples_per_second": 0.032,
-    "train_steps_per_second": 0.004
 }

 {
     "total_flos": 0.0,
+    "train_loss": 8.153455610226957e-07,
+    "train_runtime": 2152.5231,
     "train_samples": 9,
+    "train_samples_per_second": 0.037,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -10,108 +10,108 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 515.375,
       "epoch": 0.8888888888888888,
-      "grad_norm": 0.15375299751758575,
-      "kl": 0.0008280606089101639,
       "learning_rate": 5e-07,
-      "loss": -0.0,
-      "reward": 3.4440902918577194,
-      "reward_std": 0.3710414153756574,
-      "rewards/concensus_correctness_reward_func": -0.0417499877512455,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.875,
-      "rewards/question_recreation_reward_func": 0.9539653286337852,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.34312499314546585,
       "step": 2
     },
     {
-      "completion_length": 671.6,
       "epoch": 1.4444444444444444,
-      "grad_norm": 0.16967050731182098,
-      "kl": 0.0007601583027280867,
       "learning_rate": 4.415111107797445e-07,
-      "loss": 0.0,
-      "reward": 2.8136942863464354,
-      "reward_std": 0.9413658827543259,
-      "rewards/concensus_correctness_reward_func": -0.1571999967098236,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.2,
-      "rewards/question_recreation_reward_func": 0.9769943833351136,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.20609999299049378,
       "step": 4
     },
     {
-      "completion_length": 525.9,
       "epoch": 2.0,
-      "grad_norm": 0.1529993861913681,
-      "kl": 0.0008137797936797142,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
-      "reward": 3.8743926763534544,
-      "reward_std": 0.36290720850229263,
-      "rewards/concensus_correctness_reward_func": 0.09040001630783082,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.2,
-      "rewards/question_recreation_reward_func": 0.852992844581604,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.26900000423192977,
       "step": 6
     },
     {
-      "completion_length": 607.375,
       "epoch": 2.888888888888889,
-      "grad_norm": 0.11680044233798981,
-      "kl": 0.0007051444554235786,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
-      "reward": 3.136145554482937,
-      "reward_std": 0.7577737462706864,
-      "rewards/concensus_correctness_reward_func": -0.2589999921619892,
-      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.625,
-      "rewards/question_recreation_reward_func": 0.9608331546187401,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.1906875055283308,
       "step": 8
     },
     {
-      "completion_length": 626.6,
       "epoch": 3.4444444444444446,
-      "grad_norm": 0.16768914461135864,
-      "kl": 0.0006825350574217737,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
-      "reward": 4.43228657245636,
-      "reward_std": 0.5309378772974014,
-      "rewards/concensus_correctness_reward_func": 0.6852000236511231,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.2,
-      "rewards/question_recreation_reward_func": 0.917986524105072,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.37090001106262205,
       "step": 10
     },
     {
       "epoch": 3.4444444444444446,
       "step": 10,
       "total_flos": 0.0,
-      "train_loss": 1.3282401312153524e-07,
-      "train_runtime": 2466.767,
-      "train_samples_per_second": 0.032,
-      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 480.125,
       "epoch": 0.8888888888888888,
+      "grad_norm": 0.17998529970645905,
+      "kl": 0.000938359007705003,
       "learning_rate": 5e-07,
+      "loss": 0.0,
+      "reward": 4.501521214842796,
+      "reward_std": 0.16148228733800352,
+      "rewards/concensus_correctness_reward_func": 0.6350000090897083,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.25,
+      "rewards/question_recreation_reward_func": 0.9901463091373444,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.373624999076128,
       "step": 2
     },
     {
+      "completion_length": 547.1,
       "epoch": 1.4444444444444444,
+      "grad_norm": 0.13144199550151825,
+      "kl": 0.0008038122265134007,
       "learning_rate": 4.415111107797445e-07,
+      "loss": -0.0,
+      "reward": 6.170431995391846,
+      "reward_std": 0.15375217869877816,
+      "rewards/concensus_correctness_reward_func": 1.6456000626087188,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 2.0,
+      "rewards/question_recreation_reward_func": 0.9895318984985352,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.4646999955177307,
       "step": 4
     },
     {
+      "completion_length": 445.6,
       "epoch": 2.0,
+      "grad_norm": 0.0919833555817604,
+      "kl": 0.0012037293054163456,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
+      "reward": 4.09589991569519,
+      "reward_std": 0.12713775224983692,
+      "rewards/concensus_correctness_reward_func": 0.22239999771118163,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8,
+      "rewards/question_recreation_reward_func": 1.0,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.07349999248981476,
       "step": 6
     },
     {
+      "completion_length": 483.75,
       "epoch": 2.888888888888889,
+      "grad_norm": 0.25922873616218567,
+      "kl": 0.000980880402494222,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
+      "reward": 4.644306495785713,
+      "reward_std": 0.6483020558953285,
+      "rewards/concensus_correctness_reward_func": 0.7606250215321779,
+      "rewards/consensus_reward_func": 1.75,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.5,
+      "rewards/question_recreation_reward_func": 0.9843065515160561,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.35062500834465027,
       "step": 8
     },
     {
+      "completion_length": 547.4,
       "epoch": 3.4444444444444446,
+      "grad_norm": 0.3769736886024475,
+      "kl": 0.0010651831165887416,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
+      "reward": 3.190308856964111,
+      "reward_std": 0.7591730035841465,
+      "rewards/concensus_correctness_reward_func": -0.0031999826431274416,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.4,
+      "rewards/question_recreation_reward_func": 0.983308744430542,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.05,
+      "rewards/xmlcount_reward_func": -0.23979999423027037,
       "step": 10
     },
     {
       "epoch": 3.4444444444444446,
       "step": 10,
       "total_flos": 0.0,
+      "train_loss": 8.153455610226957e-07,
+      "train_runtime": 2152.5231,
+      "train_samples_per_second": 0.037,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 2,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fa4e37924a6443a872e48858b82844345ee21cbaece118ba77d106dc7fc5c39
 size 6072

 version https://git-lfs.github.com/spec/v1
+oid sha256:671653c2fa91511c2714ef5e63574c1c3d0154148fa5cf944a86fa0f99b4ac34
 size 6072