RyzenXT
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-grassy_patterned_bison

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1699c910249b9dc5ac1ef0bc87f2546dabc7db0928c1c1184fb616342302547a
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:1441c2e4ae05d9723fe20e99f10456687d50d226f538802b91860cf59ede9373
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00011670080057228916,
-    "train_runtime": 359.6199,
     "train_samples": 14,
-    "train_samples_per_second": 0.89,
-    "train_steps_per_second": 0.056
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00010723006416810677,
+    "train_runtime": 381.8984,
     "train_samples": 14,
+    "train_samples_per_second": 0.838,
+    "train_steps_per_second": 0.052
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00011670080057228916,
-    "train_runtime": 359.6199,
     "train_samples": 14,
-    "train_samples_per_second": 0.89,
-    "train_steps_per_second": 0.056
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00010723006416810677,
+    "train_runtime": 381.8984,
     "train_samples": 14,
+    "train_samples_per_second": 0.838,
+    "train_steps_per_second": 0.052
 }

trainer_state.json CHANGED Viewed

@@ -9,203 +9,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 297.71875,
       "epoch": 0.5714285714285714,
-      "grad_norm": 3.716036319732666,
-      "kl": 0.1170308266300708,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0001,
-      "reward": 1.403396137058735,
-      "reward_std": 0.9931974112987518,
-      "rewards/concensus_correctness_reward_func": 0.11993750184774399,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.47008366510272026,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.688374999910593,
       "step": 2
     },
     {
-      "completion_length": 185.45833333333334,
       "epoch": 1.0,
-      "grad_norm": 1.662474513053894,
-      "kl": 0.16396485827863216,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0001,
-      "reward": 2.1991838614145913,
-      "reward_std": 1.240087444583575,
-      "rewards/concensus_correctness_reward_func": 0.20733333130677542,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.6738922297954559,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8179583450158437,
       "step": 4
     },
     {
-      "completion_length": 345.03125,
       "epoch": 1.5714285714285714,
-      "grad_norm": 4.3429975509643555,
-      "kl": 0.10945277428254485,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0001,
-      "reward": 1.2129059247672558,
-      "reward_std": 0.8225219920277596,
-      "rewards/concensus_correctness_reward_func": 0.1197500005364418,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.50453095510602,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.46362500358372927,
       "step": 6
     },
     {
-      "completion_length": 360.8333333333333,
       "epoch": 2.0,
-      "grad_norm": 0.7672826647758484,
-      "kl": 0.11652604149033625,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0001,
-      "reward": 2.5643446942170462,
-      "reward_std": 2.675485531489054,
-      "rewards/concensus_correctness_reward_func": 1.1241666823625565,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5838030477364858,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.35637497901916504,
       "step": 8
     },
     {
-      "completion_length": 287.71875,
       "epoch": 2.571428571428571,
-      "grad_norm": 2.7631473541259766,
-      "kl": 0.17038455931469798,
       "learning_rate": 2.706448363680831e-07,
-      "loss": 0.0002,
-      "reward": 1.0371184572577477,
-      "reward_std": 1.2809428637847304,
-      "rewards/concensus_correctness_reward_func": 0.05974999815225601,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5201809480786324,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3946875147521496,
       "step": 10
     },
     {
-      "completion_length": 311.5833333333333,
       "epoch": 3.0,
-      "grad_norm": 1.5397282838821411,
-      "kl": 0.1307433481949071,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0001,
-      "reward": 2.2171006028850875,
-      "reward_std": 2.467666268348694,
-      "rewards/concensus_correctness_reward_func": 0.8810000022252401,
-      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.463350589076678,
-      "rewards/soft_format_reward_func": 0.020833333333333332,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.518583357334137,
       "step": 12
     },
     {
-      "completion_length": 226.75,
       "epoch": 3.571428571428571,
-      "grad_norm": 2.318723201751709,
-      "kl": 0.14877641014754772,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0001,
-      "reward": 1.700896855443716,
-      "reward_std": 1.4189673140645027,
-      "rewards/concensus_correctness_reward_func": 0.2995000034570694,
-      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.4306156225502491,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.533281248062849,
       "step": 14
     },
     {
-      "completion_length": 278.0,
       "epoch": 4.0,
-      "grad_norm": 1.60273015499115,
-      "kl": 0.11425346151615183,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0001,
-      "reward": 1.3309321006139119,
-      "reward_std": 1.2006290356318157,
-      "rewards/concensus_correctness_reward_func": 0.12775000433127084,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5314737657705942,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5050416638453802,
       "step": 16
     },
     {
-      "completion_length": 244.75,
       "epoch": 4.571428571428571,
-      "grad_norm": 4.471341609954834,
-      "kl": 0.14196750381961465,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0001,
-      "reward": 1.1488791853189468,
-      "reward_std": 1.2572389729321003,
-      "rewards/concensus_correctness_reward_func": 0.05999999865889549,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.4289104100316763,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3474687524139881,
       "step": 18
     },
     {
-      "completion_length": 346.5833333333333,
       "epoch": 5.0,
-      "grad_norm": 1.2137866020202637,
-      "kl": 0.11357704922556877,
       "learning_rate": 0.0,
       "loss": 0.0001,
-      "reward": 1.815684735774994,
-      "reward_std": 1.7438488453626633,
-      "rewards/concensus_correctness_reward_func": 0.39933333297570545,
-      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.49610137566924095,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5035833468039831,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 0.00011670080057228916,
-      "train_runtime": 359.6199,
-      "train_samples_per_second": 0.89,
-      "train_steps_per_second": 0.056
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 324.875,
       "epoch": 0.5714285714285714,
+      "grad_norm": 2.002195119857788,
+      "kl": 0.10146557493135333,
       "learning_rate": 4.965903258506806e-07,
       "loss": 0.0001,
+      "reward": 1.1994209811091423,
+      "reward_std": 0.8886982798576355,
+      "rewards/concensus_correctness_reward_func": 0.06006250157952309,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4101084601134062,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.6667500101029873,
       "step": 2
     },
     {
+      "completion_length": 236.54166666666666,
       "epoch": 1.0,
+      "grad_norm": 1.4868825674057007,
+      "kl": 0.15937462573250136,
       "learning_rate": 4.698684378016222e-07,
       "loss": 0.0001,
+      "reward": 1.0693536847829819,
+      "reward_std": 0.7020014822483063,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.627645343542099,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4417083412408829,
       "step": 4
     },
     {
+      "completion_length": 313.96875,
       "epoch": 1.5714285714285714,
+      "grad_norm": 2.1180367469787598,
+      "kl": 0.11905693460721523,
       "learning_rate": 4.193203929064353e-07,
       "loss": 0.0001,
+      "reward": 0.8353184591978788,
+      "reward_std": 1.2108781822025776,
+      "rewards/concensus_correctness_reward_func": 0.05999999865889549,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3829121980816126,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.32990624755620956,
       "step": 6
     },
     {
+      "completion_length": 271.6666666666667,
       "epoch": 2.0,
+      "grad_norm": 0.8843522667884827,
+      "kl": 0.1339930941661199,
       "learning_rate": 3.5042385616324236e-07,
       "loss": 0.0001,
+      "reward": 1.2604536016782124,
+      "reward_std": 1.1004451016585033,
+      "rewards/concensus_correctness_reward_func": 0.23949999610582987,
+      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5111619532108307,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.34312500307957333,
       "step": 8
     },
     {
+      "completion_length": 278.96875,
       "epoch": 2.571428571428571,
+      "grad_norm": 1.7194880247116089,
+      "kl": 0.1158994969446212,
       "learning_rate": 2.706448363680831e-07,
+      "loss": 0.0001,
+      "reward": 1.3100885897874832,
+      "reward_std": 0.958158016204834,
+      "rewards/concensus_correctness_reward_func": 0.11937500163912773,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.47505733370780945,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5906562563031912,
       "step": 10
     },
     {
+      "completion_length": 281.9583333333333,
       "epoch": 3.0,
+      "grad_norm": 1.469784140586853,
+      "kl": 0.12621823574105898,
       "learning_rate": 1.886286282148002e-07,
       "loss": 0.0001,
+      "reward": 1.4903183976809184,
+      "reward_std": 0.8817746341228485,
+      "rewards/concensus_correctness_reward_func": 0.16033333539962769,
+      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4736100931962331,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.6897083421548208,
       "step": 12
     },
     {
+      "completion_length": 258.21875,
       "epoch": 3.571428571428571,
+      "grad_norm": 2.7340307235717773,
+      "kl": 0.12837383314035833,
       "learning_rate": 1.1326296046939333e-07,
       "loss": 0.0001,
+      "reward": 1.4553425312042236,
+      "reward_std": 1.116098515689373,
+      "rewards/concensus_correctness_reward_func": 0.17937500029802322,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6064675562083721,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4819999821484089,
       "step": 14
     },
     {
+      "completion_length": 404.25,
       "epoch": 4.0,
+      "grad_norm": 1.4511692523956299,
+      "kl": 0.11721080013861258,
       "learning_rate": 5.271487265090163e-08,
       "loss": 0.0001,
+      "reward": 0.8918126051624616,
+      "reward_std": 1.090606218824784,
+      "rewards/concensus_correctness_reward_func": 0.16025000313917795,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.439604252576828,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.20862499934931597,
       "step": 16
     },
     {
+      "completion_length": 280.46875,
       "epoch": 4.571428571428571,
+      "grad_norm": 2.681562662124634,
+      "kl": 0.11063523357734084,
       "learning_rate": 1.3545689574841341e-08,
       "loss": 0.0001,
+      "reward": 1.2541908584535122,
+      "reward_std": 1.2717131599783897,
+      "rewards/concensus_correctness_reward_func": 0.14868750050663948,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3993783565238118,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5186249949038029,
       "step": 18
     },
     {
+      "completion_length": 301.2916666666667,
       "epoch": 5.0,
+      "grad_norm": 1.4194098711013794,
+      "kl": 0.1256377442429463,
       "learning_rate": 0.0,
       "loss": 0.0001,
+      "reward": 1.3778366148471832,
+      "reward_std": 1.8391435046990712,
+      "rewards/concensus_correctness_reward_func": 0.31941667199134827,
+      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.41637831181287766,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3087083548307419,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 0.00010723006416810677,
+      "train_runtime": 381.8984,
+      "train_samples_per_second": 0.838,
+      "train_steps_per_second": 0.052
     }
   ],
   "logging_steps": 2,