AbSuLaTeZERO
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-sharp_robust_scorpion

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0ae6b798bf87415a3459688f725f184c2f6681cfe9f7637b79e23ea8000aba7
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8274e24ba106ab61bd29b1b6fa7b41dfff3f1e39c9234241504756f9d6a92a4
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 3.340189959999407e-06,
-    "train_runtime": 713.2682,
     "train_samples": 14,
-    "train_samples_per_second": 0.449,
-    "train_steps_per_second": 0.028
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.0274018879717916e-06,
+    "train_runtime": 659.8058,
     "train_samples": 14,
+    "train_samples_per_second": 0.485,
+    "train_steps_per_second": 0.03
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 3.340189959999407e-06,
-    "train_runtime": 713.2682,
     "train_samples": 14,
-    "train_samples_per_second": 0.449,
-    "train_steps_per_second": 0.028
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.0274018879717916e-06,
+    "train_runtime": 659.8058,
     "train_samples": 14,
+    "train_samples_per_second": 0.485,
+    "train_steps_per_second": 0.03
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 322.375,
       "epoch": 0.5714285714285714,
-      "grad_norm": 2.0871474742889404,
-      "kl": 0.001733000564854592,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 0.19888813886791468,
-      "reward_std": 0.6061888420954347,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.17770064366050065,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.041312504559755325,
       "step": 2
     },
     {
-      "completion_length": 319.7916666666667,
       "epoch": 1.0,
-      "grad_norm": 7.83439302444458,
-      "kl": 0.003303032834082842,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.6839615454276403,
-      "reward_std": 0.759387363990148,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.4025865321358045,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.11470832924048106,
       "step": 4
     },
     {
-      "completion_length": 329.03125,
       "epoch": 1.5714285714285714,
-      "grad_norm": 1.6433956623077393,
-      "kl": 0.0019522544171195477,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 0.5661174282431602,
-      "reward_std": 0.6675986871123314,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.26621117535978556,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2374062491580844,
       "step": 6
     },
     {
-      "completion_length": 301.4583333333333,
       "epoch": 2.0,
-      "grad_norm": 2.511329412460327,
-      "kl": 0.003298065799754113,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 0.8205540465811888,
-      "reward_std": 0.7265187874436378,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.3611373820652564,
-      "rewards/soft_format_reward_func": 0.020833333333333332,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2719166638950507,
       "step": 8
     },
     {
-      "completion_length": 365.125,
       "epoch": 2.571428571428571,
-      "grad_norm": 16.952173233032227,
-      "kl": 0.0019986442930530757,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 0.8687562858685851,
-      "reward_std": 0.9658274040557444,
-      "rewards/concensus_correctness_reward_func": 0.015687499195337296,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.29691252298653126,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.22803125670179725,
       "step": 10
     },
     {
-      "completion_length": 251.66666666666666,
       "epoch": 3.0,
-      "grad_norm": 5.618197917938232,
-      "kl": 0.016620360877520095,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.3864253281305234,
-      "reward_std": 0.6003361530601978,
-      "rewards/concensus_correctness_reward_func": 0.07883333166440327,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.24213367452224097,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.06545833374063174,
       "step": 12
     },
     {
-      "completion_length": 339.84375,
       "epoch": 3.571428571428571,
-      "grad_norm": 3.2044646739959717,
-      "kl": 0.001727611837850418,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 0.6722104325890541,
-      "reward_std": 0.7775694923475385,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.31621043663471937,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.16850000619888306,
       "step": 14
     },
     {
-      "completion_length": 329.5833333333333,
       "epoch": 4.0,
-      "grad_norm": 61.69892501831055,
-      "kl": 0.008029639682111641,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.2587374324599902,
-      "reward_std": 0.42218482370177907,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1902374264318496,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.06849999849994977,
       "step": 16
     },
     {
-      "completion_length": 397.8125,
       "epoch": 4.571428571428571,
-      "grad_norm": 2.8574352264404297,
-      "kl": 0.0016905490410863422,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.201634617522359,
-      "reward_std": 1.5953592797741294,
-      "rewards/concensus_correctness_reward_func": 0.625,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.3076971317641437,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.14393749367445707,
       "step": 18
     },
     {
-      "completion_length": 368.25,
       "epoch": 5.0,
-      "grad_norm": 0.9341862797737122,
-      "kl": 0.0011831384617835283,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 0.19556983901808658,
-      "reward_std": 0.3893953717003266,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.14365316454010704,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.051916664155821,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 3.340189959999407e-06,
-      "train_runtime": 713.2682,
-      "train_samples_per_second": 0.449,
-      "train_steps_per_second": 0.028
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 338.125,
       "epoch": 0.5714285714285714,
+      "grad_norm": 1.8715057373046875,
+      "kl": 0.001477257494116202,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.2997885085642338,
+      "reward_std": 0.5703903324902058,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.2674135072156787,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.03237500065006316,
       "step": 2
     },
     {
+      "completion_length": 357.6666666666667,
       "epoch": 1.0,
+      "grad_norm": 0.984672486782074,
+      "kl": 0.0014047097162498783,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.9775808081030846,
+      "reward_std": 2.5033457477887473,
+      "rewards/concensus_correctness_reward_func": 0.8333333333333334,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6666666666666666,
+      "rewards/question_recreation_reward_func": 0.25608077583213645,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.221500001847744,
       "step": 4
     },
     {
+      "completion_length": 427.3125,
       "epoch": 1.5714285714285714,
+      "grad_norm": 3.178982973098755,
+      "kl": 0.0017081504192901775,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.5507455510087311,
+      "reward_std": 0.6502055288292468,
+      "rewards/concensus_correctness_reward_func": 0.03881249949336052,
       "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.26452679513022304,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.18490625312551856,
       "step": 6
     },
     {
+      "completion_length": 425.125,
       "epoch": 2.0,
+      "grad_norm": 1.1642987728118896,
+      "kl": 0.0016136488023524482,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 2.037953406572342,
+      "reward_std": 2.6479158798853555,
+      "rewards/concensus_correctness_reward_func": 0.8469166668752829,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5833333333333334,
+      "rewards/question_recreation_reward_func": 0.426911707346638,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.09745833774407704,
       "step": 8
     },
     {
+      "completion_length": 369.3125,
       "epoch": 2.571428571428571,
+      "grad_norm": 2.802666425704956,
+      "kl": 0.0023603578592883423,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.43111353926360607,
+      "reward_std": 0.5944545012898743,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.28017603047192097,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.03656249959021807,
       "step": 10
     },
     {
+      "completion_length": 297.125,
       "epoch": 3.0,
+      "grad_norm": 3.0649657249450684,
+      "kl": 0.004850184477011983,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.483407974243164,
+      "reward_std": 2.1456588890093067,
+      "rewards/concensus_correctness_reward_func": 0.8333333333333334,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3333333333333333,
+      "rewards/question_recreation_reward_func": 0.2547412309795618,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0620000014702479,
       "step": 12
     },
     {
+      "completion_length": 376.84375,
       "epoch": 3.571428571428571,
+      "grad_norm": 2.7200167179107666,
+      "kl": 0.0013198520755395293,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.9588908506557345,
+      "reward_std": 2.067129611968994,
+      "rewards/concensus_correctness_reward_func": 0.625,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.2542658615857363,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.17037500767037272,
       "step": 14
     },
     {
+      "completion_length": 303.5833333333333,
       "epoch": 4.0,
+      "grad_norm": 2.2212414741516113,
+      "kl": 0.005760817148257047,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.7396044116467237,
+      "reward_std": 0.7419168117145697,
+      "rewards/concensus_correctness_reward_func": 0.05174999932448069,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.16666666666666666,
+      "rewards/question_recreation_reward_func": 0.18622938760866722,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2516250057766835,
       "step": 16
     },
     {
+      "completion_length": 341.78125,
       "epoch": 4.571428571428571,
+      "grad_norm": 2.827869176864624,
+      "kl": 0.0014662027533631772,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.502134442795068,
+      "reward_std": 1.902084618806839,
+      "rewards/concensus_correctness_reward_func": 0.6638124994933605,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.3838844280689955,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.20443749986588955,
       "step": 18
     },
     {
+      "completion_length": 379.875,
       "epoch": 5.0,
+      "grad_norm": 1.3400037288665771,
+      "kl": 0.002210518141509965,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.7476394598682722,
+      "reward_std": 0.891845278441906,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3333333333333333,
+      "rewards/question_recreation_reward_func": 0.34876447916030884,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0655416709681352,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.0274018879717916e-06,
+      "train_runtime": 659.8058,
+      "train_samples_per_second": 0.485,
+      "train_steps_per_second": 0.03
     }
   ],
   "logging_steps": 2,