ethduke
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-aquatic_tropical_pigeon

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf5c6b243ee144656dbcf47d120c5b0d047853f738a4b1183db2123e6e9128c1
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:5677d9384a8d8eaafbf75d85e16821632bb148c8e7537b4106fbcf8e7ba96c84
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 4.368964938521458e-05,
-    "train_runtime": 256.7768,
     "train_samples": 11,
-    "train_samples_per_second": 1.246,
-    "train_steps_per_second": 0.078
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00015414022409458993,
+    "train_runtime": 281.5791,
     "train_samples": 11,
+    "train_samples_per_second": 1.136,
+    "train_steps_per_second": 0.071
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 4.368964938521458e-05,
-    "train_runtime": 256.7768,
     "train_samples": 11,
-    "train_samples_per_second": 1.246,
-    "train_steps_per_second": 0.078
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00015414022409458993,
+    "train_runtime": 281.5791,
     "train_samples": 11,
+    "train_samples_per_second": 1.136,
+    "train_steps_per_second": 0.071
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 256.03125,
       "epoch": 0.7272727272727273,
-      "grad_norm": 31.732873916625977,
-      "kl": 0.027219712603255175,
       "learning_rate": 5e-07,
-      "loss": 0.0,
-      "reward": 0.22654369450174272,
-      "reward_std": 0.23624277277849615,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.09826244146097451,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.06578125059604645,
       "step": 2
     },
     {
-      "completion_length": 472.0,
       "epoch": 1.3636363636363638,
-      "grad_norm": 2.866732597351074,
-      "kl": 0.0015056143082412226,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.40377093851566315,
-      "reward_std": 0.41681198882205145,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.27566379361918997,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.1281071432999202,
       "step": 4
     },
     {
-      "completion_length": 236.21428571428572,
       "epoch": 2.0,
-      "grad_norm": 5.039337635040283,
-      "kl": 0.011783749680034816,
       "learning_rate": 4.472851273490984e-07,
-      "loss": 0.0,
-      "reward": 0.1461483080472265,
-      "reward_std": 0.1575677410832473,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.11043402233294078,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.03571428571428571,
       "step": 6
     },
     {
-      "completion_length": 345.40625,
       "epoch": 2.7272727272727275,
-      "grad_norm": 1.5869348049163818,
-      "kl": 0.0017466378849348985,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 0.2617756733670831,
-      "reward_std": 0.2813104931265116,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1473381733521819,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.11443749675527215,
       "step": 8
     },
     {
-      "completion_length": 324.10714285714283,
       "epoch": 3.3636363636363638,
-      "grad_norm": 47.53855514526367,
-      "kl": 0.024071508935386583,
       "learning_rate": 3.1137137178519977e-07,
-      "loss": 0.0,
-      "reward": 0.09990422055125237,
-      "reward_std": 0.20037504698016814,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.12983279355934688,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.029928573540278842,
       "step": 10
     },
     {
-      "completion_length": 338.17857142857144,
       "epoch": 4.0,
-      "grad_norm": 1.561371922492981,
-      "kl": 0.00403046899009496,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.21423373531017983,
-      "reward_std": 0.27092336490750313,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.11312659989510264,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.1011071443291647,
       "step": 12
     },
     {
-      "completion_length": 335.625,
       "epoch": 4.7272727272727275,
-      "grad_norm": 8.200457572937012,
-      "kl": 0.2696073132538004,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0003,
-      "reward": 0.15603619627654552,
-      "reward_std": 0.1304730805568397,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.10397369833663106,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.05206250073388219,
       "step": 14
     },
     {
-      "completion_length": 308.60714285714283,
       "epoch": 5.363636363636363,
-      "grad_norm": 41.2431640625,
-      "kl": 0.013686772053396063,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.2201648045863424,
-      "reward_std": 0.2531385842178549,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1674862275166171,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.05267857228006635,
       "step": 16
     },
     {
-      "completion_length": 462.85714285714283,
       "epoch": 6.0,
-      "grad_norm": 39.8530387878418,
-      "kl": 0.01660439037784402,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 0.26164806687406134,
-      "reward_std": 0.2453045624175242,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.15982663471783912,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.10182142683437892,
       "step": 18
     },
     {
-      "completion_length": 238.0625,
       "epoch": 6.7272727272727275,
-      "grad_norm": 18.413917541503906,
-      "kl": 0.07556294070673175,
       "learning_rate": 3.4096741493194193e-09,
-      "loss": 0.0001,
-      "reward": 0.08847503876313567,
-      "reward_std": 0.20323701412416995,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.07966254581697285,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.008812498766928911,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 4.368964938521458e-05,
-      "train_runtime": 256.7768,
-      "train_samples_per_second": 1.246,
-      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 457.46875,
       "epoch": 0.7272727272727273,
+      "grad_norm": 16.351104736328125,
+      "kl": 0.08167999327997677,
       "learning_rate": 5e-07,
+      "loss": 0.0001,
+      "reward": 0.15712895896285772,
+      "reward_std": 0.16557095828466117,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.09503521351143718,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.0004062540829181671,
       "step": 2
     },
     {
+      "completion_length": 426.7142857142857,
       "epoch": 1.3636363636363638,
+      "grad_norm": 11.472403526306152,
+      "kl": 0.0027214595549074666,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.2153801428420203,
+      "reward_std": 0.39556323790124487,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.19152300538761274,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.02385714224406651,
       "step": 4
     },
     {
+      "completion_length": 400.32142857142856,
       "epoch": 2.0,
+      "grad_norm": 26.74905776977539,
+      "kl": 0.11891132356998112,
       "learning_rate": 4.472851273490984e-07,
+      "loss": 0.0001,
+      "reward": 0.3929154420537608,
+      "reward_std": 0.48543383340750423,
+      "rewards/concensus_correctness_reward_func": 0.05564285601888384,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.13927258072154863,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.12657142643417632,
       "step": 6
     },
     {
+      "completion_length": 395.78125,
       "epoch": 2.7272727272727275,
+      "grad_norm": 3.581843852996826,
+      "kl": 0.003996455903688911,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.2748106950893998,
+      "reward_std": 0.3621752557810396,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.18546694982796907,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.08934374898672104,
       "step": 8
     },
     {
+      "completion_length": 322.17857142857144,
       "epoch": 3.3636363636363638,
+      "grad_norm": 56.74396896362305,
+      "kl": 0.7859495766959819,
       "learning_rate": 3.1137137178519977e-07,
+      "loss": 0.0007,
+      "reward": 0.9351996704936028,
+      "reward_std": 1.8959732236606734,
+      "rewards/concensus_correctness_reward_func": 0.7142857142857143,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.13002112401383265,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.01946428364941052,
       "step": 10
     },
     {
+      "completion_length": 379.5357142857143,
       "epoch": 4.0,
+      "grad_norm": 20.682519912719727,
+      "kl": 0.02390956664125302,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.25188991161329405,
+      "reward_std": 0.39817888888397385,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.21760419330426625,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.034285713718937974,
       "step": 12
     },
     {
+      "completion_length": 272.9375,
       "epoch": 4.7272727272727275,
+      "grad_norm": 3.40265154838562,
+      "kl": 0.27164596776128747,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0003,
+      "reward": 0.34495238587260246,
+      "reward_std": 0.48182178288698196,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.1382648665457964,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.12856250256299973,
       "step": 14
     },
     {
+      "completion_length": 554.3214285714286,
       "epoch": 5.363636363636363,
+      "grad_norm": 1.438904881477356,
+      "kl": 0.015631290884422406,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.15444361524922506,
+      "reward_std": 0.5198775428746428,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.11812217427151543,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.03510714003017971,
       "step": 16
     },
     {
+      "completion_length": 397.5357142857143,
       "epoch": 6.0,
+      "grad_norm": 37.539424896240234,
+      "kl": 0.012138443441861975,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.20231912178652628,
+      "reward_std": 0.30801710832331863,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.07142857142857142,
+      "rewards/question_recreation_reward_func": 0.12560484079377993,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.00528571435383388,
       "step": 18
     },
     {
+      "completion_length": 361.96875,
       "epoch": 6.7272727272727275,
+      "grad_norm": 38.09538269042969,
+      "kl": 0.3446817479416495,
       "learning_rate": 3.4096741493194193e-09,
+      "loss": 0.0003,
+      "reward": 0.25399213982746005,
+      "reward_std": 0.2120291250757873,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.1301483865827322,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.12384374905377626,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 0.00015414022409458993,
+      "train_runtime": 281.5791,
+      "train_samples_per_second": 1.136,
+      "train_steps_per_second": 0.071
     }
   ],
   "logging_steps": 2,