ethduke
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-aquatic_tropical_pigeon

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0f9e1598c327113a1e8ce628efc3fc964c1099e6b53d4adcaa856e98360d08b
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf5c6b243ee144656dbcf47d120c5b0d047853f738a4b1183db2123e6e9128c1
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.644151551427058e-06,
-    "train_runtime": 260.4493,
     "train_samples": 11,
-    "train_samples_per_second": 1.229,
-    "train_steps_per_second": 0.077
 }

 {
     "total_flos": 0.0,
+    "train_loss": 4.368964938521458e-05,
+    "train_runtime": 256.7768,
     "train_samples": 11,
+    "train_samples_per_second": 1.246,
+    "train_steps_per_second": 0.078
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.644151551427058e-06,
-    "train_runtime": 260.4493,
     "train_samples": 11,
-    "train_samples_per_second": 1.229,
-    "train_steps_per_second": 0.077
 }

 {
     "total_flos": 0.0,
+    "train_loss": 4.368964938521458e-05,
+    "train_runtime": 256.7768,
     "train_samples": 11,
+    "train_samples_per_second": 1.246,
+    "train_steps_per_second": 0.078
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 331.875,
       "epoch": 0.7272727272727273,
-      "grad_norm": 6.32633113861084,
-      "kl": 0.0015216738465824164,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 0.2679731883108616,
-      "reward_std": 0.2422754189465195,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.14719193568453193,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.05828124936670065,
       "step": 2
     },
     {
-      "completion_length": 266.7857142857143,
       "epoch": 1.3636363636363638,
-      "grad_norm": 3.9912683963775635,
-      "kl": 0.002765635818442596,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.19122441858053207,
-      "reward_std": 0.15388232309903419,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.14654584974050522,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.0446785715009485,
       "step": 4
     },
     {
-      "completion_length": 423.7142857142857,
       "epoch": 2.0,
-      "grad_norm": 2.128019094467163,
-      "kl": 0.014370877237524837,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 0.11662305465766362,
-      "reward_std": 0.4137927921754973,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.12648019886442594,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.009857145005038806,
       "step": 6
     },
     {
-      "completion_length": 334.65625,
       "epoch": 2.7272727272727275,
-      "grad_norm": 4.863961696624756,
-      "kl": 0.003447060713369865,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 0.14125798782333732,
-      "reward_std": 0.3213486762251705,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.15613297326490283,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.014874998480081558,
       "step": 8
     },
     {
-      "completion_length": 371.32142857142856,
       "epoch": 3.3636363636363638,
-      "grad_norm": 14.972900390625,
-      "kl": 0.004161036673134991,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 0.12301080993243627,
-      "reward_std": 0.11305032031876701,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.07893937972507306,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.04407142847776413,
       "step": 10
     },
     {
-      "completion_length": 325.64285714285717,
       "epoch": 4.0,
-      "grad_norm": 2.4512171745300293,
-      "kl": 0.020109675616757677,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.03387148358992168,
-      "reward_std": 0.3182793009494032,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1364429108798504,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.10257142782211304,
       "step": 12
     },
     {
-      "completion_length": 283.40625,
       "epoch": 4.7272727272727275,
-      "grad_norm": 1.29380202293396,
-      "kl": 0.004838275992369745,
       "learning_rate": 1.4957614383675767e-07,
-      "loss": 0.0,
-      "reward": -0.008933736011385918,
-      "reward_std": 0.43898490769788623,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.09078501188196242,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.0997187471948564,
       "step": 14
     },
     {
-      "completion_length": 270.60714285714283,
       "epoch": 5.363636363636363,
-      "grad_norm": 10.69701862335205,
-      "kl": 0.002812435750716499,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.1390596723982266,
-      "reward_std": 0.2354189416925822,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1218810970229762,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.017178572714328766,
       "step": 16
     },
     {
-      "completion_length": 267.0357142857143,
       "epoch": 6.0,
-      "grad_norm": 13.328951835632324,
-      "kl": 0.010920295616545315,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 0.07982657477259636,
-      "reward_std": 0.05602395720779896,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.06754086140011038,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.012285714436854635,
       "step": 18
     },
     {
-      "completion_length": 281.34375,
       "epoch": 6.7272727272727275,
-      "grad_norm": 55.08346939086914,
-      "kl": 0.008347236493136734,
       "learning_rate": 3.4096741493194193e-09,
-      "loss": 0.0,
-      "reward": 0.2552994638681412,
-      "reward_std": 0.3212149632163346,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.1829244657419622,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.07237499766051769,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 6.644151551427058e-06,
-      "train_runtime": 260.4493,
-      "train_samples_per_second": 1.229,
-      "train_steps_per_second": 0.077
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 256.03125,
       "epoch": 0.7272727272727273,
+      "grad_norm": 31.732873916625977,
+      "kl": 0.027219712603255175,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.22654369450174272,
+      "reward_std": 0.23624277277849615,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.09826244146097451,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.06578125059604645,
       "step": 2
     },
     {
+      "completion_length": 472.0,
       "epoch": 1.3636363636363638,
+      "grad_norm": 2.866732597351074,
+      "kl": 0.0015056143082412226,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.40377093851566315,
+      "reward_std": 0.41681198882205145,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.27566379361918997,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.1281071432999202,
       "step": 4
     },
     {
+      "completion_length": 236.21428571428572,
       "epoch": 2.0,
+      "grad_norm": 5.039337635040283,
+      "kl": 0.011783749680034816,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.1461483080472265,
+      "reward_std": 0.1575677410832473,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.11043402233294078,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.03571428571428571,
       "step": 6
     },
     {
+      "completion_length": 345.40625,
       "epoch": 2.7272727272727275,
+      "grad_norm": 1.5869348049163818,
+      "kl": 0.0017466378849348985,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.2617756733670831,
+      "reward_std": 0.2813104931265116,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.1473381733521819,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.11443749675527215,
       "step": 8
     },
     {
+      "completion_length": 324.10714285714283,
       "epoch": 3.3636363636363638,
+      "grad_norm": 47.53855514526367,
+      "kl": 0.024071508935386583,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.09990422055125237,
+      "reward_std": 0.20037504698016814,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.12983279355934688,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.029928573540278842,
       "step": 10
     },
     {
+      "completion_length": 338.17857142857144,
       "epoch": 4.0,
+      "grad_norm": 1.561371922492981,
+      "kl": 0.00403046899009496,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.21423373531017983,
+      "reward_std": 0.27092336490750313,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.11312659989510264,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.1011071443291647,
       "step": 12
     },
     {
+      "completion_length": 335.625,
       "epoch": 4.7272727272727275,
+      "grad_norm": 8.200457572937012,
+      "kl": 0.2696073132538004,
       "learning_rate": 1.4957614383675767e-07,
+      "loss": 0.0003,
+      "reward": 0.15603619627654552,
+      "reward_std": 0.1304730805568397,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.10397369833663106,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.05206250073388219,
       "step": 14
     },
     {
+      "completion_length": 308.60714285714283,
       "epoch": 5.363636363636363,
+      "grad_norm": 41.2431640625,
+      "kl": 0.013686772053396063,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.2201648045863424,
+      "reward_std": 0.2531385842178549,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.1674862275166171,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.05267857228006635,
       "step": 16
     },
     {
+      "completion_length": 462.85714285714283,
       "epoch": 6.0,
+      "grad_norm": 39.8530387878418,
+      "kl": 0.01660439037784402,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.26164806687406134,
+      "reward_std": 0.2453045624175242,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.15982663471783912,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.10182142683437892,
       "step": 18
     },
     {
+      "completion_length": 238.0625,
       "epoch": 6.7272727272727275,
+      "grad_norm": 18.413917541503906,
+      "kl": 0.07556294070673175,
       "learning_rate": 3.4096741493194193e-09,
+      "loss": 0.0001,
+      "reward": 0.08847503876313567,
+      "reward_std": 0.20323701412416995,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.07966254581697285,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.008812498766928911,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 4.368964938521458e-05,
+      "train_runtime": 256.7768,
+      "train_samples_per_second": 1.246,
+      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 2,