AbSuLaTeZERO
/

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-sharp_robust_scorpion

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0d805f89ea99e012480d2f9fbc4304a51465207073ac07df81181c2a86053c0
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:122e249fed41a092cb24bb483a0b0f8c62c1e3e43bc170a767988cefe7623ea8
 size 35237104

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.594947296064021e-06,
-    "train_runtime": 618.1148,
-    "train_samples": 25,
-    "train_samples_per_second": 0.518,
-    "train_steps_per_second": 0.032
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.4479934097598743e-06,
+    "train_runtime": 565.5412,
+    "train_samples": 14,
+    "train_samples_per_second": 0.566,
+    "train_steps_per_second": 0.035
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.594947296064021e-06,
-    "train_runtime": 618.1148,
-    "train_samples": 25,
-    "train_samples_per_second": 0.518,
-    "train_steps_per_second": 0.032
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.4479934097598743e-06,
+    "train_runtime": 565.5412,
+    "train_samples": 14,
+    "train_samples_per_second": 0.566,
+    "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.96,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 457.625,
-      "epoch": 0.32,
-      "grad_norm": 1.8810465335845947,
-      "kl": 0.0,
       "learning_rate": 5e-07,
-      "loss": -0.0,
-      "reward": 0.8101887796074152,
-      "reward_std": 1.234118189662695,
-      "rewards/concensus_correctness_reward_func": 0.23143750056624413,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.43603252712637186,
-      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.1072812550701201,
       "step": 2
     },
     {
-      "completion_length": 375.34375,
-      "epoch": 0.64,
-      "grad_norm": 2.3144795894622803,
-      "kl": 0.0020675242703873664,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.3788159880787134,
-      "reward_std": 0.8981808386743069,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.30372224003076553,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.05946875037625432,
       "step": 4
     },
     {
-      "completion_length": 391.59375,
-      "epoch": 0.96,
-      "grad_norm": 1.8580169677734375,
-      "kl": 0.0023940674145706,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.6976623050868511,
-      "reward_std": 2.3990308605134487,
-      "rewards/concensus_correctness_reward_func": 0.7555000009015203,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.31988108437508345,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3097812421619892,
       "step": 6
     },
     {
-      "completion_length": 380.85,
-      "epoch": 1.16,
-      "grad_norm": 3.3336169719696045,
-      "kl": 0.004499810864217579,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 0.8028957717120647,
-      "reward_std": 1.108124667406082,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.2,
-      "rewards/question_recreation_reward_func": 0.4522957533597946,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.15060000121593475,
       "step": 8
     },
     {
-      "completion_length": 337.65625,
-      "epoch": 1.48,
-      "grad_norm": 3.252614736557007,
-      "kl": 0.002985563492984511,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.3339800471439958,
-      "reward_std": 0.8737633610144258,
-      "rewards/concensus_correctness_reward_func": 0.08687499910593033,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3125,
-      "rewards/question_recreation_reward_func": 0.4305425211787224,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3009374961256981,
       "step": 10
     },
     {
-      "completion_length": 377.375,
-      "epoch": 1.8,
-      "grad_norm": 2.970252752304077,
-      "kl": 0.0034950793997268192,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.1566417962312698,
-      "reward_std": 0.9431417435407639,
-      "rewards/concensus_correctness_reward_func": 0.17868749797344208,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.4060168005526066,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2438125004991889,
       "step": 12
     },
     {
-      "completion_length": 355.95,
-      "epoch": 2.0,
-      "grad_norm": 1.6471278667449951,
-      "kl": 0.00192966612521559,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.733365574479103,
-      "reward_std": 3.000819742679596,
-      "rewards/concensus_correctness_reward_func": 1.0,
-      "rewards/consensus_reward_func": 0.2,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.2,
-      "rewards/question_recreation_reward_func": 0.23181563019752502,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.1015500009059906,
       "step": 14
     },
     {
-      "completion_length": 326.3125,
-      "epoch": 2.32,
-      "grad_norm": 45.921607971191406,
-      "kl": 0.003888712788466364,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.5422186125069857,
-      "reward_std": 2.1607330702245235,
-      "rewards/concensus_correctness_reward_func": 0.7476250007748604,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.4476874154061079,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.22190624801442027,
       "step": 16
     },
     {
-      "completion_length": 388.03125,
-      "epoch": 2.64,
-      "grad_norm": 16.41090202331543,
-      "kl": 0.003598456416511908,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 0.40280223172158003,
-      "reward_std": 1.0480840834788978,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.32383347768336535,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.0008437512442469597,
       "step": 18
     },
     {
-      "completion_length": 334.9375,
-      "epoch": 2.96,
-      "grad_norm": 91.88982391357422,
-      "kl": 0.0034527214884292334,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 2.138397965580225,
-      "reward_std": 3.7664615884423256,
-      "rewards/concensus_correctness_reward_func": 1.359375,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.37561671156436205,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.21590626100078225,
       "step": 20
     },
     {
-      "epoch": 2.96,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 2.594947296064021e-06,
-      "train_runtime": 618.1148,
-      "train_samples_per_second": 0.518,
-      "train_steps_per_second": 0.032
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 287.3125,
+      "epoch": 0.5714285714285714,
+      "grad_norm": 2.8832011222839355,
+      "kl": 0.00394943701394368,
       "learning_rate": 5e-07,
+      "loss": 0.0,
+      "reward": 0.4581340132281184,
+      "reward_std": 0.5015503789763898,
+      "rewards/concensus_correctness_reward_func": 0.042249999940395355,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.16038401192054152,
+      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2398749990388751,
       "step": 2
     },
     {
+      "completion_length": 317.8333333333333,
+      "epoch": 1.0,
+      "grad_norm": 1.4717791080474854,
+      "kl": 0.0013749226927757263,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.3418625301371018,
+      "reward_std": 0.8531895938018957,
+      "rewards/concensus_correctness_reward_func": 0.0620000014702479,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3050708717977007,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.10854166342566411,
       "step": 4
     },
     {
+      "completion_length": 329.53125,
+      "epoch": 1.5714285714285714,
+      "grad_norm": 1.9261950254440308,
+      "kl": 0.0017050012611434795,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.3830822017043829,
+      "reward_std": 0.4381517507135868,
+      "rewards/concensus_correctness_reward_func": 0.042249999940395355,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.16058220900595188,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.18025000113993883,
       "step": 6
     },
     {
+      "completion_length": 356.25,
+      "epoch": 2.0,
+      "grad_norm": 1.444770336151123,
+      "kl": 0.001178021537877309,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.5916601779560248,
+      "reward_std": 0.7444767082730929,
+      "rewards/concensus_correctness_reward_func": 0.038333334028720856,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.31041015684604645,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.1595833276708921,
       "step": 8
     },
     {
+      "completion_length": 345.875,
+      "epoch": 2.571428571428571,
+      "grad_norm": 2.997659206390381,
+      "kl": 0.0028061752454959787,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.4578349385410547,
+      "reward_std": 0.7899111276492476,
+      "rewards/concensus_correctness_reward_func": 0.12674999237060547,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.2588036877568811,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.009781254804693162,
       "step": 10
     },
     {
+      "completion_length": 361.5833333333333,
+      "epoch": 3.0,
+      "grad_norm": 1.055799126625061,
+      "kl": 0.0021580825559794903,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.4883204946915309,
+      "reward_std": 0.9803517982363701,
+      "rewards/concensus_correctness_reward_func": 0.0620000014702479,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.34465381503105164,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.001666662593682607,
       "step": 12
     },
     {
+      "completion_length": 383.78125,
+      "epoch": 3.571428571428571,
+      "grad_norm": 3.506430149078369,
+      "kl": 0.0016388819349231198,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.5316155850887299,
+      "reward_std": 0.7287016687914729,
+      "rewards/concensus_correctness_reward_func": 0.04650000110268593,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3055530800484121,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.1170624983496964,
       "step": 14
     },
     {
+      "completion_length": 332.2083333333333,
+      "epoch": 4.0,
+      "grad_norm": 4.015366077423096,
+      "kl": 0.0015126650784319888,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.24088450521230698,
+      "reward_std": 0.6172617338597775,
+      "rewards/concensus_correctness_reward_func": 0.056333333253860474,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.13805115719636282,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.04650000482797623,
       "step": 16
     },
     {
+      "completion_length": 377.4375,
+      "epoch": 4.571428571428571,
+      "grad_norm": 3.1088175773620605,
+      "kl": 0.0013925813509558793,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.2849379200488329,
+      "reward_std": 0.5267030587419868,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.23284417716786265,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.05209375359117985,
       "step": 18
     },
     {
+      "completion_length": 420.0,
+      "epoch": 5.0,
+      "grad_norm": 1.3363821506500244,
+      "kl": 0.010974116526388874,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.2139842833081881,
+      "reward_std": 0.5290305142601331,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.24231762439012527,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.02833333859841029,
       "step": 20
     },
     {
+      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.4479934097598743e-06,
+      "train_runtime": 565.5412,
+      "train_samples_per_second": 0.566,
+      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {