0xtinuviel
/

Qwen2.5-72B-Instruct-bnb-4bit-Gensyn-Swarm-peaceful_meek_barracuda

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:262ece500cc4251f9a19620e90973d411f472ed738837a75e1e0e7608afa5bff
 size 842289128

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd35b8dac3d83677cdb5076be5c498774cec31385387e529adfd1edc8cda7da
 size 842289128

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.9028784410911613e-06,
-    "train_runtime": 5307.315,
     "train_samples": 9,
-    "train_samples_per_second": 0.015,
     "train_steps_per_second": 0.002
 }

 {
     "total_flos": 0.0,
+    "train_loss": 3.932331696887559e-06,
+    "train_runtime": 4767.9782,
     "train_samples": 9,
+    "train_samples_per_second": 0.017,
     "train_steps_per_second": 0.002
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.9028784410911613e-06,
-    "train_runtime": 5307.315,
     "train_samples": 9,
-    "train_samples_per_second": 0.015,
     "train_steps_per_second": 0.002
 }

 {
     "total_flos": 0.0,
+    "train_loss": 3.932331696887559e-06,
+    "train_runtime": 4767.9782,
     "train_samples": 9,
+    "train_samples_per_second": 0.017,
     "train_steps_per_second": 0.002
 }

trainer_state.json CHANGED Viewed

@@ -10,107 +10,107 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 379.75,
       "epoch": 0.8888888888888888,
-      "grad_norm": 0.38668835163116455,
-      "kl": 0.0023325650836341083,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 4.976108908653259,
-      "reward_std": 0.237999310484156,
-      "rewards/concensus_correctness_reward_func": 1.232625022996217,
-      "rewards/consensus_reward_func": 1.875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0,
-      "rewards/question_recreation_reward_func": 0.9676086902618408,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.09912500251084566,
       "step": 2
     },
     {
-      "completion_length": 321.1,
       "epoch": 1.4444444444444444,
-      "grad_norm": 0.3412216603755951,
-      "kl": 0.003170917648822069,
       "learning_rate": 4.415111107797445e-07,
       "loss": 0.0,
-      "reward": 4.068022871017456,
-      "reward_std": 0.10876496434211731,
-      "rewards/concensus_correctness_reward_func": 0.6504000253975392,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.4,
-      "rewards/question_recreation_reward_func": 0.9951226830482482,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.022499996423721313,
       "step": 4
     },
     {
-      "completion_length": 399.4,
       "epoch": 2.0,
-      "grad_norm": 0.23032891750335693,
-      "kl": 0.0017182762967422605,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
-      "reward": 5.452566385269165,
-      "reward_std": 0.1259467562660575,
-      "rewards/concensus_correctness_reward_func": 1.414800015091896,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.2,
-      "rewards/question_recreation_reward_func": 0.9982662200927734,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.16050000637769699,
       "step": 6
     },
     {
-      "completion_length": 375.9375,
       "epoch": 2.888888888888889,
-      "grad_norm": 0.4123876690864563,
-      "kl": 0.002100028141285293,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
-      "reward": 4.496386170387268,
-      "reward_std": 0.060892102657817304,
-      "rewards/concensus_correctness_reward_func": 0.8740000152029097,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.75,
-      "rewards/question_recreation_reward_func": 0.9963235333561897,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.12393749598413706,
       "step": 8
     },
     {
-      "completion_length": 340.5,
       "epoch": 3.4444444444444446,
-      "grad_norm": 0.3251875340938568,
-      "kl": 0.0023836970096454023,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
-      "reward": 4.930327272415161,
-      "reward_std": 0.06378106474876404,
-      "rewards/concensus_correctness_reward_func": 1.1760000318288804,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.8,
-      "rewards/question_recreation_reward_func": 0.9990267753601074,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.044699998944997786,
       "step": 10
     },
     {
       "epoch": 3.4444444444444446,
       "step": 10,
       "total_flos": 0.0,
-      "train_loss": 2.9028784410911613e-06,
-      "train_runtime": 5307.315,
-      "train_samples_per_second": 0.015,
       "train_steps_per_second": 0.002
     }
   ],

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 350.5,
       "epoch": 0.8888888888888888,
+      "grad_norm": 0.26594895124435425,
+      "kl": 0.001963111659279093,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 7.284998536109924,
+      "reward_std": 0.037513982970267534,
+      "rewards/concensus_correctness_reward_func": 3.5592499980702996,
+      "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.9984983280301094,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.022750002099201083,
       "step": 2
     },
     {
+      "completion_length": 309.4,
       "epoch": 1.4444444444444444,
+      "grad_norm": 0.5197527408599854,
+      "kl": 0.0027932931669056417,
       "learning_rate": 4.415111107797445e-07,
       "loss": 0.0,
+      "reward": 4.174948835372925,
+      "reward_std": 0.08027855101972818,
+      "rewards/concensus_correctness_reward_func": 0.7891999736428261,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.4,
+      "rewards/question_recreation_reward_func": 0.9412487030029297,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.04449999965727329,
       "step": 4
     },
     {
+      "completion_length": 348.5,
       "epoch": 2.0,
+      "grad_norm": 0.15567967295646667,
+      "kl": 0.002238281024619937,
       "learning_rate": 2.934120444167326e-07,
       "loss": 0.0,
+      "reward": 8.774999618530273,
+      "reward_std": 0.14355496428906916,
+      "rewards/concensus_correctness_reward_func": 5.032800018787384,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8,
+      "rewards/question_recreation_reward_func": 0.9194996118545532,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.022700001299381257,
       "step": 6
     },
     {
+      "completion_length": 332.875,
       "epoch": 2.888888888888889,
+      "grad_norm": 0.412031352519989,
+      "kl": 0.0025081908679567277,
       "learning_rate": 1.2500000000000005e-07,
       "loss": 0.0,
+      "reward": 6.661080002784729,
+      "reward_std": 0.16880523064173758,
+      "rewards/concensus_correctness_reward_func": 3.2429999904707074,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5,
+      "rewards/question_recreation_reward_func": 0.8998925015330315,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.01818749774247408,
       "step": 8
     },
     {
+      "completion_length": 336.8,
       "epoch": 3.4444444444444446,
+      "grad_norm": 0.32939448952674866,
+      "kl": 0.0021914205979555847,
       "learning_rate": 1.507684480352292e-08,
       "loss": 0.0,
+      "reward": 4.9426099300384525,
+      "reward_std": 0.11483407691121102,
+      "rewards/concensus_correctness_reward_func": 1.1760000169277192,
       "rewards/consensus_reward_func": 2.0,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.8,
+      "rewards/question_recreation_reward_func": 0.9906099438667297,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.024000001326203346,
       "step": 10
     },
     {
       "epoch": 3.4444444444444446,
       "step": 10,
       "total_flos": 0.0,
+      "train_loss": 3.932331696887559e-06,
+      "train_runtime": 4767.9782,
+      "train_samples_per_second": 0.017,
       "train_steps_per_second": 0.002
     }
   ],