End of training

Browse files

Files changed (5) hide show

README.md +2 -2
all_results.json +5 -5
model.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +283 -90

README.md CHANGED Viewed

@@ -4,11 +4,11 @@ library_name: transformers
 model_name: Qwen2.5-0.5B-Instruct-Gensyn-Swarm-quick_timid_frog
 tags:
 - generated_from_trainer
-- rl-swarm
-- gensyn
 - grpo
 - I am quick timid frog
 - trl
 licence: license
 ---

 model_name: Qwen2.5-0.5B-Instruct-Gensyn-Swarm-quick_timid_frog
 tags:
 - generated_from_trainer
 - grpo
+- gensyn
 - I am quick timid frog
 - trl
+- rl-swarm
 licence: license
 ---

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0874896764755249,
-    "train_runtime": 937.823,
-    "train_samples": 5,
-    "train_samples_per_second": 0.171,
-    "train_steps_per_second": 0.021
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.15644574165344238,
+    "train_runtime": 1523.8731,
+    "train_samples": 79,
+    "train_samples_per_second": 0.105,
+    "train_steps_per_second": 0.013
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:713264c96749c24604d08d142b497451f9725614fb94d291a0e5e9dee6936d71
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:24593988fb48726d4a5db5e2e37fe74d6a678e8b4785c2c95c767b747a674505
 size 1976163472

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0874896764755249,
-    "train_runtime": 937.823,
-    "train_samples": 5,
-    "train_samples_per_second": 0.171,
-    "train_steps_per_second": 0.021
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.15644574165344238,
+    "train_runtime": 1523.8731,
+    "train_samples": 79,
+    "train_samples_per_second": 0.105,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.8,
   "eval_steps": 500,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15,22 +15,22 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.25,
-      "completions/max_length": 938.0,
-      "completions/max_terminated_length": 865.5,
-      "completions/mean_length": 656.125,
-      "completions/mean_terminated_length": 580.375,
-      "completions/min_length": 287.5,
-      "completions/min_terminated_length": 287.5,
-      "epoch": 1.8,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.378174066543579,
-      "kl": 0.00024694142030057264,
       "learning_rate": 5e-07,
-      "loss": -0.0692,
-      "num_tokens": 14594.0,
-      "reward": -0.09812777116894722,
-      "reward_std": 0.16612516529858112,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
@@ -39,14 +39,14 @@
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
-      "rewards/question_recreation_reward_func/mean": 0.01712222769856453,
-      "rewards/question_recreation_reward_func/std": 0.01072776922956109,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "rewards/strict_format_reward_func/std": 0.0,
-      "rewards/xmlcount_reward_func/mean": -0.11524999886751175,
-      "rewards/xmlcount_reward_func/std": 0.32597625255584717,
       "step": 2
     },
     {
@@ -57,20 +57,20 @@
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.125,
       "completions/max_length": 1024.0,
-      "completions/max_terminated_length": 868.0,
-      "completions/mean_length": 470.0625,
-      "completions/mean_terminated_length": 390.9285888671875,
-      "completions/min_length": 60.0,
-      "completions/min_terminated_length": 60.0,
-      "epoch": 3.8,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 5.8317060470581055,
-      "kl": 0.00036002036267746007,
       "learning_rate": 4.864543104251586e-07,
-      "loss": 0.136,
-      "num_tokens": 26211.0,
-      "reward": 0.07699444144964218,
-      "reward_std": 0.030455347150564194,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
@@ -79,14 +79,14 @@
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
-      "rewards/question_recreation_reward_func/mean": 0.07699444144964218,
-      "rewards/question_recreation_reward_func/std": 0.04443136602640152,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "rewards/strict_format_reward_func/std": 0.0,
-      "rewards/xmlcount_reward_func/mean": 0.0,
-      "rewards/xmlcount_reward_func/std": 0.0,
       "step": 4
     },
     {
@@ -96,21 +96,21 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.125,
-      "completions/max_length": 1024.0,
-      "completions/max_terminated_length": 1003.5,
-      "completions/mean_length": 548.625,
-      "completions/mean_terminated_length": 480.7143096923828,
-      "completions/min_length": 134.0,
-      "completions/min_terminated_length": 134.0,
-      "epoch": 5.8,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 3.393465518951416,
-      "kl": 0.00036590506533684675,
       "learning_rate": 4.472851273490984e-07,
-      "loss": 0.1056,
-      "num_tokens": 39085.0,
-      "reward": 0.052806172519922256,
-      "reward_std": 0.017434499226510525,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
@@ -119,8 +119,8 @@
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
-      "rewards/question_recreation_reward_func/mean": 0.052806172519922256,
-      "rewards/question_recreation_reward_func/std": 0.018543646670877934,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
@@ -135,22 +135,22 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 900.0,
-      "completions/max_terminated_length": 900.0,
-      "completions/mean_length": 458.8125,
-      "completions/mean_terminated_length": 458.8125,
-      "completions/min_length": 114.0,
-      "completions/min_terminated_length": 114.0,
-      "epoch": 7.8,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 4.418057918548584,
-      "kl": 0.0005609585878119105,
       "learning_rate": 3.867370395306068e-07,
-      "loss": 0.0939,
-      "num_tokens": 50522.0,
-      "reward": 0.024604666978120804,
-      "reward_std": 0.009030941408127546,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
@@ -159,8 +159,8 @@
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
-      "rewards/question_recreation_reward_func/mean": 0.024604666978120804,
-      "rewards/question_recreation_reward_func/std": 0.011531331343576312,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
@@ -176,21 +176,21 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0625,
-      "completions/max_length": 928.5,
-      "completions/max_terminated_length": 824.0,
-      "completions/mean_length": 451.25,
-      "completions/mean_terminated_length": 412.8482208251953,
-      "completions/min_length": 56.0,
-      "completions/min_terminated_length": 56.0,
-      "epoch": 9.8,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 4.358504772186279,
-      "kl": 0.0006784129072912037,
       "learning_rate": 3.1137137178519977e-07,
-      "loss": 0.1711,
-      "num_tokens": 61838.0,
-      "reward": 0.08084426820278168,
-      "reward_std": 0.05193536356091499,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
@@ -199,8 +199,8 @@
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
-      "rewards/question_recreation_reward_func/mean": 0.08084426820278168,
-      "rewards/question_recreation_reward_func/std": 0.08748885244131088,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
@@ -210,19 +210,212 @@
       "step": 10
     },
     {
-      "epoch": 9.8,
-      "step": 10,
       "total_flos": 0.0,
-      "train_loss": 0.0874896764755249,
-      "train_runtime": 937.823,
-      "train_samples_per_second": 0.171,
-      "train_steps_per_second": 0.021
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
-  "num_input_tokens_seen": 61838,
-  "num_train_epochs": 10,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9620253164556962,
   "eval_steps": 500,
+  "global_step": 19,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 931.0,
+      "completions/max_terminated_length": 819.5,
+      "completions/mean_length": 412.1875,
+      "completions/mean_terminated_length": 329.5833435058594,
+      "completions/min_length": 87.0,
+      "completions/min_terminated_length": 87.0,
+      "epoch": 0.10126582278481013,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 5.04105806350708,
+      "kl": -5.448857809398078e-09,
       "learning_rate": 5e-07,
+      "loss": 0.1398,
+      "num_tokens": 10691.0,
+      "reward": 0.01983704511076212,
+      "reward_std": 0.008039223263040185,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.01983704511076212,
+      "rewards/question_recreation_reward_func/std": 0.012273336760699749,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
       "step": 2
     },
     {
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.125,
       "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 569.0,
+      "completions/mean_length": 401.1875,
+      "completions/mean_terminated_length": 312.21429443359375,
+      "completions/min_length": 53.5,
+      "completions/min_terminated_length": 53.5,
+      "epoch": 0.20253164556962025,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.7304916381835938,
+      "kl": 0.0002279730260852375,
       "learning_rate": 4.864543104251586e-07,
+      "loss": 0.1637,
+      "num_tokens": 21206.0,
+      "reward": -0.1395124290138483,
+      "reward_std": 0.21926994435489178,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.010925075970590115,
+      "rewards/question_recreation_reward_func/std": 0.009428349556401372,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": -0.15043750405311584,
+      "rewards/xmlcount_reward_func/std": 0.4255015254020691,
       "step": 4
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.125,
+      "completions/max_length": 887.0,
+      "completions/max_terminated_length": 672.5,
+      "completions/mean_length": 362.0,
+      "completions/mean_terminated_length": 257.3125,
+      "completions/min_length": 12.5,
+      "completions/min_terminated_length": 12.5,
+      "epoch": 0.3037974683544304,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 7.230990886688232,
+      "kl": 0.0008080850275291596,
       "learning_rate": 4.472851273490984e-07,
+      "loss": 0.2574,
+      "num_tokens": 31094.0,
+      "reward": 0.022412247024476528,
+      "reward_std": 0.011643366422504187,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.022412247024476528,
+      "rewards/question_recreation_reward_func/std": 0.01874966360628605,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 862.5,
+      "completions/max_terminated_length": 702.5,
+      "completions/mean_length": 461.6875,
+      "completions/mean_terminated_length": 357.3249969482422,
+      "completions/min_length": 67.0,
+      "completions/min_terminated_length": 67.0,
+      "epoch": 0.4050632911392405,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.539825677871704,
+      "kl": 0.0011349972373864148,
       "learning_rate": 3.867370395306068e-07,
+      "loss": 0.2018,
+      "num_tokens": 42577.0,
+      "reward": 0.10562402009963989,
+      "reward_std": 0.061309706419706345,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.10562402009963989,
+      "rewards/question_recreation_reward_func/std": 0.05985743924975395,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 664.0,
+      "completions/max_terminated_length": 436.5,
+      "completions/mean_length": 222.4375,
+      "completions/mean_terminated_length": 173.0357208251953,
+      "completions/min_length": 4.5,
+      "completions/min_terminated_length": 4.5,
+      "epoch": 0.5063291139240507,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 13.28281021118164,
+      "kl": 0.0055584801666554995,
       "learning_rate": 3.1137137178519977e-07,
+      "loss": 0.0764,
+      "num_tokens": 50232.0,
+      "reward": 0.05675883777439594,
+      "reward_std": 0.017147527541965246,
       "rewards/concensus_correctness_reward_func/mean": 0.0,
       "rewards/concensus_correctness_reward_func/std": 0.0,
       "rewards/consensus_reward_func/mean": 0.0,
       "rewards/cumulative_reward_2/std": 0.0,
       "rewards/final_correctness_reward_func/mean": 0.0,
       "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.05675883777439594,
+      "rewards/question_recreation_reward_func/std": 0.02832796238362789,
       "rewards/soft_format_reward_func/mean": 0.0,
       "rewards/soft_format_reward_func/std": 0.0,
       "rewards/strict_format_reward_func/mean": 0.0,
       "step": 10
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 681.5,
+      "completions/max_terminated_length": 319.0,
+      "completions/mean_length": 298.25,
+      "completions/mean_terminated_length": 195.8541717529297,
+      "completions/min_length": 73.5,
+      "completions/min_terminated_length": 73.5,
+      "epoch": 0.6075949367088608,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 8.755450248718262,
+      "kl": 0.0035302894830238074,
+      "learning_rate": 2.2935516363191693e-07,
+      "loss": 0.2667,
+      "num_tokens": 59100.0,
+      "reward": 0.015352241694927216,
+      "reward_std": 0.0057732411660254,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.015352241694927216,
+      "rewards/question_recreation_reward_func/std": 0.006488756742328405,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 991.0,
+      "completions/max_terminated_length": 756.5,
+      "completions/mean_length": 509.4375,
+      "completions/mean_terminated_length": 421.9583435058594,
+      "completions/min_length": 36.5,
+      "completions/min_terminated_length": 36.5,
+      "epoch": 0.7088607594936709,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 4.25427770614624,
+      "kl": 0.001760676721460186,
+      "learning_rate": 1.4957614383675767e-07,
+      "loss": 0.2682,
+      "num_tokens": 71347.0,
+      "reward": -0.05695461109280586,
+      "reward_std": 0.22896763868629932,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.05810788832604885,
+      "rewards/question_recreation_reward_func/std": 0.04673689045011997,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": -0.11506249755620956,
+      "rewards/xmlcount_reward_func/std": 0.3688294589519501,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 214.0,
+      "completions/max_terminated_length": 214.0,
+      "completions/mean_length": 103.6875,
+      "completions/mean_terminated_length": 103.6875,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.810126582278481,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 12.23747444152832,
+      "kl": 0.007723030605120584,
+      "learning_rate": 8.067960709356478e-08,
+      "loss": 0.0009,
+      "num_tokens": 77102.0,
+      "reward": 0.17531824856996536,
+      "reward_std": 0.03592286352068186,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.17531824856996536,
+      "rewards/question_recreation_reward_func/std": 0.045727355405688286,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 824.0,
+      "completions/max_terminated_length": 530.5,
+      "completions/mean_length": 194.3125,
+      "completions/mean_terminated_length": 137.34821701049805,
+      "completions/min_length": 3.5,
+      "completions/min_terminated_length": 3.5,
+      "epoch": 0.9113924050632911,
+      "frac_reward_zero_std": 0.125,
+      "grad_norm": 9.846582412719727,
+      "kl": 0.006351641248329543,
+      "learning_rate": 3.013156219837776e-08,
+      "loss": 0.0552,
+      "num_tokens": 84307.0,
+      "reward": 0.13931425474584103,
+      "reward_std": 0.058048633858561516,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.13931425474584103,
+      "rewards/question_recreation_reward_func/std": 0.15117722004652023,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 565.0,
+      "completions/mean_length": 665.25,
+      "completions/mean_terminated_length": 306.5,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.9620253164556962,
+      "frac_reward_zero_std": 0.0,
+      "kl": 0.002655731455888599,
+      "num_tokens": 91677.0,
+      "reward": 0.012782756239175797,
+      "reward_std": 0.005160772241652012,
+      "rewards/concensus_correctness_reward_func/mean": 0.0,
+      "rewards/concensus_correctness_reward_func/std": 0.0,
+      "rewards/consensus_reward_func/mean": 0.0,
+      "rewards/consensus_reward_func/std": 0.0,
+      "rewards/cumulative_reward_2/mean": 0.0,
+      "rewards/cumulative_reward_2/std": 0.0,
+      "rewards/final_correctness_reward_func/mean": 0.0,
+      "rewards/final_correctness_reward_func/std": 0.0,
+      "rewards/question_recreation_reward_func/mean": 0.012782756239175797,
+      "rewards/question_recreation_reward_func/std": 0.008415077812969685,
+      "rewards/soft_format_reward_func/mean": 0.0,
+      "rewards/soft_format_reward_func/std": 0.0,
+      "rewards/strict_format_reward_func/mean": 0.0,
+      "rewards/strict_format_reward_func/std": 0.0,
+      "rewards/xmlcount_reward_func/mean": 0.0,
+      "rewards/xmlcount_reward_func/std": 0.0,
+      "step": 19,
       "total_flos": 0.0,
+      "train_loss": 0.15644574165344238,
+      "train_runtime": 1523.8731,
+      "train_samples_per_second": 0.105,
+      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
+  "num_input_tokens_seen": 91677,
+  "num_train_epochs": 1,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {