diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,38443 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.951603498542275,
+  "eval_steps": 500,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2606.0,
+      "completions/mean_length": 587.7176513671875,
+      "completions/mean_terminated_length": 536.0668334960938,
+      "completions/min_length": 22.0,
+      "completions/min_terminated_length": 22.0,
+      "epoch": 0.009329446064139942,
+      "grad_norm": 0.1598890870809555,
+      "learning_rate": 1e-06,
+      "loss": 0.003,
+      "num_tokens": 559851.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.27369576692581177,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943605065345764,
+      "step": 1
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2699.0,
+      "completions/mean_length": 614.9989013671875,
+      "completions/mean_terminated_length": 543.6343994140625,
+      "completions/min_length": 15.0,
+      "completions/min_terminated_length": 15.0,
+      "epoch": 0.018658892128279883,
+      "grad_norm": 0.15343371033668518,
+      "learning_rate": 1e-06,
+      "loss": 0.0051,
+      "num_tokens": 1124418.0,
+      "reward": 0.4732142984867096,
+      "reward_std": 0.24653121829032898,
+      "rewards/verify_math_reward/mean": 0.4732142984867096,
+      "rewards/verify_math_reward/std": 0.4995608925819397,
+      "step": 2
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2975.0,
+      "completions/mean_length": 568.5892944335938,
+      "completions/mean_terminated_length": 536.8108520507812,
+      "completions/min_length": 63.0,
+      "completions/min_terminated_length": 63.0,
+      "epoch": 0.027988338192419825,
+      "grad_norm": 0.14869461953639984,
+      "learning_rate": 1e-06,
+      "loss": -0.0066,
+      "num_tokens": 1699650.0,
+      "reward": 0.515625,
+      "reward_std": 0.22965605556964874,
+      "rewards/verify_math_reward/mean": 0.515625,
+      "rewards/verify_math_reward/std": 0.5000349283218384,
+      "step": 3
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 549.2511596679688,
+      "completions/mean_terminated_length": 525.3404541015625,
+      "completions/min_length": 75.0,
+      "completions/min_terminated_length": 75.0,
+      "epoch": 0.037317784256559766,
+      "grad_norm": 0.16647283732891083,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 2246635.0,
+      "reward": 0.5390625,
+      "reward_std": 0.24555623531341553,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3643.0,
+      "completions/mean_length": 586.9765625,
+      "completions/mean_terminated_length": 547.371337890625,
+      "completions/min_length": 14.0,
+      "completions/min_terminated_length": 14.0,
+      "epoch": 0.04664723032069971,
+      "grad_norm": 0.14486758410930634,
+      "learning_rate": 1e-06,
+      "loss": 0.005,
+      "num_tokens": 2815174.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.2665913701057434,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3903.0,
+      "completions/mean_length": 618.943115234375,
+      "completions/mean_terminated_length": 551.6962280273438,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 0.05597667638483965,
+      "grad_norm": 0.13758042454719543,
+      "learning_rate": 1e-06,
+      "loss": 0.0065,
+      "num_tokens": 3390539.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.24333493411540985,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2265.0,
+      "completions/mean_length": 564.9498291015625,
+      "completions/mean_terminated_length": 521.06103515625,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.1523338407278061,
+      "learning_rate": 1e-06,
+      "loss": -0.0124,
+      "num_tokens": 3950134.0,
+      "reward": 0.5223214626312256,
+      "reward_std": 0.24505950510501862,
+      "rewards/verify_math_reward/mean": 0.5223214030265808,
+      "rewards/verify_math_reward/std": 0.49978047609329224,
+      "step": 7
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3532.0,
+      "completions/mean_length": 633.7332763671875,
+      "completions/mean_terminated_length": 590.699462890625,
+      "completions/min_length": 87.0,
+      "completions/min_terminated_length": 87.0,
+      "epoch": 0.07463556851311953,
+      "grad_norm": 0.12796993553638458,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 4547295.0,
+      "reward": 0.512276828289032,
+      "reward_std": 0.24619702994823456,
+      "rewards/verify_math_reward/mean": 0.5122767686843872,
+      "rewards/verify_math_reward/std": 0.500128448009491,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3821.0,
+      "completions/mean_length": 659.078125,
+      "completions/mean_terminated_length": 568.5292358398438,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 0.08396501457725948,
+      "grad_norm": 0.13264265656471252,
+      "learning_rate": 1e-06,
+      "loss": -0.0055,
+      "num_tokens": 5132597.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.2254144549369812,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 9
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3970.0,
+      "completions/mean_length": 606.78125,
+      "completions/mean_terminated_length": 563.4124145507812,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.09329446064139942,
+      "grad_norm": 0.128464475274086,
+      "learning_rate": 1e-06,
+      "loss": 0.0016,
+      "num_tokens": 5726457.0,
+      "reward": 0.5,
+      "reward_std": 0.22939391434192657,
+      "rewards/verify_math_reward/mean": 0.5,
+      "rewards/verify_math_reward/std": 0.5002792477607727,
+      "step": 10
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3976.0,
+      "completions/mean_length": 646.8995971679688,
+      "completions/mean_terminated_length": 584.1885986328125,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.10262390670553936,
+      "grad_norm": 0.10745050758123398,
+      "learning_rate": 1e-06,
+      "loss": 0.0094,
+      "num_tokens": 6324887.0,
+      "reward": 0.4821428656578064,
+      "reward_std": 0.1643511950969696,
+      "rewards/verify_math_reward/mean": 0.4821428656578064,
+      "rewards/verify_math_reward/std": 0.4999600946903229,
+      "step": 11
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1931.0,
+      "completions/mean_length": 592.1886596679688,
+      "completions/mean_terminated_length": 524.42431640625,
+      "completions/min_length": 65.0,
+      "completions/min_terminated_length": 65.0,
+      "epoch": 0.1119533527696793,
+      "grad_norm": 0.11800146847963333,
+      "learning_rate": 1e-06,
+      "loss": 0.0057,
+      "num_tokens": 6888336.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.17595963180065155,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 626.4185791015625,
+      "completions/mean_terminated_length": 579.3201904296875,
+      "completions/min_length": 17.0,
+      "completions/min_terminated_length": 17.0,
+      "epoch": 0.12128279883381925,
+      "grad_norm": 0.1384453922510147,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 7488447.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.25145965814590454,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 13
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2343.0,
+      "completions/mean_length": 583.0848388671875,
+      "completions/mean_terminated_length": 519.213623046875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.13699589669704437,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 8041467.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.2198163866996765,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4009.0,
+      "completions/mean_length": 631.1886596679688,
+      "completions/mean_terminated_length": 580.1777954101562,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 0.13994169096209913,
+      "grad_norm": 0.11382047086954117,
+      "learning_rate": 1e-06,
+      "loss": 0.006,
+      "num_tokens": 8647228.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.19178421795368195,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 15
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 608.078125,
+      "completions/mean_terminated_length": 560.7307739257812,
+      "completions/min_length": 17.0,
+      "completions/min_terminated_length": 17.0,
+      "epoch": 0.14927113702623906,
+      "grad_norm": 0.11619266122579575,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 9234378.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.1831049621105194,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.49828118085861206,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2097.0,
+      "completions/mean_length": 586.5346069335938,
+      "completions/mean_terminated_length": 554.9177856445312,
+      "completions/min_length": 44.0,
+      "completions/min_terminated_length": 44.0,
+      "epoch": 0.158600583090379,
+      "grad_norm": 0.11830838024616241,
+      "learning_rate": 1e-06,
+      "loss": 0.0244,
+      "num_tokens": 9812769.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.21124452352523804,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 17
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3639.0,
+      "completions/mean_length": 641.7879638671875,
+      "completions/mean_terminated_length": 562.9246215820312,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 0.16793002915451896,
+      "grad_norm": 0.12457925081253052,
+      "learning_rate": 1e-06,
+      "loss": 0.0153,
+      "num_tokens": 10387123.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.21065111458301544,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4090.0,
+      "completions/mean_length": 593.310302734375,
+      "completions/mean_terminated_length": 557.7699584960938,
+      "completions/min_length": 2.0,
+      "completions/min_terminated_length": 2.0,
+      "epoch": 0.1772594752186589,
+      "grad_norm": 0.14370805025100708,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 10976321.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.274520605802536,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 19
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3708.0,
+      "completions/mean_length": 574.005615234375,
+      "completions/mean_terminated_length": 530.2293701171875,
+      "completions/min_length": 11.0,
+      "completions/min_terminated_length": 11.0,
+      "epoch": 0.18658892128279883,
+      "grad_norm": 0.12871408462524414,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 11536742.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.2054648995399475,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 20
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4067.0,
+      "completions/mean_length": 589.8058471679688,
+      "completions/mean_terminated_length": 521.9954223632812,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.154408261179924,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 12077768.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.17671848833560944,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 21
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 634.7444458007812,
+      "completions/mean_terminated_length": 591.7232055664062,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 0.20524781341107873,
+      "grad_norm": 0.10341142117977142,
+      "learning_rate": 1e-06,
+      "loss": 0.0198,
+      "num_tokens": 12696875.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.17517825961112976,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936988949775696,
+      "step": 22
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3575.0,
+      "completions/mean_length": 624.786865234375,
+      "completions/mean_terminated_length": 561.673828125,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.21457725947521866,
+      "grad_norm": 0.12730124592781067,
+      "learning_rate": 1e-06,
+      "loss": -0.0083,
+      "num_tokens": 13275484.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.20564965903759003,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 23
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2504.0,
+      "completions/mean_length": 621.6517944335938,
+      "completions/mean_terminated_length": 570.5005493164062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.2239067055393586,
+      "grad_norm": 0.11972032487392426,
+      "learning_rate": 1e-06,
+      "loss": 0.02,
+      "num_tokens": 13863532.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.21004310250282288,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 24
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4090.0,
+      "completions/mean_length": 671.953125,
+      "completions/mean_terminated_length": 593.7785034179688,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 0.23323615160349853,
+      "grad_norm": 0.1088431179523468,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 14468914.0,
+      "reward": 0.5390625,
+      "reward_std": 0.18656732141971588,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 25
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 632.453125,
+      "completions/mean_terminated_length": 557.4161987304688,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 0.2425655976676385,
+      "grad_norm": 0.12452881783246994,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 15045240.0,
+      "reward": 0.5055803656578064,
+      "reward_std": 0.193512424826622,
+      "rewards/verify_math_reward/mean": 0.5055803656578064,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 26
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2228.0,
+      "completions/mean_length": 597.177490234375,
+      "completions/mean_terminated_length": 557.6873779296875,
+      "completions/min_length": 85.0,
+      "completions/min_terminated_length": 85.0,
+      "epoch": 0.2518950437317784,
+      "grad_norm": 0.12795555591583252,
+      "learning_rate": 1e-06,
+      "loss": 0.0071,
+      "num_tokens": 15627471.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.2006830871105194,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 27
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2195.0,
+      "completions/mean_length": 565.5256958007812,
+      "completions/mean_terminated_length": 541.7247314453125,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.1300457864999771,
+      "learning_rate": 1e-06,
+      "loss": 0.0192,
+      "num_tokens": 16199598.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.21666006743907928,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 28
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2955.0,
+      "completions/mean_length": 611.7076416015625,
+      "completions/mean_terminated_length": 564.4095458984375,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 0.2705539358600583,
+      "grad_norm": 0.12154428660869598,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 16787520.0,
+      "reward": 0.5055803656578064,
+      "reward_std": 0.1938129961490631,
+      "rewards/verify_math_reward/mean": 0.5055803656578064,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 29
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 557.9397583007812,
+      "completions/mean_terminated_length": 522.0405883789062,
+      "completions/min_length": 53.0,
+      "completions/min_terminated_length": 53.0,
+      "epoch": 0.27988338192419826,
+      "grad_norm": 0.1334248185157776,
+      "learning_rate": 1e-06,
+      "loss": 0.0164,
+      "num_tokens": 17345898.0,
+      "reward": 0.5546875,
+      "reward_std": 0.20459476113319397,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 30
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3644.0,
+      "completions/mean_length": 652.2611694335938,
+      "completions/mean_terminated_length": 605.5136108398438,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 0.2892128279883382,
+      "grad_norm": 0.10987009853124619,
+      "learning_rate": 1e-06,
+      "loss": 0.0149,
+      "num_tokens": 17966052.0,
+      "reward": 0.5390625,
+      "reward_std": 0.19181953370571136,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 31
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2406.0,
+      "completions/mean_length": 593.5580444335938,
+      "completions/mean_terminated_length": 558.020263671875,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.29854227405247813,
+      "grad_norm": 0.14382220804691315,
+      "learning_rate": 1e-06,
+      "loss": 0.0002,
+      "num_tokens": 18551856.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.2547265291213989,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 32
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.004464285714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3736.0,
+      "completions/mean_length": 534.732177734375,
+      "completions/mean_terminated_length": 518.7623291015625,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 0.30787172011661806,
+      "grad_norm": 0.12861202657222748,
+      "learning_rate": 1e-06,
+      "loss": 0.0108,
+      "num_tokens": 19101128.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.2000095248222351,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756613254547,
+      "step": 33
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3980.0,
+      "completions/mean_length": 619.2623291015625,
+      "completions/mean_terminated_length": 560.0670166015625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.317201166180758,
+      "grad_norm": 0.13320207595825195,
+      "learning_rate": 1e-06,
+      "loss": 0.0014,
+      "num_tokens": 19677939.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.20632296800613403,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 34
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3976.0,
+      "completions/mean_length": 621.6049194335938,
+      "completions/mean_terminated_length": 574.4412231445312,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.12315374612808228,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 20269401.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.20899002254009247,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 35
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2104.0,
+      "completions/mean_length": 623.90625,
+      "completions/mean_terminated_length": 564.7900390625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 0.3358600583090379,
+      "grad_norm": 0.13047567009925842,
+      "learning_rate": 1e-06,
+      "loss": -0.0014,
+      "num_tokens": 20859805.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.2144019603729248,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 36
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3519.0,
+      "completions/mean_length": 609.5,
+      "completions/mean_terminated_length": 558.1698608398438,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 0.34518950437317786,
+      "grad_norm": 0.12048663944005966,
+      "learning_rate": 1e-06,
+      "loss": 0.0183,
+      "num_tokens": 21429397.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.192121222615242,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 37
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 603.1495971679688,
+      "completions/mean_terminated_length": 559.735595703125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 0.3545189504373178,
+      "grad_norm": 0.1148107573390007,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 22014099.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.17678125202655792,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 38
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2729.0,
+      "completions/mean_length": 590.3125,
+      "completions/mean_terminated_length": 546.739013671875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.3638483965014577,
+      "grad_norm": 0.13146887719631195,
+      "learning_rate": 1e-06,
+      "loss": 0.0206,
+      "num_tokens": 22593827.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.20670093595981598,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 39
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2003.0,
+      "completions/mean_length": 568.5558471679688,
+      "completions/mean_terminated_length": 532.7643432617188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.37317784256559766,
+      "grad_norm": 0.12316915392875671,
+      "learning_rate": 1e-06,
+      "loss": 0.0002,
+      "num_tokens": 23168741.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.1902451068162918,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2972.0,
+      "completions/mean_length": 671.5558471679688,
+      "completions/mean_terminated_length": 593.3721313476562,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 0.3825072886297376,
+      "grad_norm": 0.11921396851539612,
+      "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 23790319.0,
+      "reward": 0.4977678656578064,
+      "reward_std": 0.22278764843940735,
+      "rewards/verify_math_reward/mean": 0.4977678656578064,
+      "rewards/verify_math_reward/std": 0.5002742409706116,
+      "step": 41
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 627.9442138671875,
+      "completions/mean_terminated_length": 552.8095703125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.11759841442108154,
+      "learning_rate": 1e-06,
+      "loss": 0.0072,
+      "num_tokens": 24366333.0,
+      "reward": 0.5223214626312256,
+      "reward_std": 0.1943764090538025,
+      "rewards/verify_math_reward/mean": 0.5223214030265808,
+      "rewards/verify_math_reward/std": 0.49978047609329224,
+      "step": 42
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3704.0,
+      "completions/mean_length": 588.7232666015625,
+      "completions/mean_terminated_length": 565.0786743164062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 0.40116618075801747,
+      "grad_norm": 0.12721504271030426,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 24955389.0,
+      "reward": 0.5546875,
+      "reward_std": 0.22973981499671936,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 43
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.004464285714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3066.0,
+      "completions/mean_length": 522.84375,
+      "completions/mean_terminated_length": 506.8206481933594,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.41049562682215746,
+      "grad_norm": 0.12136313319206238,
+      "learning_rate": 1e-06,
+      "loss": 0.022,
+      "num_tokens": 25493665.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1739308387041092,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 44
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2946.0,
+      "completions/mean_length": 621.4989013671875,
+      "completions/mean_terminated_length": 562.3416748046875,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.4198250728862974,
+      "grad_norm": 0.12345373630523682,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 26082480.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.22804690897464752,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 45
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2603.0,
+      "completions/mean_length": 667.021240234375,
+      "completions/mean_terminated_length": 596.7232666015625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.4291545189504373,
+      "grad_norm": 0.12356200069189072,
+      "learning_rate": 1e-06,
+      "loss": -0.0039,
+      "num_tokens": 26694851.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.22623679041862488,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 46
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3786.0,
+      "completions/mean_length": 635.5546875,
+      "completions/mean_terminated_length": 592.5435180664062,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.43848396501457726,
+      "grad_norm": 0.12838619947433472,
+      "learning_rate": 1e-06,
+      "loss": 0.0261,
+      "num_tokens": 27304148.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.23304061591625214,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 47
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 613.497802734375,
+      "completions/mean_terminated_length": 542.1025390625,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.4478134110787172,
+      "grad_norm": 0.1245860904455185,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 27874762.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.19607001543045044,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 48
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3030.0,
+      "completions/mean_length": 619.3839721679688,
+      "completions/mean_terminated_length": 568.1992797851562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.12745042145252228,
+      "learning_rate": 1e-06,
+      "loss": 0.0226,
+      "num_tokens": 28459498.0,
+      "reward": 0.4966517984867096,
+      "reward_std": 0.21571393311023712,
+      "rewards/verify_math_reward/mean": 0.4966517984867096,
+      "rewards/verify_math_reward/std": 0.5002680420875549,
+      "step": 49
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3924.0,
+      "completions/mean_length": 663.5725708007812,
+      "completions/mean_terminated_length": 548.7623901367188,
+      "completions/min_length": 13.0,
+      "completions/min_terminated_length": 13.0,
+      "epoch": 0.46647230320699706,
+      "grad_norm": 0.13521279394626617,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 29037811.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.2123749852180481,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 50
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3186.0,
+      "completions/mean_length": 645.3069458007812,
+      "completions/mean_terminated_length": 582.5670166015625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.47580174927113705,
+      "grad_norm": 0.12615244090557098,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 29631678.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.21906569600105286,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 51
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2363.0,
+      "completions/mean_length": 580.3660888671875,
+      "completions/mean_terminated_length": 532.642578125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 0.485131195335277,
+      "grad_norm": 0.14009985327720642,
+      "learning_rate": 1e-06,
+      "loss": 0.0185,
+      "num_tokens": 30182222.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.22289825975894928,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 52
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 593.5256958007812,
+      "completions/mean_terminated_length": 537.9308471679688,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.4944606413994169,
+      "grad_norm": 0.12409912794828415,
+      "learning_rate": 1e-06,
+      "loss": 0.0229,
+      "num_tokens": 30742429.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.20845939218997955,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 53
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3689.0,
+      "completions/mean_length": 531.890625,
+      "completions/mean_terminated_length": 487.5909729003906,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.5037900874635568,
+      "grad_norm": 0.12954339385032654,
+      "learning_rate": 1e-06,
+      "loss": 0.0077,
+      "num_tokens": 31263787.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.18028958141803741,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 54
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0033482142857143016,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3588.0,
+      "completions/mean_length": 520.5625,
+      "completions/mean_terminated_length": 508.55096435546875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.5131195335276968,
+      "grad_norm": 0.1351110339164734,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 31812315.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.19579969346523285,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 55
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3240.0,
+      "completions/mean_length": 611.9096069335938,
+      "completions/mean_terminated_length": 556.6065673828125,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.12937261164188385,
+      "learning_rate": 1e-06,
+      "loss": 0.0257,
+      "num_tokens": 32394650.0,
+      "reward": 0.5055803656578064,
+      "reward_std": 0.22338427603244781,
+      "rewards/verify_math_reward/mean": 0.5055803656578064,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 56
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3190.0,
+      "completions/mean_length": 560.9699096679688,
+      "completions/mean_terminated_length": 525.1014404296875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.5317784256559767,
+      "grad_norm": 0.12970662117004395,
+      "learning_rate": 1e-06,
+      "loss": 0.0044,
+      "num_tokens": 32947167.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.1899854838848114,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 57
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 574.3660888671875,
+      "completions/mean_terminated_length": 538.633544921875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.5411078717201167,
+      "grad_norm": 0.12180390954017639,
+      "learning_rate": 1e-06,
+      "loss": -0.0028,
+      "num_tokens": 33514799.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.21053025126457214,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689781665802,
+      "step": 58
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 579.5089721679688,
+      "completions/mean_terminated_length": 511.4994201660156,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 0.5504373177842565,
+      "grad_norm": 0.13004224002361298,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 34058551.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.18989993631839752,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 59
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2534.0,
+      "completions/mean_length": 567.296875,
+      "completions/mean_terminated_length": 511.2857360839844,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.5597667638483965,
+      "grad_norm": 0.12029591202735901,
+      "learning_rate": 1e-06,
+      "loss": 0.0025,
+      "num_tokens": 34594513.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.15293002128601074,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 60
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 631.0892944335938,
+      "completions/mean_terminated_length": 576.0906982421875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 0.5690962099125364,
+      "grad_norm": 0.1275714635848999,
+      "learning_rate": 1e-06,
+      "loss": 0.002,
+      "num_tokens": 35186649.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.20741769671440125,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 61
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3602.0,
+      "completions/mean_length": 648.4866333007812,
+      "completions/mean_terminated_length": 601.6878051757812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.5784256559766764,
+      "grad_norm": 0.12914977967739105,
+      "learning_rate": 1e-06,
+      "loss": 0.0104,
+      "num_tokens": 35802509.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.25610974431037903,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608627796173,
+      "step": 62
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 567.466552734375,
+      "completions/mean_terminated_length": 535.6779174804688,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.13891862332820892,
+      "learning_rate": 1e-06,
+      "loss": 0.0165,
+      "num_tokens": 36356847.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.22300700843334198,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 63
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2314.0,
+      "completions/mean_length": 584.021240234375,
+      "completions/mean_terminated_length": 552.3817749023438,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.5970845481049563,
+      "grad_norm": 0.13675697147846222,
+      "learning_rate": 1e-06,
+      "loss": -0.0053,
+      "num_tokens": 36937130.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.200128972530365,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 64
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2379.0,
+      "completions/mean_length": 597.1864013671875,
+      "completions/mean_terminated_length": 557.6964111328125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 0.6064139941690962,
+      "grad_norm": 0.1162147969007492,
+      "learning_rate": 1e-06,
+      "loss": 0.0147,
+      "num_tokens": 37528929.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.17048241198062897,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 65
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1626.0,
+      "completions/mean_length": 568.7388916015625,
+      "completions/mean_terminated_length": 508.683349609375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.6157434402332361,
+      "grad_norm": 0.12827178835868835,
+      "learning_rate": 1e-06,
+      "loss": 0.0108,
+      "num_tokens": 38075615.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.18054921925067902,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 66
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3799.0,
+      "completions/mean_length": 645.9855346679688,
+      "completions/mean_terminated_length": 603.1039428710938,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 0.6250728862973761,
+      "grad_norm": 0.1203441321849823,
+      "learning_rate": 1e-06,
+      "loss": 0.01,
+      "num_tokens": 38705034.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.2141769379377365,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 67
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2966.0,
+      "completions/mean_length": 614.1015625,
+      "completions/mean_terminated_length": 550.7943115234375,
+      "completions/min_length": 70.0,
+      "completions/min_terminated_length": 70.0,
+      "epoch": 0.634402332361516,
+      "grad_norm": 0.12513791024684906,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 39273357.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.18606878817081451,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 68
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 659.1596069335938,
+      "completions/mean_terminated_length": 592.6905517578125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 0.643731778425656,
+      "grad_norm": 0.12893493473529816,
+      "learning_rate": 1e-06,
+      "loss": -0.003,
+      "num_tokens": 39884700.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.23634636402130127,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 69
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3453.0,
+      "completions/mean_length": 644.1975708007812,
+      "completions/mean_terminated_length": 585.4268188476562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.1353166550397873,
+      "learning_rate": 1e-06,
+      "loss": 0.0156,
+      "num_tokens": 40490501.0,
+      "reward": 0.5390625,
+      "reward_std": 0.2425432950258255,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 70
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2030.0,
+      "completions/mean_length": 615.7824096679688,
+      "completions/mean_terminated_length": 552.5056762695312,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 0.6623906705539359,
+      "grad_norm": 0.13289125263690948,
+      "learning_rate": 1e-06,
+      "loss": 0.0062,
+      "num_tokens": 41076290.0,
+      "reward": 0.5625,
+      "reward_std": 0.20632296800613403,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 71
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 621.4989013671875,
+      "completions/mean_terminated_length": 566.3480834960938,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 0.6717201166180758,
+      "grad_norm": 0.12672410905361176,
+      "learning_rate": 1e-06,
+      "loss": 0.0119,
+      "num_tokens": 41673249.0,
+      "reward": 0.5111607313156128,
+      "reward_std": 0.2086862176656723,
+      "rewards/verify_math_reward/mean": 0.5111607313156128,
+      "rewards/verify_math_reward/std": 0.5001546144485474,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 611.7801513671875,
+      "completions/mean_terminated_length": 572.4548950195312,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 0.6810495626822157,
+      "grad_norm": 0.12580303847789764,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 42277220.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.1888575404882431,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 73
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4029.0,
+      "completions/mean_length": 694.0457763671875,
+      "completions/mean_terminated_length": 596.4006958007812,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.6903790087463557,
+      "grad_norm": 0.1160757765173912,
+      "learning_rate": 1e-06,
+      "loss": -0.0074,
+      "num_tokens": 42886389.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.19313152134418488,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 74
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4004.0,
+      "completions/mean_length": 672.2410888671875,
+      "completions/mean_terminated_length": 594.0730590820312,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 0.6997084548104956,
+      "grad_norm": 0.12040586024522781,
+      "learning_rate": 1e-06,
+      "loss": 0.0222,
+      "num_tokens": 43491861.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.19963862001895905,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 75
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3651.0,
+      "completions/mean_length": 668.1004638671875,
+      "completions/mean_terminated_length": 589.837890625,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 0.7090379008746356,
+      "grad_norm": 0.1331687569618225,
+      "learning_rate": 1e-06,
+      "loss": -0.0057,
+      "num_tokens": 44101799.0,
+      "reward": 0.5178571939468384,
+      "reward_std": 0.24333061277866364,
+      "rewards/verify_math_reward/mean": 0.5178571343421936,
+      "rewards/verify_math_reward/std": 0.4999600946903229,
+      "step": 76
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3003.0,
+      "completions/mean_length": 624.3326416015625,
+      "completions/mean_terminated_length": 553.1594848632812,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.14083652198314667,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 44679097.0,
+      "reward": 0.53125,
+      "reward_std": 0.21688465774059296,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 77
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3831.0,
+      "completions/mean_length": 636.3761596679688,
+      "completions/mean_terminated_length": 561.4241333007812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 0.7276967930029155,
+      "grad_norm": 0.1320095807313919,
+      "learning_rate": 1e-06,
+      "loss": 0.0128,
+      "num_tokens": 45257378.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.20192770659923553,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 78
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1760.0,
+      "completions/mean_length": 576.2980346679688,
+      "completions/mean_terminated_length": 512.3034057617188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.7370262390670554,
+      "grad_norm": 0.14839765429496765,
+      "learning_rate": 1e-06,
+      "loss": 0.0043,
+      "num_tokens": 45797293.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.22715014219284058,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 79
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 572.716552734375,
+      "completions/mean_terminated_length": 524.88916015625,
+      "completions/min_length": 74.0,
+      "completions/min_terminated_length": 74.0,
+      "epoch": 0.7463556851311953,
+      "grad_norm": 0.1434706449508667,
+      "learning_rate": 1e-06,
+      "loss": -0.001,
+      "num_tokens": 46351343.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.23867936432361603,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 80
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2544.0,
+      "completions/mean_length": 648.0513916015625,
+      "completions/mean_terminated_length": 593.322021484375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.7556851311953353,
+      "grad_norm": 0.13106873631477356,
+      "learning_rate": 1e-06,
+      "loss": -0.0037,
+      "num_tokens": 46970469.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.2206423580646515,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 81
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3441.0,
+      "completions/mean_length": 636.4453125,
+      "completions/mean_terminated_length": 557.4600219726562,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.7650145772594752,
+      "grad_norm": 0.12176746875047684,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 47552972.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.20218874514102936,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 82
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3018.0,
+      "completions/mean_length": 591.935302734375,
+      "completions/mean_terminated_length": 556.3810424804688,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.7743440233236152,
+      "grad_norm": 0.1223415732383728,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 48131698.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.19640770554542542,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 83
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3018.0,
+      "completions/mean_length": 641.7645263671875,
+      "completions/mean_terminated_length": 578.960205078125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.13270699977874756,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 48736799.0,
+      "reward": 0.4955357313156128,
+      "reward_std": 0.21409954130649567,
+      "rewards/verify_math_reward/mean": 0.4955357015132904,
+      "rewards/verify_math_reward/std": 0.500259280204773,
+      "step": 84
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 611.154052734375,
+      "completions/mean_terminated_length": 547.7931518554688,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.793002915451895,
+      "grad_norm": 0.12596824765205383,
+      "learning_rate": 1e-06,
+      "loss": -0.0009,
+      "num_tokens": 49308585.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.19549660384655,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 85
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3890.0,
+      "completions/mean_length": 590.7076416015625,
+      "completions/mean_terminated_length": 571.0370483398438,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.8023323615160349,
+      "grad_norm": 0.12296757102012634,
+      "learning_rate": 1e-06,
+      "loss": 0.0167,
+      "num_tokens": 49904243.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.19591733813285828,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 86
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2137.0,
+      "completions/mean_length": 552.4308471679688,
+      "completions/mean_terminated_length": 516.4757080078125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.8116618075801749,
+      "grad_norm": 0.1391582190990448,
+      "learning_rate": 1e-06,
+      "loss": 0.0171,
+      "num_tokens": 50443021.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.20125369727611542,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 87
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3319.0,
+      "completions/mean_length": 578.0792846679688,
+      "completions/mean_terminated_length": 530.32470703125,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 0.8209912536443149,
+      "grad_norm": 0.13660335540771484,
+      "learning_rate": 1e-06,
+      "loss": 0.0194,
+      "num_tokens": 50991900.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.18948623538017273,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.4876568913459778,
+      "step": 88
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3661.0,
+      "completions/mean_length": 643.3761596679688,
+      "completions/mean_terminated_length": 564.549072265625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.8303206997084548,
+      "grad_norm": 0.12995995581150055,
+      "learning_rate": 1e-06,
+      "loss": 0.0135,
+      "num_tokens": 51588293.0,
+      "reward": 0.527901828289032,
+      "reward_std": 0.20245903730392456,
+      "rewards/verify_math_reward/mean": 0.5279017686843872,
+      "rewards/verify_math_reward/std": 0.49949970841407776,
+      "step": 89
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2473.0,
+      "completions/mean_length": 607.224365234375,
+      "completions/mean_terminated_length": 547.8240966796875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 0.8396501457725948,
+      "grad_norm": 0.11275593191385269,
+      "learning_rate": 1e-06,
+      "loss": 0.0199,
+      "num_tokens": 52158478.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1716410517692566,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 90
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 613.1741333007812,
+      "completions/mean_terminated_length": 541.772216796875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.1297285109758377,
+      "learning_rate": 1e-06,
+      "loss": 0.0178,
+      "num_tokens": 52722114.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.1964818835258484,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 91
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3583.0,
+      "completions/mean_length": 621.9710083007812,
+      "completions/mean_terminated_length": 566.8276977539062,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 0.8583090379008746,
+      "grad_norm": 0.10461857169866562,
+      "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 53309136.0,
+      "reward": 0.6015625,
+      "reward_std": 0.1629975289106369,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 92
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3135.0,
+      "completions/mean_length": 595.669677734375,
+      "completions/mean_terminated_length": 532.0272827148438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 0.8676384839650145,
+      "grad_norm": 0.18813636898994446,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 53874856.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.24276649951934814,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 93
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2350.0,
+      "completions/mean_length": 607.4319458007812,
+      "completions/mean_terminated_length": 552.0578002929688,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 0.8769679300291545,
+      "grad_norm": 0.13008354604244232,
+      "learning_rate": 1e-06,
+      "loss": 0.0154,
+      "num_tokens": 54438523.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.20685499906539917,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 94
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 647.8917846679688,
+      "completions/mean_terminated_length": 589.1838989257812,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 0.8862973760932945,
+      "grad_norm": 0.11892709881067276,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 55045090.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.19858624041080475,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 95
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1937.0,
+      "completions/mean_length": 639.0614013671875,
+      "completions/mean_terminated_length": 564.1676025390625,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.8956268221574344,
+      "grad_norm": 0.12884822487831116,
+      "learning_rate": 1e-06,
+      "loss": 0.0276,
+      "num_tokens": 55623321.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.2165483683347702,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715369939804077,
+      "step": 96
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2844.0,
+      "completions/mean_length": 632.7991333007812,
+      "completions/mean_terminated_length": 573.8342895507812,
+      "completions/min_length": 54.0,
+      "completions/min_terminated_length": 54.0,
+      "epoch": 0.9049562682215744,
+      "grad_norm": 0.12199296057224274,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 56220165.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796947836875916,
+      "step": 97
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3313.0,
+      "completions/mean_length": 700.0145263671875,
+      "completions/mean_terminated_length": 626.4412841796875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.11525772511959076,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 56855482.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 98
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 670.122802734375,
+      "completions/mean_terminated_length": 603.86572265625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 0.9236151603498542,
+      "grad_norm": 0.11693616211414337,
+      "learning_rate": 1e-06,
+      "loss": 0.0015,
+      "num_tokens": 57485496.0,
+      "reward": 0.494419664144516,
+      "reward_std": 0.19674287736415863,
+      "rewards/verify_math_reward/mean": 0.4944196343421936,
+      "rewards/verify_math_reward/std": 0.5002480745315552,
+      "step": 99
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3366.0,
+      "completions/mean_length": 662.5848388671875,
+      "completions/mean_terminated_length": 584.1963500976562,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.9329446064139941,
+      "grad_norm": 0.13173900544643402,
+      "learning_rate": 1e-06,
+      "loss": 0.0216,
+      "num_tokens": 58087516.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.21294134855270386,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3616.0,
+      "completions/mean_length": 643.5558471679688,
+      "completions/mean_terminated_length": 576.7849731445312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.9422740524781341,
+      "grad_norm": 0.11459070444107056,
+      "learning_rate": 1e-06,
+      "loss": -0.0025,
+      "num_tokens": 58680030.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.17998285591602325,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4017.0,
+      "completions/mean_length": 613.2232666015625,
+      "completions/mean_terminated_length": 569.9344482421875,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 0.9516034985422741,
+      "grad_norm": 0.12105487287044525,
+      "learning_rate": 1e-06,
+      "loss": 0.0095,
+      "num_tokens": 59284334.0,
+      "reward": 0.5401785969734192,
+      "reward_std": 0.19366146624088287,
+      "rewards/verify_math_reward/mean": 0.5401785969734192,
+      "rewards/verify_math_reward/std": 0.49866142868995667,
+      "step": 102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3876.0,
+      "completions/mean_length": 714.2689819335938,
+      "completions/mean_terminated_length": 633.107421875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.960932944606414,
+      "grad_norm": 0.10672217607498169,
+      "learning_rate": 1e-06,
+      "loss": 0.0054,
+      "num_tokens": 59925767.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.17634011805057526,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.49828118085861206,
+      "step": 103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4094.0,
+      "completions/mean_length": 611.6495971679688,
+      "completions/mean_terminated_length": 568.3412475585938,
+      "completions/min_length": 89.0,
+      "completions/min_terminated_length": 89.0,
+      "epoch": 0.970262390670554,
+      "grad_norm": 0.1321568340063095,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 60521693.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.2094464898109436,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 563.388427734375,
+      "completions/mean_terminated_length": 515.4343872070312,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.1289939135313034,
+      "learning_rate": 1e-06,
+      "loss": 0.0012,
+      "num_tokens": 61065233.0,
+      "reward": 0.5390625,
+      "reward_std": 0.1993015855550766,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 601.0592041015625,
+      "completions/mean_terminated_length": 553.6165161132812,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 0.9889212827988338,
+      "grad_norm": 0.11271937191486359,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 61636822.0,
+      "reward": 0.5625,
+      "reward_std": 0.1666862815618515,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005681818181818232,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1951.0,
+      "completions/mean_length": 522.0056762695312,
+      "completions/mean_terminated_length": 501.5828552246094,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 0.9982507288629737,
+      "grad_norm": 0.13385462760925293,
+      "learning_rate": 1e-06,
+      "loss": 0.0289,
+      "num_tokens": 62209340.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.20534475147724152,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.4982811510562897,
+      "step": 107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2726.0,
+      "completions/mean_length": 584.3638916015625,
+      "completions/mean_terminated_length": 552.7274780273438,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.00932944606414,
+      "grad_norm": 0.13441289961338043,
+      "learning_rate": 1e-06,
+      "loss": 0.0199,
+      "num_tokens": 62790586.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.22912222146987915,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3852.0,
+      "completions/mean_length": 605.4475708007812,
+      "completions/mean_terminated_length": 550.0419311523438,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 1.01865889212828,
+      "grad_norm": 0.13123084604740143,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 63372171.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.19857734441757202,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 673.0814819335938,
+      "completions/mean_terminated_length": 578.8726806640625,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 1.0279883381924197,
+      "grad_norm": 0.12347409874200821,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 63969948.0,
+      "reward": 0.5334821939468384,
+      "reward_std": 0.18693894147872925,
+      "rewards/verify_math_reward/mean": 0.5334821343421936,
+      "rewards/verify_math_reward/std": 0.49915632605552673,
+      "step": 110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3905.0,
+      "completions/mean_length": 617.4921875,
+      "completions/mean_terminated_length": 558.2667846679688,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.0373177842565597,
+      "grad_norm": 0.12921538949012756,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 64566157.0,
+      "reward": 0.5234375,
+      "reward_std": 0.2080143243074417,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 580.630615234375,
+      "completions/mean_terminated_length": 536.9367065429688,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 1.0466472303206997,
+      "grad_norm": 0.1322759985923767,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 65135922.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.23255206644535065,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3906.0,
+      "completions/mean_length": 608.5435791015625,
+      "completions/mean_terminated_length": 565.1965942382812,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.0559766763848397,
+      "grad_norm": 0.1161135882139206,
+      "learning_rate": 1e-06,
+      "loss": 0.0066,
+      "num_tokens": 65726753.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.17893047630786896,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 616.8828125,
+      "completions/mean_terminated_length": 549.5961303710938,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 1.0653061224489795,
+      "grad_norm": 0.12141867727041245,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 66321296.0,
+      "reward": 0.486607164144516,
+      "reward_std": 0.17284637689590454,
+      "rewards/verify_math_reward/mean": 0.4866071343421936,
+      "rewards/verify_math_reward/std": 0.5000997185707092,
+      "step": 114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3190.0,
+      "completions/mean_length": 596.0792846679688,
+      "completions/mean_terminated_length": 548.5690307617188,
+      "completions/min_length": 88.0,
+      "completions/min_terminated_length": 88.0,
+      "epoch": 1.0746355685131195,
+      "grad_norm": 0.13341371715068817,
+      "learning_rate": 1e-06,
+      "loss": 0.012,
+      "num_tokens": 66894143.0,
+      "reward": 0.5546875,
+      "reward_std": 0.19697293639183044,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3760.0,
+      "completions/mean_length": 618.6875,
+      "completions/mean_terminated_length": 559.482421875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 1.0839650145772595,
+      "grad_norm": 0.12516039609909058,
+      "learning_rate": 1e-06,
+      "loss": -0.0082,
+      "num_tokens": 67474887.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.2076791673898697,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3073.0,
+      "completions/mean_length": 588.2299194335938,
+      "completions/mean_terminated_length": 556.62841796875,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 1.0932944606413995,
+      "grad_norm": 0.12874138355255127,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 68054293.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.23160958290100098,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2461.0,
+      "completions/mean_length": 625.7578125,
+      "completions/mean_terminated_length": 554.6138916015625,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 1.1026239067055394,
+      "grad_norm": 0.1242959201335907,
+      "learning_rate": 1e-06,
+      "loss": -0.0089,
+      "num_tokens": 68615596.0,
+      "reward": 0.640625,
+      "reward_std": 0.21383853256702423,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2827.0,
+      "completions/mean_length": 592.6707763671875,
+      "completions/mean_terminated_length": 520.8485107421875,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 1.1119533527696792,
+      "grad_norm": 0.140296071767807,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 69146525.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.18521295487880707,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3486.0,
+      "completions/mean_length": 638.2355346679688,
+      "completions/mean_terminated_length": 583.350341796875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.1212827988338192,
+      "grad_norm": 0.12419833987951279,
+      "learning_rate": 1e-06,
+      "loss": 0.0078,
+      "num_tokens": 69757680.0,
+      "reward": 0.5859375,
+      "reward_std": 0.1885533183813095,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3251.0,
+      "completions/mean_length": 636.1830444335938,
+      "completions/mean_terminated_length": 577.27587890625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.1306122448979592,
+      "grad_norm": 0.12782782316207886,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 70363460.0,
+      "reward": 0.5368303656578064,
+      "reward_std": 0.21733155846595764,
+      "rewards/verify_math_reward/mean": 0.5368303656578064,
+      "rewards/verify_math_reward/std": 0.49892017245292664,
+      "step": 121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 614.8527221679688,
+      "completions/mean_terminated_length": 567.5972900390625,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 1.1399416909620992,
+      "grad_norm": 0.1233368068933487,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 70943784.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.18257687985897064,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3999.0,
+      "completions/mean_length": 671.841552734375,
+      "completions/mean_terminated_length": 593.6643676757812,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.149271137026239,
+      "grad_norm": 0.12879662215709686,
+      "learning_rate": 1e-06,
+      "loss": 0.0019,
+      "num_tokens": 71553922.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.22225745022296906,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161848425865173,
+      "step": 123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3305.0,
+      "completions/mean_length": 614.4710083007812,
+      "completions/mean_terminated_length": 559.2086181640625,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 1.158600583090379,
+      "grad_norm": 0.13115562498569489,
+      "learning_rate": 1e-06,
+      "loss": -0.0093,
+      "num_tokens": 72136656.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.18160048127174377,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3528.0,
+      "completions/mean_length": 676.7332763671875,
+      "completions/mean_terminated_length": 590.6647338867188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.167930029154519,
+      "grad_norm": 0.11384246498346329,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 72743241.0,
+      "reward": 0.5078125,
+      "reward_std": 0.15293073654174805,
+      "rewards/verify_math_reward/mean": 0.5078125,
+      "rewards/verify_math_reward/std": 0.5002182126045227,
+      "step": 125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2237.0,
+      "completions/mean_length": 578.9877319335938,
+      "completions/mean_terminated_length": 547.3029174804688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.177259475218659,
+      "grad_norm": 0.1207195520401001,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 73317726.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1758943349123001,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3481.0,
+      "completions/mean_length": 604.044677734375,
+      "completions/mean_terminated_length": 564.632080078125,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 1.186588921282799,
+      "grad_norm": 0.13039085268974304,
+      "learning_rate": 1e-06,
+      "loss": 0.0203,
+      "num_tokens": 73900590.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.18160118162631989,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 659.796875,
+      "completions/mean_terminated_length": 569.2669067382812,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 1.1959183673469387,
+      "grad_norm": 0.12605169415473938,
+      "learning_rate": 1e-06,
+      "loss": 0.0072,
+      "num_tokens": 74489480.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.21861176192760468,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3424.0,
+      "completions/mean_length": 636.1652221679688,
+      "completions/mean_terminated_length": 581.2471923828125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.2052478134110787,
+      "grad_norm": 0.1338040828704834,
+      "learning_rate": 1e-06,
+      "loss": 0.0035,
+      "num_tokens": 75095228.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.23991748690605164,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3753.0,
+      "completions/mean_length": 720.646240234375,
+      "completions/mean_terminated_length": 627.7465209960938,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 1.2145772594752187,
+      "grad_norm": 0.1312447488307953,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 75735767.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.22199741005897522,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4022.0,
+      "completions/mean_length": 557.8348388671875,
+      "completions/mean_terminated_length": 525.95947265625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.2239067055393587,
+      "grad_norm": 0.13229545950889587,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 76287971.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.17476709187030792,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2593.0,
+      "completions/mean_length": 575.1596069335938,
+      "completions/mean_terminated_length": 535.4210205078125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.2332361516034984,
+      "grad_norm": 0.11969714611768723,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 76847850.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.147451713681221,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2995.0,
+      "completions/mean_length": 574.390625,
+      "completions/mean_terminated_length": 526.5859985351562,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.2425655976676384,
+      "grad_norm": 0.1340891569852829,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 77404224.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.18806618452072144,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1978.0,
+      "completions/mean_length": 607.1517944335938,
+      "completions/mean_terminated_length": 559.7918701171875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 1.2518950437317784,
+      "grad_norm": 0.134235218167305,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 77980344.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.21838605403900146,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3948.0,
+      "completions/mean_length": 614.239990234375,
+      "completions/mean_terminated_length": 530.677734375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 1.2612244897959184,
+      "grad_norm": 0.1362096667289734,
+      "learning_rate": 1e-06,
+      "loss": -0.0123,
+      "num_tokens": 78528703.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.211551234126091,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 632.708740234375,
+      "completions/mean_terminated_length": 545.531982421875,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 1.2705539358600584,
+      "grad_norm": 0.13689996302127838,
+      "learning_rate": 1e-06,
+      "loss": -0.0026,
+      "num_tokens": 79097098.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.18836969137191772,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 652.6640625,
+      "completions/mean_terminated_length": 582.07177734375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 1.2798833819241984,
+      "grad_norm": 0.12383565306663513,
+      "learning_rate": 1e-06,
+      "loss": 0.0027,
+      "num_tokens": 79694381.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.19141653180122375,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 647.2288208007812,
+      "completions/mean_terminated_length": 576.5250854492188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 1.2892128279883381,
+      "grad_norm": 0.1292634755373001,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 80292882.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.18825024366378784,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3978.0,
+      "completions/mean_length": 649.7589721679688,
+      "completions/mean_terminated_length": 599.021484375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.2985422740524781,
+      "grad_norm": 0.139671191573143,
+      "learning_rate": 1e-06,
+      "loss": 0.0021,
+      "num_tokens": 80917602.0,
+      "reward": 0.5189732313156128,
+      "reward_std": 0.23443815112113953,
+      "rewards/verify_math_reward/mean": 0.5189732313156128,
+      "rewards/verify_math_reward/std": 0.49991893768310547,
+      "step": 139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 709.6964721679688,
+      "completions/mean_terminated_length": 596.4290161132812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.3078717201166181,
+      "grad_norm": 0.12194110453128815,
+      "learning_rate": 1e-06,
+      "loss": 0.005,
+      "num_tokens": 81527762.0,
+      "reward": 0.5078125,
+      "reward_std": 0.19294606149196625,
+      "rewards/verify_math_reward/mean": 0.5078125,
+      "rewards/verify_math_reward/std": 0.5002182126045227,
+      "step": 140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2433.0,
+      "completions/mean_length": 681.5413208007812,
+      "completions/mean_terminated_length": 599.5942993164062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 1.3172011661807579,
+      "grad_norm": 0.1287652552127838,
+      "learning_rate": 1e-06,
+      "loss": 0.0193,
+      "num_tokens": 82146335.0,
+      "reward": 0.5234375,
+      "reward_std": 0.2050088495016098,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3231.0,
+      "completions/mean_length": 669.6295166015625,
+      "completions/mean_terminated_length": 599.385009765625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.3265306122448979,
+      "grad_norm": 0.11956693232059479,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 82766003.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.18809868395328522,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2632.0,
+      "completions/mean_length": 654.6830444335938,
+      "completions/mean_terminated_length": 580.127685546875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.3358600583090379,
+      "grad_norm": 0.12889018654823303,
+      "learning_rate": 1e-06,
+      "loss": 0.02,
+      "num_tokens": 83366343.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.20729796588420868,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2575.0,
+      "completions/mean_length": 679.0971069335938,
+      "completions/mean_terminated_length": 616.9715576171875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.3451895043731779,
+      "grad_norm": 0.1147773340344429,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 84005494.0,
+      "reward": 0.5334821939468384,
+      "reward_std": 0.19974736869335175,
+      "rewards/verify_math_reward/mean": 0.5334821343421936,
+      "rewards/verify_math_reward/std": 0.49915632605552673,
+      "step": 144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 634.5881958007812,
+      "completions/mean_terminated_length": 563.6253051757812,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.3545189504373178,
+      "grad_norm": 0.13499262928962708,
+      "learning_rate": 1e-06,
+      "loss": 0.0012,
+      "num_tokens": 84587013.0,
+      "reward": 0.6015625,
+      "reward_std": 0.22105422616004944,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2492.0,
+      "completions/mean_length": 691.1373291015625,
+      "completions/mean_terminated_length": 585.3475341796875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 1.3638483965014578,
+      "grad_norm": 0.1364857703447342,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 85199064.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.21346086263656616,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4075.0,
+      "completions/mean_length": 734.8158569335938,
+      "completions/mean_terminated_length": 602.2401123046875,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 1.3731778425655976,
+      "grad_norm": 0.12410472333431244,
+      "learning_rate": 1e-06,
+      "loss": 0.0057,
+      "num_tokens": 85805803.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.18399836122989655,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3167.0,
+      "completions/mean_length": 681.4944458007812,
+      "completions/mean_terminated_length": 599.5462646484375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.3825072886297376,
+      "grad_norm": 0.14087340235710144,
+      "learning_rate": 1e-06,
+      "loss": 0.0176,
+      "num_tokens": 86413854.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.2527284324169159,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3475.0,
+      "completions/mean_length": 619.2857666015625,
+      "completions/mean_terminated_length": 548.0091552734375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.3918367346938776,
+      "grad_norm": 0.12467251718044281,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 86979630.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.17596174776554108,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1961.0,
+      "completions/mean_length": 648.8370971679688,
+      "completions/mean_terminated_length": 566.1051635742188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.4011661807580174,
+      "grad_norm": 0.12112050503492355,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 87571228.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.174800306558609,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111400604248,
+      "step": 150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3286.0,
+      "completions/mean_length": 694.3270263671875,
+      "completions/mean_terminated_length": 584.5956420898438,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 1.4104956268221573,
+      "grad_norm": 0.12694108486175537,
+      "learning_rate": 1e-06,
+      "loss": 0.0083,
+      "num_tokens": 88175857.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.19628755748271942,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2874.0,
+      "completions/mean_length": 627.2846069335938,
+      "completions/mean_terminated_length": 560.1990966796875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 1.4198250728862973,
+      "grad_norm": 0.1249031275510788,
+      "learning_rate": 1e-06,
+      "loss": 0.0057,
+      "num_tokens": 88752752.0,
+      "reward": 0.640625,
+      "reward_std": 0.1961027979850769,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3080.0,
+      "completions/mean_length": 653.1964721679688,
+      "completions/mean_terminated_length": 562.4925537109375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 1.4291545189504373,
+      "grad_norm": 0.1260456144809723,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 89333032.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.1965906322002411,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2784.0,
+      "completions/mean_length": 605.0078125,
+      "completions/mean_terminated_length": 561.616943359375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 1.4384839650145773,
+      "grad_norm": 0.12526555359363556,
+      "learning_rate": 1e-06,
+      "loss": 0.0224,
+      "num_tokens": 89912591.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.18829117715358734,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2644.0,
+      "completions/mean_length": 608.7846069335938,
+      "completions/mean_terminated_length": 529.1677856445312,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.4478134110787173,
+      "grad_norm": 0.13587446510791779,
+      "learning_rate": 1e-06,
+      "loss": 0.0061,
+      "num_tokens": 90460470.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.19340364634990692,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3435.0,
+      "completions/mean_length": 611.8013916015625,
+      "completions/mean_terminated_length": 548.4522705078125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 1.457142857142857,
+      "grad_norm": 0.13532030582427979,
+      "learning_rate": 1e-06,
+      "loss": -0.0048,
+      "num_tokens": 91032412.0,
+      "reward": 0.6015625,
+      "reward_std": 0.19094981253147125,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 686.7221069335938,
+      "completions/mean_terminated_length": 608.8847045898438,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 1.466472303206997,
+      "grad_norm": 0.11518780887126923,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 91657299.0,
+      "reward": 0.5546875,
+      "reward_std": 0.18325015902519226,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 674.5245971679688,
+      "completions/mean_terminated_length": 592.4091186523438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.475801749271137,
+      "grad_norm": 0.11879177391529083,
+      "learning_rate": 1e-06,
+      "loss": 0.0106,
+      "num_tokens": 92266513.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.17585085332393646,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3952.0,
+      "completions/mean_length": 666.7433471679688,
+      "completions/mean_terminated_length": 612.3106689453125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.485131195335277,
+      "grad_norm": 0.11994239687919617,
+      "learning_rate": 1e-06,
+      "loss": 0.0091,
+      "num_tokens": 92885115.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.18362995982170105,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3906.0,
+      "completions/mean_length": 652.8850708007812,
+      "completions/mean_terminated_length": 594.26220703125,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 1.4944606413994168,
+      "grad_norm": 0.12814350426197052,
+      "learning_rate": 1e-06,
+      "loss": 0.0214,
+      "num_tokens": 93498764.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.19280339777469635,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 651.8939819335938,
+      "completions/mean_terminated_length": 601.18798828125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 1.5037900874635568,
+      "grad_norm": 0.141206294298172,
+      "learning_rate": 1e-06,
+      "loss": 0.0054,
+      "num_tokens": 94112005.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.23138949275016785,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3377.0,
+      "completions/mean_length": 676.8314819335938,
+      "completions/mean_terminated_length": 582.7258911132812,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 1.5131195335276968,
+      "grad_norm": 0.1266036331653595,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 94715582.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.19230598211288452,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973994791507721,
+      "step": 162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4049.0,
+      "completions/mean_length": 638.4342041015625,
+      "completions/mean_terminated_length": 575.5692749023438,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 1.5224489795918368,
+      "grad_norm": 0.13367679715156555,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 95323699.0,
+      "reward": 0.5301339626312256,
+      "reward_std": 0.20426097512245178,
+      "rewards/verify_math_reward/mean": 0.5301339030265808,
+      "rewards/verify_math_reward/std": 0.49936988949775696,
+      "step": 163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3274.0,
+      "completions/mean_length": 620.59375,
+      "completions/mean_terminated_length": 561.421142578125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 1.5317784256559768,
+      "grad_norm": 0.11846431344747543,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 95911799.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.15007779002189636,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3400.0,
+      "completions/mean_length": 709.7266235351562,
+      "completions/mean_terminated_length": 616.5263671875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 1.5411078717201168,
+      "grad_norm": 0.12937229871749878,
+      "learning_rate": 1e-06,
+      "loss": 0.0096,
+      "num_tokens": 96541298.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.19268827140331268,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.49828118085861206,
+      "step": 165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3652.0,
+      "completions/mean_length": 567.5814819335938,
+      "completions/mean_terminated_length": 519.6843872070312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 1.5504373177842565,
+      "grad_norm": 0.127097487449646,
+      "learning_rate": 1e-06,
+      "loss": 0.0111,
+      "num_tokens": 97094259.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.16232171654701233,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2755.0,
+      "completions/mean_length": 597.2131958007812,
+      "completions/mean_terminated_length": 569.6636962890625,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.5597667638483965,
+      "grad_norm": 0.14329767227172852,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 97683594.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.23837655782699585,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3254.0,
+      "completions/mean_length": 666.5725708007812,
+      "completions/mean_terminated_length": 600.246826171875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.5690962099125363,
+      "grad_norm": 0.12098225206136703,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 98295555.0,
+      "reward": 0.578125,
+      "reward_std": 0.1763821691274643,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3295.0,
+      "completions/mean_length": 623.2355346679688,
+      "completions/mean_terminated_length": 572.1075439453125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 1.5784256559766763,
+      "grad_norm": 0.1256924271583557,
+      "learning_rate": 1e-06,
+      "loss": 0.0037,
+      "num_tokens": 98888526.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.18419267237186432,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3755.0,
+      "completions/mean_length": 666.9754638671875,
+      "completions/mean_terminated_length": 580.6613159179688,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 1.5877551020408163,
+      "grad_norm": 0.1224668025970459,
+      "learning_rate": 1e-06,
+      "loss": -0.0136,
+      "num_tokens": 99485192.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1913723647594452,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3148.0,
+      "completions/mean_length": 654.7924194335938,
+      "completions/mean_terminated_length": 580.2394409179688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 1.5970845481049563,
+      "grad_norm": 0.1412746161222458,
+      "learning_rate": 1e-06,
+      "loss": -0.0099,
+      "num_tokens": 100085150.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.21196381747722626,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2219.0,
+      "completions/mean_length": 652.4699096679688,
+      "completions/mean_terminated_length": 597.8106689453125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.6064139941690962,
+      "grad_norm": 0.12173449993133545,
+      "learning_rate": 1e-06,
+      "loss": 0.0204,
+      "num_tokens": 100704171.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.23187625408172607,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4080.0,
+      "completions/mean_length": 661.8638916015625,
+      "completions/mean_terminated_length": 551.0852661132812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.6157434402332362,
+      "grad_norm": 0.13657061755657196,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 101262961.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.21053095161914825,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2149.0,
+      "completions/mean_length": 678.3292846679688,
+      "completions/mean_terminated_length": 547.6419067382812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 1.6250728862973762,
+      "grad_norm": 0.13285422325134277,
+      "learning_rate": 1e-06,
+      "loss": -0.012,
+      "num_tokens": 101825888.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.19268713891506195,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3792.0,
+      "completions/mean_length": 671.7957763671875,
+      "completions/mean_terminated_length": 589.6148681640625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.634402332361516,
+      "grad_norm": 0.12007246166467667,
+      "learning_rate": 1e-06,
+      "loss": 0.01,
+      "num_tokens": 102450169.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.18156908452510834,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715369939804077,
+      "step": 175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3228.0,
+      "completions/mean_length": 651.911865234375,
+      "completions/mean_terminated_length": 601.2061157226562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.643731778425656,
+      "grad_norm": 0.13123011589050293,
+      "learning_rate": 1e-06,
+      "loss": 0.012,
+      "num_tokens": 103071338.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.21053346991539001,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2255.0,
+      "completions/mean_length": 643.7935791015625,
+      "completions/mean_terminated_length": 573.0194091796875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 1.6530612244897958,
+      "grad_norm": 0.13956408202648163,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 103665065.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.1870456039905548,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3612.0,
+      "completions/mean_length": 622.390625,
+      "completions/mean_terminated_length": 547.1356811523438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 1.6623906705539357,
+      "grad_norm": 0.12908336520195007,
+      "learning_rate": 1e-06,
+      "loss": 0.0018,
+      "num_tokens": 104228359.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.19411608576774597,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2148.0,
+      "completions/mean_length": 608.5413208007812,
+      "completions/mean_terminated_length": 549.1634521484375,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 1.6717201166180757,
+      "grad_norm": 0.12952981889247894,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 104794356.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.1871204674243927,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3240.0,
+      "completions/mean_length": 598.8292846679688,
+      "completions/mean_terminated_length": 523.0638427734375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.6810495626822157,
+      "grad_norm": 0.1407703161239624,
+      "learning_rate": 1e-06,
+      "loss": 0.0121,
+      "num_tokens": 105339987.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.19899991154670715,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3941.0,
+      "completions/mean_length": 640.2846069335938,
+      "completions/mean_terminated_length": 553.298583984375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.6903790087463557,
+      "grad_norm": 0.13343185186386108,
+      "learning_rate": 1e-06,
+      "loss": 0.0123,
+      "num_tokens": 105906418.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.19738228619098663,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 741.2813110351562,
+      "completions/mean_terminated_length": 637.0494995117188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.6997084548104957,
+      "grad_norm": 0.12370902299880981,
+      "learning_rate": 1e-06,
+      "loss": 0.011,
+      "num_tokens": 106564518.0,
+      "reward": 0.5033482313156128,
+      "reward_std": 0.19587455689907074,
+      "rewards/verify_math_reward/mean": 0.5033482313156128,
+      "rewards/verify_math_reward/std": 0.5002680420875549,
+      "step": 182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2418.0,
+      "completions/mean_length": 544.9207763671875,
+      "completions/mean_terminated_length": 500.7830505371094,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.7090379008746357,
+      "grad_norm": 0.15225689113140106,
+      "learning_rate": 1e-06,
+      "loss": 0.0126,
+      "num_tokens": 107103487.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.20474812388420105,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2579.0,
+      "completions/mean_length": 657.739990234375,
+      "completions/mean_terminated_length": 587.251708984375,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 1.7183673469387755,
+      "grad_norm": 0.12613576650619507,
+      "learning_rate": 1e-06,
+      "loss": 0.0062,
+      "num_tokens": 107711942.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.19760164618492126,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2920.0,
+      "completions/mean_length": 699.6652221679688,
+      "completions/mean_terminated_length": 577.9468383789062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.7276967930029155,
+      "grad_norm": 0.12997154891490936,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 108297650.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.17585083842277527,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3711.0,
+      "completions/mean_length": 660.046875,
+      "completions/mean_terminated_length": 565.4793090820312,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.7370262390670554,
+      "grad_norm": 0.13106532394886017,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 108882596.0,
+      "reward": 0.515625,
+      "reward_std": 0.2166917473077774,
+      "rewards/verify_math_reward/mean": 0.515625,
+      "rewards/verify_math_reward/std": 0.5000349283218384,
+      "step": 186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 565.5814819335938,
+      "completions/mean_terminated_length": 517.6572875976562,
+      "completions/min_length": 54.0,
+      "completions/min_terminated_length": 54.0,
+      "epoch": 1.7463556851311952,
+      "grad_norm": 0.13621224462985992,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 109427949.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1840072125196457,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3957.0,
+      "completions/mean_length": 712.3370971679688,
+      "completions/mean_terminated_length": 611.216064453125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 1.7556851311953352,
+      "grad_norm": 0.11739154905080795,
+      "learning_rate": 1e-06,
+      "loss": -0.0054,
+      "num_tokens": 110050723.0,
+      "reward": 0.59375,
+      "reward_std": 0.17780686914920807,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 668.0803833007812,
+      "completions/mean_terminated_length": 585.810302734375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.7650145772594752,
+      "grad_norm": 0.13567480444908142,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 110659995.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.21418648958206177,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3633.0,
+      "completions/mean_length": 729.0792846679688,
+      "completions/mean_terminated_length": 620.4688720703125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 1.7743440233236152,
+      "grad_norm": 0.14293672144412994,
+      "learning_rate": 1e-06,
+      "loss": 0.0172,
+      "num_tokens": 111283346.0,
+      "reward": 0.5859375,
+      "reward_std": 0.2155335396528244,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3924.0,
+      "completions/mean_length": 643.1596069335938,
+      "completions/mean_terminated_length": 531.7776489257812,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.7836734693877552,
+      "grad_norm": 0.12812790274620056,
+      "learning_rate": 1e-06,
+      "loss": 0.01,
+      "num_tokens": 111835281.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.15744362771511078,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075523018836975,
+      "step": 191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 669.7678833007812,
+      "completions/mean_terminated_length": 559.2442626953125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.7930029154518952,
+      "grad_norm": 0.14222432672977448,
+      "learning_rate": 1e-06,
+      "loss": -0.0152,
+      "num_tokens": 112404353.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.21583479642868042,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 706.1027221679688,
+      "completions/mean_terminated_length": 612.802734375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 1.802332361516035,
+      "grad_norm": 0.12013652920722961,
+      "learning_rate": 1e-06,
+      "loss": -0.0086,
+      "num_tokens": 113031213.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.16476880013942719,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2510.0,
+      "completions/mean_length": 643.9330444335938,
+      "completions/mean_terminated_length": 532.5760498046875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 1.811661807580175,
+      "grad_norm": 0.14051838219165802,
+      "learning_rate": 1e-06,
+      "loss": -0.014,
+      "num_tokens": 113578945.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17081941664218903,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2394.0,
+      "completions/mean_length": 614.1763916015625,
+      "completions/mean_terminated_length": 550.8704223632812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 1.820991253644315,
+      "grad_norm": 0.12363959103822708,
+      "learning_rate": 1e-06,
+      "loss": 0.0016,
+      "num_tokens": 114148095.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.18411710858345032,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3743.0,
+      "completions/mean_length": 654.1183471679688,
+      "completions/mean_terminated_length": 571.5131225585938,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 1.8303206997084547,
+      "grad_norm": 0.1257123202085495,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 114731041.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17686115205287933,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4025.0,
+      "completions/mean_length": 733.7913208007812,
+      "completions/mean_terminated_length": 629.3268432617188,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 1.8396501457725947,
+      "grad_norm": 0.13334035873413086,
+      "learning_rate": 1e-06,
+      "loss": 0.0097,
+      "num_tokens": 115378734.0,
+      "reward": 0.4464285969734192,
+      "reward_std": 0.225978285074234,
+      "rewards/verify_math_reward/mean": 0.4464285671710968,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3640.0,
+      "completions/mean_length": 695.8035888671875,
+      "completions/mean_terminated_length": 565.7844848632812,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 1.8489795918367347,
+      "grad_norm": 0.13430985808372498,
+      "learning_rate": 1e-06,
+      "loss": -0.0022,
+      "num_tokens": 115962542.0,
+      "reward": 0.5011160969734192,
+      "reward_std": 0.18840248882770538,
+      "rewards/verify_math_reward/mean": 0.5011160969734192,
+      "rewards/verify_math_reward/std": 0.5002779960632324,
+      "step": 198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4055.0,
+      "completions/mean_length": 678.193115234375,
+      "completions/mean_terminated_length": 551.607666015625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.8583090379008746,
+      "grad_norm": 0.1244550496339798,
+      "learning_rate": 1e-06,
+      "loss": 0.0052,
+      "num_tokens": 116519699.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.1658935248851776,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3505.0,
+      "completions/mean_length": 670.671875,
+      "completions/mean_terminated_length": 564.2462768554688,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 1.8676384839650146,
+      "grad_norm": 0.11111914366483688,
+      "learning_rate": 1e-06,
+      "loss": 0.0095,
+      "num_tokens": 117101421.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1320803463459015,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3310.0,
+      "completions/mean_length": 639.5513916015625,
+      "completions/mean_terminated_length": 544.419677734375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 1.8769679300291546,
+      "grad_norm": 0.14538905024528503,
+      "learning_rate": 1e-06,
+      "loss": -0.0136,
+      "num_tokens": 117656771.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.2198163866996765,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4096.0,
+      "completions/mean_length": 720.6607666015625,
+      "completions/mean_terminated_length": 607.7600708007812,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 1.8862973760932946,
+      "grad_norm": 0.12490031123161316,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 118263779.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.19091658294200897,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3561.0,
+      "completions/mean_length": 665.1574096679688,
+      "completions/mean_terminated_length": 578.7974853515625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 1.8956268221574344,
+      "grad_norm": 0.14387813210487366,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 118861440.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.22428692877292633,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3222.0,
+      "completions/mean_length": 674.015625,
+      "completions/mean_terminated_length": 587.878662109375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.9049562682215744,
+      "grad_norm": 0.13967692852020264,
+      "learning_rate": 1e-06,
+      "loss": -0.0065,
+      "num_tokens": 119472198.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.21132442355155945,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2532.0,
+      "completions/mean_length": 670.1942138671875,
+      "completions/mean_terminated_length": 583.9610595703125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 1.9142857142857141,
+      "grad_norm": 0.12676329910755157,
+      "learning_rate": 1e-06,
+      "loss": -0.0181,
+      "num_tokens": 120068396.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.19636492431163788,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 768.0022583007812,
+      "completions/mean_terminated_length": 632.7177734375,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 1.9236151603498541,
+      "grad_norm": 0.12641918659210205,
+      "learning_rate": 1e-06,
+      "loss": -0.0208,
+      "num_tokens": 120692790.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.18370550870895386,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4066.0,
+      "completions/mean_length": 699.052490234375,
+      "completions/mean_terminated_length": 573.2395629882812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.9329446064139941,
+      "grad_norm": 0.13479377329349518,
+      "learning_rate": 1e-06,
+      "loss": -0.0054,
+      "num_tokens": 121281517.0,
+      "reward": 0.609375,
+      "reward_std": 0.18986602127552032,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3974.0,
+      "completions/mean_length": 702.3873291015625,
+      "completions/mean_terminated_length": 616.9644775390625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.9422740524781341,
+      "grad_norm": 0.12791851162910461,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 121911736.0,
+      "reward": 0.5546875,
+      "reward_std": 0.22090084850788116,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2966.0,
+      "completions/mean_length": 572.6261596679688,
+      "completions/mean_terminated_length": 512.6367797851562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.951603498542274,
+      "grad_norm": 0.14209264516830444,
+      "learning_rate": 1e-06,
+      "loss": 0.0075,
+      "num_tokens": 122448593.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17728513479232788,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2354.0,
+      "completions/mean_length": 627.505615234375,
+      "completions/mean_terminated_length": 548.316162109375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 1.960932944606414,
+      "grad_norm": 0.15689514577388763,
+      "learning_rate": 1e-06,
+      "loss": 0.0121,
+      "num_tokens": 123011542.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.22984997928142548,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2622.0,
+      "completions/mean_length": 625.239990234375,
+      "completions/mean_terminated_length": 578.1256103515625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.970262390670554,
+      "grad_norm": 0.1276608407497406,
+      "learning_rate": 1e-06,
+      "loss": 0.015,
+      "num_tokens": 123612525.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1978694498538971,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 634.7767944335938,
+      "completions/mean_terminated_length": 551.7073974609375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.9795918367346939,
+      "grad_norm": 0.12583675980567932,
+      "learning_rate": 1e-06,
+      "loss": 0.0092,
+      "num_tokens": 124179805.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.17829149961471558,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3283.0,
+      "completions/mean_length": 607.0256958007812,
+      "completions/mean_terminated_length": 531.4378662109375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 1.9889212827988338,
+      "grad_norm": 0.11668175458908081,
+      "learning_rate": 1e-06,
+      "loss": 0.0015,
+      "num_tokens": 124738628.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.1591670960187912,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022727272727272707,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 648.7698974609375,
+      "completions/mean_terminated_length": 568.6017456054688,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 1.9982507288629736,
+      "grad_norm": 0.13209541141986847,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 125315000.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.15916749835014343,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3347.0,
+      "completions/mean_length": 642.4342041015625,
+      "completions/mean_terminated_length": 563.5855712890625,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 2.00932944606414,
+      "grad_norm": 0.13432128727436066,
+      "learning_rate": 1e-06,
+      "loss": -0.0043,
+      "num_tokens": 125897189.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.20455309748649597,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.4909749925136566,
+      "step": 215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 745.1439819335938,
+      "completions/mean_terminated_length": 580.3477783203125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 2.01865889212828,
+      "grad_norm": 0.1319049894809723,
+      "learning_rate": 1e-06,
+      "loss": 0.0042,
+      "num_tokens": 126482486.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.18362995982170105,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3784.0,
+      "completions/mean_length": 691.177490234375,
+      "completions/mean_terminated_length": 569.1549072265625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 2.02798833819242,
+      "grad_norm": 0.1434415578842163,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 127068501.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.18968310952186584,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 738.1116333007812,
+      "completions/mean_terminated_length": 649.6449584960938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.03731778425656,
+      "grad_norm": 0.12249483913183212,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 127726953.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.19047404825687408,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2979.0,
+      "completions/mean_length": 612.349365234375,
+      "completions/mean_terminated_length": 528.74169921875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.0466472303206995,
+      "grad_norm": 0.1585049331188202,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 128276946.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.19697223603725433,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3931.0,
+      "completions/mean_length": 690.4531860351562,
+      "completions/mean_terminated_length": 632.469970703125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 2.0559766763848395,
+      "grad_norm": 0.11900050193071365,
+      "learning_rate": 1e-06,
+      "loss": -0.0073,
+      "num_tokens": 128928688.0,
+      "reward": 0.527901828289032,
+      "reward_std": 0.2089158594608307,
+      "rewards/verify_math_reward/mean": 0.5279017686843872,
+      "rewards/verify_math_reward/std": 0.49949970841407776,
+      "step": 220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2485.0,
+      "completions/mean_length": 631.4888916015625,
+      "completions/mean_terminated_length": 548.340576171875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.0653061224489795,
+      "grad_norm": 0.12185671925544739,
+      "learning_rate": 1e-06,
+      "loss": 0.004,
+      "num_tokens": 129496398.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15931907296180725,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3327.0,
+      "completions/mean_length": 696.169677734375,
+      "completions/mean_terminated_length": 598.5855102539062,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 2.0746355685131195,
+      "grad_norm": 0.13736842572689056,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 130109414.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.1922753006219864,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 603.3817138671875,
+      "completions/mean_terminated_length": 551.9614868164062,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 2.0839650145772595,
+      "grad_norm": 0.13463492691516876,
+      "learning_rate": 1e-06,
+      "loss": 0.0113,
+      "num_tokens": 130697916.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1837783008813858,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3457.0,
+      "completions/mean_length": 706.3772583007812,
+      "completions/mean_terminated_length": 588.9537963867188,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 2.0932944606413995,
+      "grad_norm": 0.1270330399274826,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 131293654.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.16532759368419647,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3808.0,
+      "completions/mean_length": 744.7210083007812,
+      "completions/mean_terminated_length": 628.6258544921875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 2.1026239067055394,
+      "grad_norm": 0.12777270376682281,
+      "learning_rate": 1e-06,
+      "loss": -0.0034,
+      "num_tokens": 131936452.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.19794613122940063,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3455.0,
+      "completions/mean_length": 712.6752319335938,
+      "completions/mean_terminated_length": 615.5648803710938,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 2.1119533527696794,
+      "grad_norm": 0.12400238960981369,
+      "learning_rate": 1e-06,
+      "loss": 0.0095,
+      "num_tokens": 132564457.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.2014826238155365,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2392.0,
+      "completions/mean_length": 635.0111694335938,
+      "completions/mean_terminated_length": 560.0296020507812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 2.1212827988338194,
+      "grad_norm": 0.13383056223392487,
+      "learning_rate": 1e-06,
+      "loss": 0.0012,
+      "num_tokens": 133138355.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1817513257265091,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2308.0,
+      "completions/mean_length": 729.9531860351562,
+      "completions/mean_terminated_length": 580.8741455078125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.130612244897959,
+      "grad_norm": 0.13521888852119446,
+      "learning_rate": 1e-06,
+      "loss": 0.0125,
+      "num_tokens": 133725153.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.18532174825668335,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 751.7991333007812,
+      "completions/mean_terminated_length": 639.9400024414062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.139941690962099,
+      "grad_norm": 0.1175265908241272,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 134374917.0,
+      "reward": 0.5703125,
+      "reward_std": 0.16758599877357483,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3413.0,
+      "completions/mean_length": 643.3671875,
+      "completions/mean_terminated_length": 568.5667114257812,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 2.149271137026239,
+      "grad_norm": 0.12349607795476913,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 134959142.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.18867096304893494,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3900.0,
+      "completions/mean_length": 674.7578125,
+      "completions/mean_terminated_length": 568.4591674804688,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 2.158600583090379,
+      "grad_norm": 0.12909038364887238,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 135542869.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.15849308669567108,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 806.5513916015625,
+      "completions/mean_terminated_length": 636.6737060546875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.167930029154519,
+      "grad_norm": 0.126162588596344,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 136175691.0,
+      "reward": 0.527901828289032,
+      "reward_std": 0.17333535850048065,
+      "rewards/verify_math_reward/mean": 0.5279017686843872,
+      "rewards/verify_math_reward/std": 0.49949970841407776,
+      "step": 232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3747.0,
+      "completions/mean_length": 686.4486694335938,
+      "completions/mean_terminated_length": 628.3972778320312,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 2.177259475218659,
+      "grad_norm": 0.13025717437267303,
+      "learning_rate": 1e-06,
+      "loss": 0.0162,
+      "num_tokens": 136820573.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.1826963573694229,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3287.0,
+      "completions/mean_length": 633.8560791015625,
+      "completions/mean_terminated_length": 562.878173828125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.186588921282799,
+      "grad_norm": 0.13308566808700562,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 137422044.0,
+      "reward": 0.5546875,
+      "reward_std": 0.1856248527765274,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3675.0,
+      "completions/mean_length": 647.9006958007812,
+      "completions/mean_terminated_length": 536.671630859375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 2.195918367346939,
+      "grad_norm": 0.13044235110282898,
+      "learning_rate": 1e-06,
+      "loss": -0.0081,
+      "num_tokens": 137975171.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.18187008798122406,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3509.0,
+      "completions/mean_length": 646.7444458007812,
+      "completions/mean_terminated_length": 559.9210205078125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 2.205247813411079,
+      "grad_norm": 0.13473135232925415,
+      "learning_rate": 1e-06,
+      "loss": 0.0113,
+      "num_tokens": 138553974.0,
+      "reward": 0.625,
+      "reward_std": 0.170893594622612,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4016.0,
+      "completions/mean_length": 678.3817138671875,
+      "completions/mean_terminated_length": 584.3187866210938,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 2.2145772594752184,
+      "grad_norm": 0.14180408418178558,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 139146908.0,
+      "reward": 0.5546875,
+      "reward_std": 0.20688636600971222,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3590.0,
+      "completions/mean_length": 685.0391235351562,
+      "completions/mean_terminated_length": 570.9468994140625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 2.2239067055393584,
+      "grad_norm": 0.12916496396064758,
+      "learning_rate": 1e-06,
+      "loss": -0.0024,
+      "num_tokens": 139723655.0,
+      "reward": 0.5859375,
+      "reward_std": 0.17723983526229858,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 687.3460083007812,
+      "completions/mean_terminated_length": 544.6581420898438,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 2.2332361516034984,
+      "grad_norm": 0.13915696740150452,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 140283253.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1831093281507492,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 685.9866333007812,
+      "completions/mean_terminated_length": 567.8568115234375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 2.2425655976676384,
+      "grad_norm": 0.1293559968471527,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 140850161.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.18013623356819153,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3344.0,
+      "completions/mean_length": 684.4576416015625,
+      "completions/mean_terminated_length": 586.5372924804688,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 2.2518950437317784,
+      "grad_norm": 0.13639135658740997,
+      "learning_rate": 1e-06,
+      "loss": 0.0034,
+      "num_tokens": 141449515.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.20136500895023346,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2907.0,
+      "completions/mean_length": 647.484375,
+      "completions/mean_terminated_length": 576.785888671875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.2612244897959184,
+      "grad_norm": 0.14444217085838318,
+      "learning_rate": 1e-06,
+      "loss": -0.0011,
+      "num_tokens": 142035901.0,
+      "reward": 0.640625,
+      "reward_std": 0.19114483892917633,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2298.0,
+      "completions/mean_length": 644.4207763671875,
+      "completions/mean_terminated_length": 549.4231567382812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 2.2705539358600584,
+      "grad_norm": 0.1451975256204605,
+      "learning_rate": 1e-06,
+      "loss": 0.005,
+      "num_tokens": 142600654.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.19369465112686157,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2157.0,
+      "completions/mean_length": 631.1741333007812,
+      "completions/mean_terminated_length": 523.5213012695312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 2.2798833819241984,
+      "grad_norm": 0.13140873610973358,
+      "learning_rate": 1e-06,
+      "loss": 0.0099,
+      "num_tokens": 143132658.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.12726575136184692,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 684.7846069335938,
+      "completions/mean_terminated_length": 598.9187622070312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.2892128279883384,
+      "grad_norm": 0.1164131760597229,
+      "learning_rate": 1e-06,
+      "loss": 0.0106,
+      "num_tokens": 143739369.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.15364499390125275,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2779.0,
+      "completions/mean_length": 695.786865234375,
+      "completions/mean_terminated_length": 598.1917114257812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.298542274052478,
+      "grad_norm": 0.1390455663204193,
+      "learning_rate": 1e-06,
+      "loss": -0.0035,
+      "num_tokens": 144353386.0,
+      "reward": 0.5546875,
+      "reward_std": 0.22875411808490753,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2285.0,
+      "completions/mean_length": 648.5792846679688,
+      "completions/mean_terminated_length": 585.8988647460938,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 2.307871720116618,
+      "grad_norm": 0.11788541823625565,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 144964665.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.14928476512432098,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 652.0502319335938,
+      "completions/mean_terminated_length": 557.2625732421875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.317201166180758,
+      "grad_norm": 0.1455429196357727,
+      "learning_rate": 1e-06,
+      "loss": 0.0082,
+      "num_tokens": 145541598.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.2091120034456253,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3990.0,
+      "completions/mean_length": 765.8772583007812,
+      "completions/mean_terminated_length": 614.3314208984375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.326530612244898,
+      "grad_norm": 0.12138891220092773,
+      "learning_rate": 1e-06,
+      "loss": -0.0091,
+      "num_tokens": 146158736.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.1761525422334671,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2784.0,
+      "completions/mean_length": 676.435302734375,
+      "completions/mean_terminated_length": 574.2413940429688,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 2.335860058309038,
+      "grad_norm": 0.13957031071186066,
+      "learning_rate": 1e-06,
+      "loss": -0.0031,
+      "num_tokens": 146741390.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.18224169313907623,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4029.0,
+      "completions/mean_length": 684.7422485351562,
+      "completions/mean_terminated_length": 574.7015991210938,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 2.345189504373178,
+      "grad_norm": 0.13807563483715057,
+      "learning_rate": 1e-06,
+      "loss": 0.0082,
+      "num_tokens": 147332071.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.1879139393568039,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 663.5535888671875,
+      "completions/mean_terminated_length": 552.8294677734375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.354518950437318,
+      "grad_norm": 0.1375046819448471,
+      "learning_rate": 1e-06,
+      "loss": -0.0161,
+      "num_tokens": 147897255.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.19614629447460175,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3809.0,
+      "completions/mean_length": 698.0201416015625,
+      "completions/mean_terminated_length": 580.30712890625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.363848396501458,
+      "grad_norm": 0.12242113053798676,
+      "learning_rate": 1e-06,
+      "loss": -0.0052,
+      "num_tokens": 148484937.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17878076434135437,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3486.0,
+      "completions/mean_length": 735.7656860351562,
+      "completions/mean_terminated_length": 639.3179931640625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 2.373177842565598,
+      "grad_norm": 0.1236719936132431,
+      "learning_rate": 1e-06,
+      "loss": -0.01,
+      "num_tokens": 149124239.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.19235128164291382,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3532.0,
+      "completions/mean_length": 633.0256958007812,
+      "completions/mean_terminated_length": 562.03076171875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 2.3825072886297374,
+      "grad_norm": 0.13827461004257202,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 149702734.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1798752099275589,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3421.0,
+      "completions/mean_length": 687.4063110351562,
+      "completions/mean_terminated_length": 625.4318237304688,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.3918367346938774,
+      "grad_norm": 0.12812216579914093,
+      "learning_rate": 1e-06,
+      "loss": 0.0055,
+      "num_tokens": 150346810.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1626291275024414,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924396276473999,
+      "step": 256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3126.0,
+      "completions/mean_length": 762.3214721679688,
+      "completions/mean_terminated_length": 626.8060302734375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 2.4011661807580174,
+      "grad_norm": 0.12976829707622528,
+      "learning_rate": 1e-06,
+      "loss": -0.0068,
+      "num_tokens": 150975002.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.2015921026468277,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2072.0,
+      "completions/mean_length": 613.458740234375,
+      "completions/mean_terminated_length": 558.1802978515625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.4104956268221573,
+      "grad_norm": 0.1474219262599945,
+      "learning_rate": 1e-06,
+      "loss": 0.0146,
+      "num_tokens": 151552221.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.21327468752861023,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3121.0,
+      "completions/mean_length": 644.9910888671875,
+      "completions/mean_terminated_length": 574.241455078125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.4198250728862973,
+      "grad_norm": 0.13549746572971344,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 152147941.0,
+      "reward": 0.6484375,
+      "reward_std": 0.18719924986362457,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3575.0,
+      "completions/mean_length": 712.3973388671875,
+      "completions/mean_terminated_length": 583.0127563476562,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.4291545189504373,
+      "grad_norm": 0.14896702766418457,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 152742713.0,
+      "reward": 0.5859375,
+      "reward_std": 0.22575145959854126,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3941.0,
+      "completions/mean_length": 727.5491333007812,
+      "completions/mean_terminated_length": 594.686767578125,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 2.4384839650145773,
+      "grad_norm": 0.11539198458194733,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 153350613.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.16044840216636658,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3950.0,
+      "completions/mean_length": 652.4910888671875,
+      "completions/mean_terminated_length": 565.8123168945312,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 2.4478134110787173,
+      "grad_norm": 0.14026306569576263,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 153933973.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.19610463082790375,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3971.0,
+      "completions/mean_length": 673.318115234375,
+      "completions/mean_terminated_length": 566.9746704101562,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 2.4571428571428573,
+      "grad_norm": 0.13149487972259521,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 154511482.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15774421393871307,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2637.0,
+      "completions/mean_length": 708.6160888671875,
+      "completions/mean_terminated_length": 579.0869140625,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 2.466472303206997,
+      "grad_norm": 0.12381426990032196,
+      "learning_rate": 1e-06,
+      "loss": 0.006,
+      "num_tokens": 155105466.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.18670931458473206,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3791.0,
+      "completions/mean_length": 747.6719360351562,
+      "completions/mean_terminated_length": 611.5609741210938,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.4758017492711373,
+      "grad_norm": 0.1241414025425911,
+      "learning_rate": 1e-06,
+      "loss": -0.004,
+      "num_tokens": 155720764.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.16950349509716034,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3594.0,
+      "completions/mean_length": 702.8370971679688,
+      "completions/mean_terminated_length": 569.0,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.485131195335277,
+      "grad_norm": 0.13266952335834503,
+      "learning_rate": 1e-06,
+      "loss": 0.0092,
+      "num_tokens": 156294586.0,
+      "reward": 0.65625,
+      "reward_std": 0.1885526329278946,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3111.0,
+      "completions/mean_length": 712.3895263671875,
+      "completions/mean_terminated_length": 599.2122192382812,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.494460641399417,
+      "grad_norm": 0.13610923290252686,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 156900311.0,
+      "reward": 0.6015625,
+      "reward_std": 0.20452313125133514,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4058.0,
+      "completions/mean_length": 845.966552734375,
+      "completions/mean_terminated_length": 657.9480590820312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.503790087463557,
+      "grad_norm": 0.13023985922336578,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 157556569.0,
+      "reward": 0.5703125,
+      "reward_std": 0.20249363780021667,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3107.0,
+      "completions/mean_length": 696.1239013671875,
+      "completions/mean_terminated_length": 598.5384521484375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.513119533527697,
+      "grad_norm": 0.14194142818450928,
+      "learning_rate": 1e-06,
+      "loss": -0.0102,
+      "num_tokens": 158162736.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.19490069150924683,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2937.0,
+      "completions/mean_length": 694.4676513671875,
+      "completions/mean_terminated_length": 584.7407836914062,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 2.522448979591837,
+      "grad_norm": 0.127032071352005,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 158764067.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.16969217360019684,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924396276473999,
+      "step": 270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3898.0,
+      "completions/mean_length": 819.3303833007812,
+      "completions/mean_terminated_length": 658.1826171875,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 2.5317784256559768,
+      "grad_norm": 0.11828536540269852,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 159437155.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.16713954508304596,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4081.0,
+      "completions/mean_length": 692.1060791015625,
+      "completions/mean_terminated_length": 586.3463745117188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.5411078717201168,
+      "grad_norm": 0.128693625330925,
+      "learning_rate": 1e-06,
+      "loss": 0.0013,
+      "num_tokens": 160041778.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1709274798631668,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2583.0,
+      "completions/mean_length": 720.4855346679688,
+      "completions/mean_terminated_length": 607.5789794921875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 2.5504373177842563,
+      "grad_norm": 0.13341568410396576,
+      "learning_rate": 1e-06,
+      "loss": -0.0138,
+      "num_tokens": 160650685.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.21669355034828186,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2881.0,
+      "completions/mean_length": 834.2064819335938,
+      "completions/mean_terminated_length": 689.7447509765625,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 2.5597667638483967,
+      "grad_norm": 0.1141742542386055,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 161327294.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.18318237364292145,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 735.2232666015625,
+      "completions/mean_terminated_length": 618.799072265625,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.5690962099125363,
+      "grad_norm": 0.14005409181118011,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 161950254.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.21793986856937408,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3661.0,
+      "completions/mean_length": 745.7188110351562,
+      "completions/mean_terminated_length": 629.658203125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 2.5784256559766763,
+      "grad_norm": 0.1346922665834427,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 162592810.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.15308299660682678,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3345.0,
+      "completions/mean_length": 690.3192138671875,
+      "completions/mean_terminated_length": 596.5848388671875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.5877551020408163,
+      "grad_norm": 0.12718650698661804,
+      "learning_rate": 1e-06,
+      "loss": -0.0014,
+      "num_tokens": 163199968.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.16612036526203156,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3958.0,
+      "completions/mean_length": 733.9542846679688,
+      "completions/mean_terminated_length": 617.4861450195312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.5970845481049563,
+      "grad_norm": 0.1426485925912857,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 163827303.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.227071613073349,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3851.0,
+      "completions/mean_length": 717.0826416015625,
+      "completions/mean_terminated_length": 595.9884033203125,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.6064139941690962,
+      "grad_norm": 0.12692730128765106,
+      "learning_rate": 1e-06,
+      "loss": -0.0129,
+      "num_tokens": 164429857.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.18617936968803406,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 691.7109985351562,
+      "completions/mean_terminated_length": 589.9735717773438,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.6157434402332362,
+      "grad_norm": 0.1253710389137268,
+      "learning_rate": 1e-06,
+      "loss": -0.0195,
+      "num_tokens": 165027518.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.1799846738576889,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3746.0,
+      "completions/mean_length": 627.1495971679688,
+      "completions/mean_terminated_length": 551.9976806640625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.6250728862973762,
+      "grad_norm": 0.12407125532627106,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 165592540.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1655130386352539,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3987.0,
+      "completions/mean_length": 686.6830444335938,
+      "completions/mean_terminated_length": 600.864990234375,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 2.6344023323615158,
+      "grad_norm": 0.13460440933704376,
+      "learning_rate": 1e-06,
+      "loss": 0.0021,
+      "num_tokens": 166202360.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.21467113494873047,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 712.7678833007812,
+      "completions/mean_terminated_length": 579.322509765625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 2.643731778425656,
+      "grad_norm": 0.13798287510871887,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 166782248.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.18077561259269714,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 624.8058471679688,
+      "completions/mean_terminated_length": 569.70751953125,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 2.6530612244897958,
+      "grad_norm": 0.13172586262226105,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 167379986.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.20380382239818573,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 731.4319458007812,
+      "completions/mean_terminated_length": 626.8941650390625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 2.6623906705539357,
+      "grad_norm": 0.13110998272895813,
+      "learning_rate": 1e-06,
+      "loss": 0.0097,
+      "num_tokens": 168014325.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.20031006634235382,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3399.0,
+      "completions/mean_length": 836.4029541015625,
+      "completions/mean_terminated_length": 684.0852661132812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 2.6717201166180757,
+      "grad_norm": 0.12780140340328217,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 168688862.0,
+      "reward": 0.5033482313156128,
+      "reward_std": 0.20929564535617828,
+      "rewards/verify_math_reward/mean": 0.5033482313156128,
+      "rewards/verify_math_reward/std": 0.5002680420875549,
+      "step": 286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3452.0,
+      "completions/mean_length": 806.0279541015625,
+      "completions/mean_terminated_length": 640.1793212890625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.6810495626822157,
+      "grad_norm": 0.14262090623378754,
+      "learning_rate": 1e-06,
+      "loss": -0.0193,
+      "num_tokens": 169329551.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.21023672819137573,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3893.0,
+      "completions/mean_length": 756.5324096679688,
+      "completions/mean_terminated_length": 656.732177734375,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 2.6903790087463557,
+      "grad_norm": 0.13744673132896423,
+      "learning_rate": 1e-06,
+      "loss": -0.0134,
+      "num_tokens": 169985756.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.209860160946846,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3752.0,
+      "completions/mean_length": 791.9910888671875,
+      "completions/mean_terminated_length": 637.5980834960938,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 2.6997084548104957,
+      "grad_norm": 0.12104486674070358,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 170615828.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1975242644548416,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3303.0,
+      "completions/mean_length": 699.5926513671875,
+      "completions/mean_terminated_length": 585.9873046875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 2.7090379008746357,
+      "grad_norm": 0.13590072095394135,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 171211327.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.21537834405899048,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3208.0,
+      "completions/mean_length": 694.810302734375,
+      "completions/mean_terminated_length": 617.1575317382812,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 2.7183673469387752,
+      "grad_norm": 0.12708239257335663,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 171842253.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.18445271253585815,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 850.9721069335938,
+      "completions/mean_terminated_length": 634.6369018554688,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 2.7276967930029157,
+      "grad_norm": 0.15510284900665283,
+      "learning_rate": 1e-06,
+      "loss": -0.0266,
+      "num_tokens": 172477716.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.22793109714984894,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608627796173,
+      "step": 292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4044.0,
+      "completions/mean_length": 826.5535888671875,
+      "completions/mean_terminated_length": 669.7730712890625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 2.7370262390670552,
+      "grad_norm": 0.12435416132211685,
+      "learning_rate": 1e-06,
+      "loss": -0.0161,
+      "num_tokens": 173141332.0,
+      "reward": 0.5859375,
+      "reward_std": 0.20125439763069153,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 755.4810791015625,
+      "completions/mean_terminated_length": 619.6875610351562,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 2.746355685131195,
+      "grad_norm": 0.13841715455055237,
+      "learning_rate": 1e-06,
+      "loss": -0.003,
+      "num_tokens": 173775715.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.1816764622926712,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3861.0,
+      "completions/mean_length": 695.7176513671875,
+      "completions/mean_terminated_length": 614.11083984375,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 2.755685131195335,
+      "grad_norm": 0.11661636084318161,
+      "learning_rate": 1e-06,
+      "loss": -0.0054,
+      "num_tokens": 174398982.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.16758419573307037,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2765.0,
+      "completions/mean_length": 758.3739013671875,
+      "completions/mean_terminated_length": 630.7473754882812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 2.765014577259475,
+      "grad_norm": 0.12156891077756882,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 175031981.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.18878085911273956,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3295.0,
+      "completions/mean_length": 734.0658569335938,
+      "completions/mean_terminated_length": 617.6016235351562,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 2.774344023323615,
+      "grad_norm": 0.119770847260952,
+      "learning_rate": 1e-06,
+      "loss": 0.0125,
+      "num_tokens": 175655112.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.1534930318593979,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3443.0,
+      "completions/mean_length": 753.6842041015625,
+      "completions/mean_terminated_length": 645.8674926757812,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 2.783673469387755,
+      "grad_norm": 0.12274106591939926,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 176307997.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.17292234301567078,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2867.0,
+      "completions/mean_length": 721.5748291015625,
+      "completions/mean_terminated_length": 616.730712890625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 2.793002915451895,
+      "grad_norm": 0.13726380467414856,
+      "learning_rate": 1e-06,
+      "loss": 0.015,
+      "num_tokens": 176931768.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.1970803141593933,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3998.0,
+      "completions/mean_length": 804.8471069335938,
+      "completions/mean_terminated_length": 663.086181640625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 2.8023323615160347,
+      "grad_norm": 0.12969516217708588,
+      "learning_rate": 1e-06,
+      "loss": -0.0093,
+      "num_tokens": 177585319.0,
+      "reward": 0.640625,
+      "reward_std": 0.18727383017539978,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3934.0,
+      "completions/mean_length": 726.7924194335938,
+      "completions/mean_terminated_length": 593.9002075195312,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 2.811661807580175,
+      "grad_norm": 0.14020316302776337,
+      "learning_rate": 1e-06,
+      "loss": 0.0162,
+      "num_tokens": 178177909.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.19918397068977356,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3830.0,
+      "completions/mean_length": 809.2969360351562,
+      "completions/mean_terminated_length": 655.7125854492188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 2.8209912536443147,
+      "grad_norm": 0.12125155329704285,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 178822887.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.18674279749393463,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3174.0,
+      "completions/mean_length": 877.5480346679688,
+      "completions/mean_terminated_length": 695.3714599609375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.8303206997084547,
+      "grad_norm": 0.11820695549249649,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 179502426.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.1722055822610855,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3073.0,
+      "completions/mean_length": 800.5279541015625,
+      "completions/mean_terminated_length": 613.9917602539062,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.8396501457725947,
+      "grad_norm": 0.148163303732872,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 180114115.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.20298148691654205,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3732.0,
+      "completions/mean_length": 752.1060791015625,
+      "completions/mean_terminated_length": 632.2670288085938,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.8489795918367347,
+      "grad_norm": 0.12780609726905823,
+      "learning_rate": 1e-06,
+      "loss": 0.0034,
+      "num_tokens": 180760290.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.1936621367931366,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2813.0,
+      "completions/mean_length": 759.0078735351562,
+      "completions/mean_terminated_length": 590.7889404296875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.8583090379008746,
+      "grad_norm": 0.14202755689620972,
+      "learning_rate": 1e-06,
+      "loss": -0.0203,
+      "num_tokens": 181347369.0,
+      "reward": 0.6171875,
+      "reward_std": 0.19032178819179535,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 771.2701416015625,
+      "completions/mean_terminated_length": 611.8385620117188,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 2.8676384839650146,
+      "grad_norm": 0.12430532276630402,
+      "learning_rate": 1e-06,
+      "loss": -0.0189,
+      "num_tokens": 181954051.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.18660052120685577,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3187.0,
+      "completions/mean_length": 709.0357666015625,
+      "completions/mean_terminated_length": 607.8161010742188,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 2.8769679300291546,
+      "grad_norm": 0.12658368051052094,
+      "learning_rate": 1e-06,
+      "loss": -0.0331,
+      "num_tokens": 182569659.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1687125563621521,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2317.0,
+      "completions/mean_length": 749.9420166015625,
+      "completions/mean_terminated_length": 597.6709594726562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 2.8862973760932946,
+      "grad_norm": 0.15306328237056732,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 183168999.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.19185978174209595,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 793.0424194335938,
+      "completions/mean_terminated_length": 682.5628662109375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 2.8956268221574346,
+      "grad_norm": 0.1336117535829544,
+      "learning_rate": 1e-06,
+      "loss": 0.0022,
+      "num_tokens": 183846117.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.2092161625623703,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3138.0,
+      "completions/mean_length": 654.21875,
+      "completions/mean_terminated_length": 571.615966796875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.904956268221574,
+      "grad_norm": 0.13915765285491943,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 184445465.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1670207679271698,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2999.0,
+      "completions/mean_length": 806.3750610351562,
+      "completions/mean_terminated_length": 616.0661010742188,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 2.914285714285714,
+      "grad_norm": 0.11749313771724701,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 185057617.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.16330063343048096,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3283.0,
+      "completions/mean_length": 842.8047485351562,
+      "completions/mean_terminated_length": 654.603271484375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 2.923615160349854,
+      "grad_norm": 0.12479273229837418,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 185705722.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.1788228303194046,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3960.0,
+      "completions/mean_length": 815.9564819335938,
+      "completions/mean_terminated_length": 678.65234375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 2.932944606413994,
+      "grad_norm": 0.13630305230617523,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 186378835.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.2210107296705246,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 789.427490234375,
+      "completions/mean_terminated_length": 642.9825439453125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.942274052478134,
+      "grad_norm": 0.1420001983642578,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 187025226.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.2113226056098938,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3755.0,
+      "completions/mean_length": 719.5178833007812,
+      "completions/mean_terminated_length": 610.5990600585938,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 2.951603498542274,
+      "grad_norm": 0.13174320757389069,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 187650298.0,
+      "reward": 0.625,
+      "reward_std": 0.18167534470558167,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 897.2756958007812,
+      "completions/mean_terminated_length": 684.0274047851562,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.960932944606414,
+      "grad_norm": 0.14336876571178436,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 188312193.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.22796174883842468,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3898.0,
+      "completions/mean_length": 705.3460083007812,
+      "completions/mean_terminated_length": 595.9700317382812,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 2.970262390670554,
+      "grad_norm": 0.137048602104187,
+      "learning_rate": 1e-06,
+      "loss": 0.015,
+      "num_tokens": 188918647.0,
+      "reward": 0.625,
+      "reward_std": 0.1834437996149063,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 820.5960083007812,
+      "completions/mean_terminated_length": 627.01416015625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.979591836734694,
+      "grad_norm": 0.13644100725650787,
+      "learning_rate": 1e-06,
+      "loss": -0.0258,
+      "num_tokens": 189538885.0,
+      "reward": 0.59375,
+      "reward_std": 0.1806686669588089,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3684.0,
+      "completions/mean_length": 742.325927734375,
+      "completions/mean_terminated_length": 630.14990234375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 2.9889212827988336,
+      "grad_norm": 0.1360906958580017,
+      "learning_rate": 1e-06,
+      "loss": -0.0073,
+      "num_tokens": 190181929.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.20564965903759003,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03409090909090906,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2206.0,
+      "completions/mean_length": 759.9290161132812,
+      "completions/mean_terminated_length": 642.185302734375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 2.9982507288629736,
+      "grad_norm": 0.1385015845298767,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 190826068.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1921198070049286,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 949.23779296875,
+      "completions/mean_terminated_length": 731.4427490234375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 3.00932944606414,
+      "grad_norm": 0.11967211216688156,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 191529305.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.18475790321826935,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3436.0,
+      "completions/mean_length": 883.6585083007812,
+      "completions/mean_terminated_length": 697.8204956054688,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 3.01865889212828,
+      "grad_norm": 0.1216469556093216,
+      "learning_rate": 1e-06,
+      "loss": -0.0085,
+      "num_tokens": 192202855.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.18122071027755737,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3403.0,
+      "completions/mean_length": 802.2857666015625,
+      "completions/mean_terminated_length": 628.1174926757812,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.02798833819242,
+      "grad_norm": 0.14834488928318024,
+      "learning_rate": 1e-06,
+      "loss": -0.0246,
+      "num_tokens": 192827047.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.18077422678470612,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 762.044677734375,
+      "completions/mean_terminated_length": 614.386962890625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 3.03731778425656,
+      "grad_norm": 0.12265503406524658,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 193444783.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.15834447741508484,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3284.0,
+      "completions/mean_length": 724.9910888671875,
+      "completions/mean_terminated_length": 592.02783203125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.0466472303206995,
+      "grad_norm": 0.1282912790775299,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 194035375.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1610461324453354,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 807.2578735351562,
+      "completions/mean_terminated_length": 661.6026000976562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.0559766763848395,
+      "grad_norm": 0.13438823819160461,
+      "learning_rate": 1e-06,
+      "loss": -0.017,
+      "num_tokens": 194695182.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.19633103907108307,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4056.0,
+      "completions/mean_length": 799.802490234375,
+      "completions/mean_terminated_length": 621.4199829101562,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.0653061224489795,
+      "grad_norm": 0.12980444729328156,
+      "learning_rate": 1e-06,
+      "loss": -0.0112,
+      "num_tokens": 195316141.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.16435371339321136,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2957.0,
+      "completions/mean_length": 755.5502319335938,
+      "completions/mean_terminated_length": 591.2658081054688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.0746355685131195,
+      "grad_norm": 0.14052127301692963,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 195911890.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1638326495885849,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2740.0,
+      "completions/mean_length": 805.3292846679688,
+      "completions/mean_terminated_length": 667.5802001953125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 3.0839650145772595,
+      "grad_norm": 0.12807653844356537,
+      "learning_rate": 1e-06,
+      "loss": -0.0127,
+      "num_tokens": 196581745.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.19851389527320862,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2539.0,
+      "completions/mean_length": 757.7500610351562,
+      "completions/mean_terminated_length": 601.7570190429688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 3.0932944606413995,
+      "grad_norm": 0.1517622321844101,
+      "learning_rate": 1e-06,
+      "loss": -0.0144,
+      "num_tokens": 197183625.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.22100962698459625,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3366.0,
+      "completions/mean_length": 733.9185791015625,
+      "completions/mean_terminated_length": 621.4613647460938,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 3.1026239067055394,
+      "grad_norm": 0.1199645847082138,
+      "learning_rate": 1e-06,
+      "loss": -0.0018,
+      "num_tokens": 197809648.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.15815789997577667,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3904.0,
+      "completions/mean_length": 678.7176513671875,
+      "completions/mean_terminated_length": 568.4827270507812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 3.1119533527696794,
+      "grad_norm": 0.13154439628124237,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 198398419.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.17104512453079224,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 814.3672485351562,
+      "completions/mean_terminated_length": 648.9390258789062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.1212827988338194,
+      "grad_norm": 0.1308983713388443,
+      "learning_rate": 1e-06,
+      "loss": 0.0096,
+      "num_tokens": 199052796.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1871657818555832,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2258.0,
+      "completions/mean_length": 734.5279541015625,
+      "completions/mean_terminated_length": 569.2095947265625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.130612244897959,
+      "grad_norm": 0.13285918533802032,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 199620445.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.1595052033662796,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3813.0,
+      "completions/mean_length": 834.1674194335938,
+      "completions/mean_terminated_length": 633.201416015625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.139941690962099,
+      "grad_norm": 0.14414021372795105,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 200245203.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.21414414048194885,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715369939804077,
+      "step": 336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 717.2098388671875,
+      "completions/mean_terminated_length": 592.0694580078125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 3.149271137026239,
+      "grad_norm": 0.1350342333316803,
+      "learning_rate": 1e-06,
+      "loss": 0.013,
+      "num_tokens": 200844055.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1555229276418686,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2955.0,
+      "completions/mean_length": 1013.9542846679688,
+      "completions/mean_terminated_length": 703.4778442382812,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 3.158600583090379,
+      "grad_norm": 0.13759945333003998,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 201531270.0,
+      "reward": 0.4843750298023224,
+      "reward_std": 0.2063218653202057,
+      "rewards/verify_math_reward/mean": 0.484375,
+      "rewards/verify_math_reward/std": 0.5000349283218384,
+      "step": 338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2865.0,
+      "completions/mean_length": 798.8047485351562,
+      "completions/mean_terminated_length": 652.7750854492188,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 3.167930029154519,
+      "grad_norm": 0.12224580347537994,
+      "learning_rate": 1e-06,
+      "loss": 0.0057,
+      "num_tokens": 202183879.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.15172609686851501,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 839.232177734375,
+      "completions/mean_terminated_length": 646.7517700195312,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 3.177259475218659,
+      "grad_norm": 0.12868469953536987,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 202815927.0,
+      "reward": 0.6328125,
+      "reward_std": 0.16232240200042725,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 784.029052734375,
+      "completions/mean_terminated_length": 633.3092041015625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.186588921282799,
+      "grad_norm": 0.13547104597091675,
+      "learning_rate": 1e-06,
+      "loss": -0.0107,
+      "num_tokens": 203441345.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.19956375658512115,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3756.0,
+      "completions/mean_length": 877.294677734375,
+      "completions/mean_terminated_length": 703.1058349609375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 3.195918367346939,
+      "grad_norm": 0.12017311155796051,
+      "learning_rate": 1e-06,
+      "loss": -0.02,
+      "num_tokens": 204132457.0,
+      "reward": 0.5703125,
+      "reward_std": 0.18701379001140594,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3038.0,
+      "completions/mean_length": 810.6585083007812,
+      "completions/mean_terminated_length": 640.9929809570312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.205247813411079,
+      "grad_norm": 0.14066319167613983,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 204764687.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.19855482876300812,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3736.0,
+      "completions/mean_length": 821.4386596679688,
+      "completions/mean_terminated_length": 640.161376953125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.2145772594752184,
+      "grad_norm": 0.13110028207302094,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 205396744.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.17461301386356354,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3519.0,
+      "completions/mean_length": 894.1819458007812,
+      "completions/mean_terminated_length": 672.576416015625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.2239067055393584,
+      "grad_norm": 0.1255418211221695,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 206055147.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.16761739552021027,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3613.0,
+      "completions/mean_length": 761.8192138671875,
+      "completions/mean_terminated_length": 618.2048950195312,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.2332361516034984,
+      "grad_norm": 0.13259796798229218,
+      "learning_rate": 1e-06,
+      "loss": -0.0126,
+      "num_tokens": 206670137.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.15240898728370667,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3766.0,
+      "completions/mean_length": 769.3906860351562,
+      "completions/mean_terminated_length": 638.1786499023438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.2425655976676384,
+      "grad_norm": 0.1300286501646042,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 207311479.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1719466745853424,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3720.0,
+      "completions/mean_length": 715.3236694335938,
+      "completions/mean_terminated_length": 577.8977661132812,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 3.2518950437317784,
+      "grad_norm": 0.17092815041542053,
+      "learning_rate": 1e-06,
+      "loss": -0.0124,
+      "num_tokens": 207900249.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.17604516446590424,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3926.0,
+      "completions/mean_length": 981.646240234375,
+      "completions/mean_terminated_length": 746.1068115234375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 3.2612244897959184,
+      "grad_norm": 0.12846660614013672,
+      "learning_rate": 1e-06,
+      "loss": 0.0013,
+      "num_tokens": 208616604.0,
+      "reward": 0.5189732313156128,
+      "reward_std": 0.2100858986377716,
+      "rewards/verify_math_reward/mean": 0.5189732313156128,
+      "rewards/verify_math_reward/std": 0.49991893768310547,
+      "step": 349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3805.0,
+      "completions/mean_length": 798.0156860351562,
+      "completions/mean_terminated_length": 643.9041748046875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 3.2705539358600584,
+      "grad_norm": 0.12801715731620789,
+      "learning_rate": 1e-06,
+      "loss": -0.0081,
+      "num_tokens": 209260250.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.17615465819835663,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 845.1674194335938,
+      "completions/mean_terminated_length": 648.9633178710938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 3.2798833819241984,
+      "grad_norm": 0.12162301689386368,
+      "learning_rate": 1e-06,
+      "loss": 0.0048,
+      "num_tokens": 209895280.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.14481490850448608,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4081.0,
+      "completions/mean_length": 923.4342041015625,
+      "completions/mean_terminated_length": 715.95361328125,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 3.2892128279883384,
+      "grad_norm": 0.12108243256807327,
+      "learning_rate": 1e-06,
+      "loss": -0.0364,
+      "num_tokens": 210592045.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.18948623538017273,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3635.0,
+      "completions/mean_length": 807.1127319335938,
+      "completions/mean_terminated_length": 625.0424194335938,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.298542274052478,
+      "grad_norm": 0.13322065770626068,
+      "learning_rate": 1e-06,
+      "loss": -0.0205,
+      "num_tokens": 211216226.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.17345327138900757,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3189.0,
+      "completions/mean_length": 850.6451416015625,
+      "completions/mean_terminated_length": 666.9457397460938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 3.307871720116618,
+      "grad_norm": 0.1369079053401947,
+      "learning_rate": 1e-06,
+      "loss": -0.0038,
+      "num_tokens": 211872716.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.20595093071460724,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514806270599365,
+      "step": 354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3232.0,
+      "completions/mean_length": 659.6707763671875,
+      "completions/mean_terminated_length": 565.0928955078125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.317201166180758,
+      "grad_norm": 0.12828774750232697,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 212442845.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14011836051940918,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 855.2533569335938,
+      "completions/mean_terminated_length": 639.20361328125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 3.326530612244898,
+      "grad_norm": 0.1488858014345169,
+      "learning_rate": 1e-06,
+      "loss": -0.0146,
+      "num_tokens": 213070536.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.19805879890918732,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3558.0,
+      "completions/mean_length": 906.4531860351562,
+      "completions/mean_terminated_length": 717.9456176757812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.335860058309038,
+      "grad_norm": 0.12346269190311432,
+      "learning_rate": 1e-06,
+      "loss": -0.0187,
+      "num_tokens": 213775022.0,
+      "reward": 0.5334821939468384,
+      "reward_std": 0.19276244938373566,
+      "rewards/verify_math_reward/mean": 0.5334821343421936,
+      "rewards/verify_math_reward/std": 0.49915629625320435,
+      "step": 357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3589.0,
+      "completions/mean_length": 749.1517944335938,
+      "completions/mean_terminated_length": 604.9918823242188,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 3.345189504373178,
+      "grad_norm": 0.13450050354003906,
+      "learning_rate": 1e-06,
+      "loss": 0.0006,
+      "num_tokens": 214378478.0,
+      "reward": 0.640625,
+      "reward_std": 0.18065868318080902,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 925.1730346679688,
+      "completions/mean_terminated_length": 685.362548828125,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 3.354518950437318,
+      "grad_norm": 0.13113565742969513,
+      "learning_rate": 1e-06,
+      "loss": -0.0241,
+      "num_tokens": 215044105.0,
+      "reward": 0.5859375,
+      "reward_std": 0.1839662492275238,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2868.0,
+      "completions/mean_length": 796.208740234375,
+      "completions/mean_terminated_length": 617.6317138671875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.363848396501458,
+      "grad_norm": 0.13019555807113647,
+      "learning_rate": 1e-06,
+      "loss": -0.007,
+      "num_tokens": 215660004.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.17130474746227264,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3120.0,
+      "completions/mean_length": 774.4866333007812,
+      "completions/mean_terminated_length": 586.4764404296875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.373177842565598,
+      "grad_norm": 0.13915102183818817,
+      "learning_rate": 1e-06,
+      "loss": -0.0244,
+      "num_tokens": 216258056.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1818615049123764,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3350.0,
+      "completions/mean_length": 713.1763916015625,
+      "completions/mean_terminated_length": 575.6631469726562,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 3.3825072886297374,
+      "grad_norm": 0.15761631727218628,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 216839854.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.18945163488388062,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3488.0,
+      "completions/mean_length": 812.8873291015625,
+      "completions/mean_terminated_length": 647.384521484375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.3918367346938774,
+      "grad_norm": 0.13500329852104187,
+      "learning_rate": 1e-06,
+      "loss": -0.0293,
+      "num_tokens": 217482169.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.19974736869335175,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973994791507721,
+      "step": 363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3229.0,
+      "completions/mean_length": 847.1160888671875,
+      "completions/mean_terminated_length": 626.393310546875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 3.4011661807580174,
+      "grad_norm": 0.11885211616754532,
+      "learning_rate": 1e-06,
+      "loss": -0.0288,
+      "num_tokens": 218105561.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.14935779571533203,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 804.6730346679688,
+      "completions/mean_terminated_length": 634.6983642578125,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 3.4104956268221573,
+      "grad_norm": 0.1255892515182495,
+      "learning_rate": 1e-06,
+      "loss": -0.0167,
+      "num_tokens": 218731284.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.17435340583324432,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3231.0,
+      "completions/mean_length": 832.2734985351562,
+      "completions/mean_terminated_length": 667.7479248046875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 3.4198250728862973,
+      "grad_norm": 0.12889975309371948,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 219402873.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.16055646538734436,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3358.0,
+      "completions/mean_length": 817.2254638671875,
+      "completions/mean_terminated_length": 647.8990478515625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 3.4291545189504373,
+      "grad_norm": 0.13108345866203308,
+      "learning_rate": 1e-06,
+      "loss": -0.0134,
+      "num_tokens": 220053091.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.17051450908184052,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3030.0,
+      "completions/mean_length": 692.3795166015625,
+      "completions/mean_terminated_length": 586.6282958984375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 3.4384839650145773,
+      "grad_norm": 0.1256914734840393,
+      "learning_rate": 1e-06,
+      "loss": -0.0192,
+      "num_tokens": 220646951.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.15090195834636688,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3542.0,
+      "completions/mean_length": 782.6261596679688,
+      "completions/mean_terminated_length": 615.597900390625,
+      "completions/min_length": 56.0,
+      "completions/min_terminated_length": 56.0,
+      "epoch": 3.4478134110787173,
+      "grad_norm": 0.1355881541967392,
+      "learning_rate": 1e-06,
+      "loss": -0.0123,
+      "num_tokens": 221272408.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.16450665891170502,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 840.4788208007812,
+      "completions/mean_terminated_length": 660.255615234375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 3.4571428571428573,
+      "grad_norm": 0.12165997922420502,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 221918829.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1488724797964096,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2862.0,
+      "completions/mean_length": 717.2433471679688,
+      "completions/mean_terminated_length": 592.1041870117188,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 3.466472303206997,
+      "grad_norm": 0.13266989588737488,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 222515615.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17378000915050507,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3329.0,
+      "completions/mean_length": 830.0156860351562,
+      "completions/mean_terminated_length": 624.680908203125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 3.4758017492711373,
+      "grad_norm": 0.14682939648628235,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 223138213.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.20711460709571838,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3961.0,
+      "completions/mean_length": 798.1428833007812,
+      "completions/mean_terminated_length": 635.953125,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 3.485131195335277,
+      "grad_norm": 0.12675997614860535,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 223770685.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.15563170611858368,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3948.0,
+      "completions/mean_length": 845.7422485351562,
+      "completions/mean_terminated_length": 641.396240234375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 3.494460641399417,
+      "grad_norm": 0.1343097984790802,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 224408966.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.16108709573745728,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 839.0658569335938,
+      "completions/mean_terminated_length": 626.0677490234375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.503790087463557,
+      "grad_norm": 0.10293253511190414,
+      "learning_rate": 1e-06,
+      "loss": -0.0117,
+      "num_tokens": 225013465.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.12936869263648987,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3707.0,
+      "completions/mean_length": 812.8582763671875,
+      "completions/mean_terminated_length": 675.4244384765625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.513119533527697,
+      "grad_norm": 0.14238329231739044,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 225682746.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.2191762924194336,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3698.0,
+      "completions/mean_length": 848.1663208007812,
+      "completions/mean_terminated_length": 672.401123046875,
+      "completions/min_length": 85.0,
+      "completions/min_terminated_length": 85.0,
+      "epoch": 3.522448979591837,
+      "grad_norm": 0.13714191317558289,
+      "learning_rate": 1e-06,
+      "loss": -0.0203,
+      "num_tokens": 226350583.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1800595223903656,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 846.161865234375,
+      "completions/mean_terminated_length": 654.0910034179688,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.5317784256559768,
+      "grad_norm": 0.1421462744474411,
+      "learning_rate": 1e-06,
+      "loss": -0.0138,
+      "num_tokens": 226998800.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.18501681089401245,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 789.0189819335938,
+      "completions/mean_terminated_length": 646.5762329101562,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 3.5411078717201168,
+      "grad_norm": 0.14839346706867218,
+      "learning_rate": 1e-06,
+      "loss": -0.0162,
+      "num_tokens": 227638849.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.22469627857208252,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2788.0,
+      "completions/mean_length": 779.4944458007812,
+      "completions/mean_terminated_length": 608.219482421875,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 3.5504373177842563,
+      "grad_norm": 0.12876732647418976,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 228257132.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.15747573971748352,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3033.0,
+      "completions/mean_length": 727.1563110351562,
+      "completions/mean_terminated_length": 594.2783813476562,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.5597667638483967,
+      "grad_norm": 0.1479600965976715,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 228852632.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.20862093567848206,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3029.0,
+      "completions/mean_length": 746.0826416015625,
+      "completions/mean_terminated_length": 609.9070434570312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.5690962099125363,
+      "grad_norm": 0.12609915435314178,
+      "learning_rate": 1e-06,
+      "loss": -0.0304,
+      "num_tokens": 229468594.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.1707048863172531,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 788.0647583007812,
+      "completions/mean_terminated_length": 629.4385986328125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 3.5784256559766763,
+      "grad_norm": 0.14111444354057312,
+      "learning_rate": 1e-06,
+      "loss": -0.0161,
+      "num_tokens": 230102772.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.2026451677083969,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2579.0,
+      "completions/mean_length": 793.0725708007812,
+      "completions/mean_terminated_length": 601.9940795898438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.5877551020408163,
+      "grad_norm": 0.14103786647319794,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 230706181.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.16904956102371216,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2787.0,
+      "completions/mean_length": 818.7678833007812,
+      "completions/mean_terminated_length": 620.9703979492188,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 3.5970845481049563,
+      "grad_norm": 0.1310214400291443,
+      "learning_rate": 1e-06,
+      "loss": -0.0115,
+      "num_tokens": 231324173.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16522274911403656,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3210.0,
+      "completions/mean_length": 827.3973388671875,
+      "completions/mean_terminated_length": 650.5082397460938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 3.6064139941690962,
+      "grad_norm": 0.13954100012779236,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 231960393.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.17559054493904114,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2889.0,
+      "completions/mean_length": 873.4877319335938,
+      "completions/mean_terminated_length": 654.556640625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.6157434402332362,
+      "grad_norm": 0.11855709552764893,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 232599950.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.17336632311344147,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 856.0826416015625,
+      "completions/mean_terminated_length": 656.4668579101562,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 3.6250728862973762,
+      "grad_norm": 0.13760653138160706,
+      "learning_rate": 1e-06,
+      "loss": -0.0333,
+      "num_tokens": 233243344.0,
+      "reward": 0.5703125,
+      "reward_std": 0.22495870292186737,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2679.0,
+      "completions/mean_length": 674.271240234375,
+      "completions/mean_terminated_length": 572.0126342773438,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 3.6344023323615158,
+      "grad_norm": 0.14141114056110382,
+      "learning_rate": 1e-06,
+      "loss": -0.0108,
+      "num_tokens": 233830315.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1742018610239029,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2845.0,
+      "completions/mean_length": 886.7589721679688,
+      "completions/mean_terminated_length": 664.6396484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 3.643731778425656,
+      "grad_norm": 0.12106688320636749,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 234467515.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.17682865262031555,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 880.0457763671875,
+      "completions/mean_terminated_length": 624.3192749023438,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.6530612244897958,
+      "grad_norm": 0.14808392524719238,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 235072244.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.18426865339279175,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3671.0,
+      "completions/mean_length": 849.1986694335938,
+      "completions/mean_terminated_length": 636.8632202148438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 3.6623906705539357,
+      "grad_norm": 0.1266641467809677,
+      "learning_rate": 1e-06,
+      "loss": -0.0286,
+      "num_tokens": 235706830.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.15326662361621857,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3231.0,
+      "completions/mean_length": 690.5324096679688,
+      "completions/mean_terminated_length": 604.8111572265625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.6717201166180757,
+      "grad_norm": 0.1398337334394455,
+      "learning_rate": 1e-06,
+      "loss": -0.0025,
+      "num_tokens": 236330619.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1810370534658432,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3861.0,
+      "completions/mean_length": 816.9989013671875,
+      "completions/mean_terminated_length": 679.7383422851562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.6810495626822157,
+      "grad_norm": 0.13178351521492004,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 237007722.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.19787196815013885,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3567.0,
+      "completions/mean_length": 841.6819458007812,
+      "completions/mean_terminated_length": 649.3463134765625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 3.6903790087463557,
+      "grad_norm": 0.12276212126016617,
+      "learning_rate": 1e-06,
+      "loss": -0.0124,
+      "num_tokens": 237641293.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.17292235791683197,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 821.3092041015625,
+      "completions/mean_terminated_length": 623.6651000976562,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 3.6997084548104957,
+      "grad_norm": 0.12476027011871338,
+      "learning_rate": 1e-06,
+      "loss": -0.0234,
+      "num_tokens": 238257234.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.16777144372463226,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3490.0,
+      "completions/mean_length": 812.5424194335938,
+      "completions/mean_terminated_length": 589.4708251953125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.7090379008746357,
+      "grad_norm": 0.1332354098558426,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 238838160.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1938129961490631,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2642.0,
+      "completions/mean_length": 871.2969360351562,
+      "completions/mean_terminated_length": 684.7437744140625,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 3.7183673469387752,
+      "grad_norm": 0.1296387016773224,
+      "learning_rate": 1e-06,
+      "loss": -0.0287,
+      "num_tokens": 239508754.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.2006898671388626,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 721.4766235351562,
+      "completions/mean_terminated_length": 604.5762329101562,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 3.7276967930029157,
+      "grad_norm": 0.12461227923631668,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 240112509.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.1475597620010376,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3468.0,
+      "completions/mean_length": 819.8426513671875,
+      "completions/mean_terminated_length": 662.7403564453125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.7370262390670552,
+      "grad_norm": 0.13590675592422485,
+      "learning_rate": 1e-06,
+      "loss": -0.0113,
+      "num_tokens": 240759136.0,
+      "reward": 0.6640625,
+      "reward_std": 0.20594529807567596,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 880.1172485351562,
+      "completions/mean_terminated_length": 641.0467529296875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 3.746355685131195,
+      "grad_norm": 0.13403309881687164,
+      "learning_rate": 1e-06,
+      "loss": -0.0056,
+      "num_tokens": 241375433.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.18081024289131165,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3179.0,
+      "completions/mean_length": 862.8594360351562,
+      "completions/mean_terminated_length": 671.775390625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.755685131195335,
+      "grad_norm": 0.12232960760593414,
+      "learning_rate": 1e-06,
+      "loss": -0.0196,
+      "num_tokens": 242028955.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16383123397827148,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 858.3392944335938,
+      "completions/mean_terminated_length": 666.9881591796875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.765014577259475,
+      "grad_norm": 0.1501288115978241,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 242673971.0,
+      "reward": 0.609375,
+      "reward_std": 0.23015236854553223,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 917.1585083007812,
+      "completions/mean_terminated_length": 651.9347534179688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.774344023323615,
+      "grad_norm": 0.12584435939788818,
+      "learning_rate": 1e-06,
+      "loss": -0.0341,
+      "num_tokens": 243297705.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15510854125022888,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3786.0,
+      "completions/mean_length": 822.888427734375,
+      "completions/mean_terminated_length": 649.8096313476562,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 3.783673469387755,
+      "grad_norm": 0.12362376600503922,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 243952005.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.18483206629753113,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 862.8694458007812,
+      "completions/mean_terminated_length": 643.2169189453125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.793002915451895,
+      "grad_norm": 0.12691886723041534,
+      "learning_rate": 1e-06,
+      "loss": -0.0182,
+      "num_tokens": 244571528.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.16499200463294983,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 843.4620971679688,
+      "completions/mean_terminated_length": 667.4423217773438,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.8023323615160347,
+      "grad_norm": 0.13258963823318481,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 245220686.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.19453050196170807,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 783.5736694335938,
+      "completions/mean_terminated_length": 608.4159545898438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.811661807580175,
+      "grad_norm": 0.14538998901844025,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 245817520.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.1835525780916214,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3520.0,
+      "completions/mean_length": 938.19873046875,
+      "completions/mean_terminated_length": 711.5621948242188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.8209912536443147,
+      "grad_norm": 0.11863500624895096,
+      "learning_rate": 1e-06,
+      "loss": -0.0252,
+      "num_tokens": 246498850.0,
+      "reward": 0.546875,
+      "reward_std": 0.18553857505321503,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3933.0,
+      "completions/mean_length": 931.2545166015625,
+      "completions/mean_terminated_length": 679.6000366210938,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 3.8303206997084547,
+      "grad_norm": 0.1227620542049408,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 247154438.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.12088630348443985,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2384.0,
+      "completions/mean_length": 831.5201416015625,
+      "completions/mean_terminated_length": 609.73779296875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.8396501457725947,
+      "grad_norm": 0.13331255316734314,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 247750824.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.16499128937721252,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3892.0,
+      "completions/mean_length": 783.7064819335938,
+      "completions/mean_terminated_length": 645.0523071289062,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 3.8489795918367347,
+      "grad_norm": 0.13118019700050354,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 248390145.0,
+      "reward": 0.6171875,
+      "reward_std": 0.1855827420949936,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2644.0,
+      "completions/mean_length": 742.5011596679688,
+      "completions/mean_terminated_length": 573.4501342773438,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 3.8583090379008746,
+      "grad_norm": 0.1382608711719513,
+      "learning_rate": 1e-06,
+      "loss": -0.0076,
+      "num_tokens": 248958578.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.1714577078819275,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 803.9855346679688,
+      "completions/mean_terminated_length": 666.1802368164062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 3.8676384839650146,
+      "grad_norm": 0.12190508842468262,
+      "learning_rate": 1e-06,
+      "loss": -0.031,
+      "num_tokens": 249627165.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1710362583398819,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3626.0,
+      "completions/mean_length": 772.9542846679688,
+      "completions/mean_terminated_length": 597.2349853515625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 3.8769679300291546,
+      "grad_norm": 0.16220395267009735,
+      "learning_rate": 1e-06,
+      "loss": -0.0022,
+      "num_tokens": 250219372.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.19756954908370972,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3990.0,
+      "completions/mean_length": 957.0167846679688,
+      "completions/mean_terminated_length": 691.001220703125,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 3.8862973760932946,
+      "grad_norm": 0.1392662674188614,
+      "learning_rate": 1e-06,
+      "loss": -0.0076,
+      "num_tokens": 250886243.0,
+      "reward": 0.578125,
+      "reward_std": 0.18772776424884796,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 912.2489013671875,
+      "completions/mean_terminated_length": 646.615478515625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.8956268221574346,
+      "grad_norm": 0.13970129191875458,
+      "learning_rate": 1e-06,
+      "loss": -0.0291,
+      "num_tokens": 251514202.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.18039445579051971,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2449.0,
+      "completions/mean_length": 761.3069458007812,
+      "completions/mean_terminated_length": 609.5531005859375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 3.904956268221574,
+      "grad_norm": 0.15438564121723175,
+      "learning_rate": 1e-06,
+      "loss": -0.0018,
+      "num_tokens": 252128101.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.17033086717128754,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 900.3839721679688,
+      "completions/mean_terminated_length": 679.2076416015625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 3.914285714285714,
+      "grad_norm": 0.18476028740406036,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 252782485.0,
+      "reward": 0.6171875,
+      "reward_std": 0.21704013645648956,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 769.7835083007812,
+      "completions/mean_terminated_length": 606.1990356445312,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 3.923615160349854,
+      "grad_norm": 0.143397718667984,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 253388091.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1959933340549469,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 874.9285888671875,
+      "completions/mean_terminated_length": 664.27587890625,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 3.932944606413994,
+      "grad_norm": 0.13676884770393372,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 254040011.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.18193607032299042,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3382.0,
+      "completions/mean_length": 883.9676513671875,
+      "completions/mean_terminated_length": 624.370361328125,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 3.942274052478134,
+      "grad_norm": 0.13674820959568024,
+      "learning_rate": 1e-06,
+      "loss": -0.0259,
+      "num_tokens": 254643622.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.19047150015830994,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3193.0,
+      "completions/mean_length": 794.0301513671875,
+      "completions/mean_terminated_length": 659.8037109375,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.951603498542274,
+      "grad_norm": 0.11584319174289703,
+      "learning_rate": 1e-06,
+      "loss": -0.0067,
+      "num_tokens": 255302873.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.1438377946615219,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2948.0,
+      "completions/mean_length": 754.4085083007812,
+      "completions/mean_terminated_length": 581.8380126953125,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 3.960932944606414,
+      "grad_norm": 0.1446135938167572,
+      "learning_rate": 1e-06,
+      "loss": -0.0315,
+      "num_tokens": 255881111.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.1897144913673401,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 831.1183471679688,
+      "completions/mean_terminated_length": 654.4305419921875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.970262390670554,
+      "grad_norm": 0.12886013090610504,
+      "learning_rate": 1e-06,
+      "loss": -0.0167,
+      "num_tokens": 256525969.0,
+      "reward": 0.6484375,
+      "reward_std": 0.156466543674469,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3336.0,
+      "completions/mean_length": 778.1417846679688,
+      "completions/mean_terminated_length": 586.1995239257812,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.979591836734694,
+      "grad_norm": 0.12887297570705414,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 257112760.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.13943690061569214,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 811.6295166015625,
+      "completions/mean_terminated_length": 625.7216796875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 3.9889212827988336,
+      "grad_norm": 0.13565848767757416,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 257733740.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.17942197620868683,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.051136363636363646,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 743.42333984375,
+      "completions/mean_terminated_length": 562.7455444335938,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.9982507288629736,
+      "grad_norm": 0.13699331879615784,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 258324824.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.17325864732265472,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2986.0,
+      "completions/mean_length": 823.0145263671875,
+      "completions/mean_terminated_length": 600.6543579101562,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 4.0093294460641395,
+      "grad_norm": 0.15516826510429382,
+      "learning_rate": 1e-06,
+      "loss": -0.0199,
+      "num_tokens": 258922869.0,
+      "reward": 0.6640625,
+      "reward_std": 0.16334158182144165,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3512.0,
+      "completions/mean_length": 763.3850708007812,
+      "completions/mean_terminated_length": 611.7257690429688,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.01865889212828,
+      "grad_norm": 0.13731922209262848,
+      "learning_rate": 1e-06,
+      "loss": -0.0185,
+      "num_tokens": 259531854.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.18088509142398834,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4009.0,
+      "completions/mean_length": 845.7511596679688,
+      "completions/mean_terminated_length": 633.1902465820312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 4.0279883381924195,
+      "grad_norm": 0.1281159520149231,
+      "learning_rate": 1e-06,
+      "loss": -0.0212,
+      "num_tokens": 260142759.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1677047610282898,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 865.1027221679688,
+      "completions/mean_terminated_length": 653.807373046875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.03731778425656,
+      "grad_norm": 0.14043253660202026,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 260778595.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.2066260725259781,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 844.7835083007812,
+      "completions/mean_terminated_length": 660.7523803710938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.0466472303206995,
+      "grad_norm": 0.12678323686122894,
+      "learning_rate": 1e-06,
+      "loss": -0.011,
+      "num_tokens": 261423969.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.18411852419376373,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3335.0,
+      "completions/mean_length": 913.69091796875,
+      "completions/mean_terminated_length": 652.341796875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.05597667638484,
+      "grad_norm": 0.15005941689014435,
+      "learning_rate": 1e-06,
+      "loss": -0.0302,
+      "num_tokens": 262063980.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.212483748793602,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 752.2299194335938,
+      "completions/mean_terminated_length": 567.121337890625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 4.0653061224489795,
+      "grad_norm": 0.16207073628902435,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 262629466.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.18693682551383972,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2566.0,
+      "completions/mean_length": 846.0279541015625,
+      "completions/mean_terminated_length": 608.6047973632812,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.07463556851312,
+      "grad_norm": 0.12854279577732086,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 263227955.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1669120043516159,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2942.0,
+      "completions/mean_length": 897.193115234375,
+      "completions/mean_terminated_length": 638.6646728515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.0839650145772595,
+      "grad_norm": 0.1507236361503601,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 263847064.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.19117872416973114,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3083.0,
+      "completions/mean_length": 884.9732666015625,
+      "completions/mean_terminated_length": 674.9774169921875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.093294460641399,
+      "grad_norm": 0.13922719657421112,
+      "learning_rate": 1e-06,
+      "loss": -0.0216,
+      "num_tokens": 264495928.0,
+      "reward": 0.5859375,
+      "reward_std": 0.1878383606672287,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3660.0,
+      "completions/mean_length": 901.583740234375,
+      "completions/mean_terminated_length": 680.490478515625,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 4.1026239067055394,
+      "grad_norm": 0.13839367032051086,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 265156779.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.19400165975093842,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3390.0,
+      "completions/mean_length": 879.5256958007812,
+      "completions/mean_terminated_length": 713.4166870117188,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.111953352769679,
+      "grad_norm": 0.12010248750448227,
+      "learning_rate": 1e-06,
+      "loss": -0.009,
+      "num_tokens": 265846698.0,
+      "reward": 0.5703125,
+      "reward_std": 0.18603530526161194,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3972.0,
+      "completions/mean_length": 844.404052734375,
+      "completions/mean_terminated_length": 664.3981323242188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 4.121282798833819,
+      "grad_norm": 0.1367029845714569,
+      "learning_rate": 1e-06,
+      "loss": -0.0024,
+      "num_tokens": 266494492.0,
+      "reward": 0.640625,
+      "reward_std": 0.17949752509593964,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 829.685302734375,
+      "completions/mean_terminated_length": 665.029296875,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 4.130612244897959,
+      "grad_norm": 0.12880828976631165,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 267152058.0,
+      "reward": 0.6015625,
+      "reward_std": 0.15138980746269226,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3688.0,
+      "completions/mean_length": 837.7767944335938,
+      "completions/mean_terminated_length": 649.2845458984375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.139941690962099,
+      "grad_norm": 0.11601654440164566,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 267800362.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.14879760146141052,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2430.0,
+      "completions/mean_length": 815.0022583007812,
+      "completions/mean_terminated_length": 600.430419921875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 4.149271137026239,
+      "grad_norm": 0.1244354099035263,
+      "learning_rate": 1e-06,
+      "loss": -0.0191,
+      "num_tokens": 268402428.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1474064141511917,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3838.0,
+      "completions/mean_length": 830.6272583007812,
+      "completions/mean_terminated_length": 629.4431762695312,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 4.158600583090379,
+      "grad_norm": 0.14222611486911774,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 269024686.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.20801502466201782,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3478.0,
+      "completions/mean_length": 834.474365234375,
+      "completions/mean_terminated_length": 621.1759643554688,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 4.167930029154519,
+      "grad_norm": 0.12419307231903076,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 269633119.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.17171591520309448,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2567.0,
+      "completions/mean_length": 831.0926513671875,
+      "completions/mean_terminated_length": 629.937255859375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.1772594752186585,
+      "grad_norm": 0.1301281750202179,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 270255194.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.16799968481063843,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2505.0,
+      "completions/mean_length": 800.5167846679688,
+      "completions/mean_terminated_length": 634.390380859375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.186588921282799,
+      "grad_norm": 0.1374504715204239,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 270892433.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.19219790399074554,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3817.0,
+      "completions/mean_length": 844.9631958007812,
+      "completions/mean_terminated_length": 652.821533203125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 4.1959183673469385,
+      "grad_norm": 0.1437891274690628,
+      "learning_rate": 1e-06,
+      "loss": -0.021,
+      "num_tokens": 271533840.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1975356638431549,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 829.6373291015625,
+      "completions/mean_terminated_length": 628.3922119140625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 4.205247813411079,
+      "grad_norm": 0.1272605061531067,
+      "learning_rate": 1e-06,
+      "loss": -0.0113,
+      "num_tokens": 272152539.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.16803036630153656,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3121.0,
+      "completions/mean_length": 842.2813110351562,
+      "completions/mean_terminated_length": 654.049560546875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.214577259475218,
+      "grad_norm": 0.13536153733730316,
+      "learning_rate": 1e-06,
+      "loss": -0.0118,
+      "num_tokens": 272798039.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.19001756608486176,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2135.0,
+      "completions/mean_length": 781.0123291015625,
+      "completions/mean_terminated_length": 593.3714599609375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.223906705539359,
+      "grad_norm": 0.14610785245895386,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 273388186.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.15624040365219116,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3502.0,
+      "completions/mean_length": 885.3917846679688,
+      "completions/mean_terminated_length": 687.581787109375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 4.233236151603498,
+      "grad_norm": 0.1331864595413208,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 274062385.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.18370410799980164,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3417.0,
+      "completions/mean_length": 886.0748291015625,
+      "completions/mean_terminated_length": 630.8276977539062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 4.242565597667639,
+      "grad_norm": 0.13325031101703644,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 274682740.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.19117873907089233,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3515.0,
+      "completions/mean_length": 809.3828735351562,
+      "completions/mean_terminated_length": 639.6514282226562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.251895043731778,
+      "grad_norm": 0.13051557540893555,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 275312707.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14759115874767303,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 854.1998291015625,
+      "completions/mean_terminated_length": 633.958251953125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 4.261224489795918,
+      "grad_norm": 0.12850071489810944,
+      "learning_rate": 1e-06,
+      "loss": -0.0237,
+      "num_tokens": 275929430.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.15300628542900085,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 911.8092041015625,
+      "completions/mean_terminated_length": 641.9625244140625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 4.270553935860058,
+      "grad_norm": 0.13285867869853973,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 276545323.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.17543786764144897,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3820.0,
+      "completions/mean_length": 845.5736694335938,
+      "completions/mean_terminated_length": 653.4680786132812,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 4.279883381924198,
+      "grad_norm": 0.13263507187366486,
+      "learning_rate": 1e-06,
+      "loss": -0.0333,
+      "num_tokens": 277183829.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.17709895968437195,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3264.0,
+      "completions/mean_length": 894.3281860351562,
+      "completions/mean_terminated_length": 623.0,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 4.289212827988338,
+      "grad_norm": 0.1293635070323944,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 277787203.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.16247648000717163,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4066.0,
+      "completions/mean_length": 908.9788208007812,
+      "completions/mean_terminated_length": 696.5107421875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.298542274052478,
+      "grad_norm": 0.12947046756744385,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 278472496.0,
+      "reward": 0.5703125,
+      "reward_std": 0.19418390095233917,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3326.0,
+      "completions/mean_length": 873.3292846679688,
+      "completions/mean_terminated_length": 658.4845581054688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 4.307871720116618,
+      "grad_norm": 0.15107649564743042,
+      "learning_rate": 1e-06,
+      "loss": -0.0215,
+      "num_tokens": 279116975.0,
+      "reward": 0.59375,
+      "reward_std": 0.18776236474514008,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 769.9486694335938,
+      "completions/mean_terminated_length": 598.1807861328125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.317201166180758,
+      "grad_norm": 0.13895389437675476,
+      "learning_rate": 1e-06,
+      "loss": -0.018,
+      "num_tokens": 279721281.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15849560499191284,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3963.0,
+      "completions/mean_length": 913.25341796875,
+      "completions/mean_terminated_length": 622.5030517578125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 4.326530612244898,
+      "grad_norm": 0.12598152458667755,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 280322884.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1537216752767563,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2918.0,
+      "completions/mean_length": 777.5267944335938,
+      "completions/mean_terminated_length": 650.6326293945312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.335860058309038,
+      "grad_norm": 0.11926654726266861,
+      "learning_rate": 1e-06,
+      "loss": -0.0157,
+      "num_tokens": 280971196.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16423355042934418,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3446.0,
+      "completions/mean_length": 753.302490234375,
+      "completions/mean_terminated_length": 564.0931396484375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 4.345189504373177,
+      "grad_norm": 0.12969191372394562,
+      "learning_rate": 1e-06,
+      "loss": -0.018,
+      "num_tokens": 281536491.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.13549628853797913,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4053.0,
+      "completions/mean_length": 792.3471069335938,
+      "completions/mean_terminated_length": 605.347900390625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 4.354518950437318,
+      "grad_norm": 0.13331782817840576,
+      "learning_rate": 1e-06,
+      "loss": -0.0055,
+      "num_tokens": 282137474.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.15571656823158264,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2542.0,
+      "completions/mean_length": 755.9285888671875,
+      "completions/mean_terminated_length": 591.6627197265625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.363848396501457,
+      "grad_norm": 0.13045676052570343,
+      "learning_rate": 1e-06,
+      "loss": -0.0226,
+      "num_tokens": 282730218.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.17232321202754974,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 810.1127319335938,
+      "completions/mean_terminated_length": 640.4190063476562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 4.373177842565598,
+      "grad_norm": 0.12199151515960693,
+      "learning_rate": 1e-06,
+      "loss": -0.014,
+      "num_tokens": 283361479.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14549003541469574,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140389680862427,
+      "step": 468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3275.0,
+      "completions/mean_length": 842.6585083007812,
+      "completions/mean_terminated_length": 654.4486083984375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.382507288629737,
+      "grad_norm": 0.1311843991279602,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 284005717.0,
+      "reward": 0.6171875,
+      "reward_std": 0.16037212312221527,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3587.0,
+      "completions/mean_length": 937.1808471679688,
+      "completions/mean_terminated_length": 652.8102416992188,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 4.391836734693878,
+      "grad_norm": 0.14349058270454407,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 284638343.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.14879831671714783,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2885.0,
+      "completions/mean_length": 918.982177734375,
+      "completions/mean_terminated_length": 641.378662109375,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 4.401166180758017,
+      "grad_norm": 0.12580884993076324,
+      "learning_rate": 1e-06,
+      "loss": -0.0331,
+      "num_tokens": 285264471.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16217157244682312,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 778.2545166015625,
+      "completions/mean_terminated_length": 606.91552734375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.410495626822158,
+      "grad_norm": 0.13940799236297607,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 285873011.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1662726104259491,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3661.0,
+      "completions/mean_length": 871.7176513671875,
+      "completions/mean_terminated_length": 602.7025756835938,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 4.419825072886297,
+      "grad_norm": 0.15017427504062653,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 286463270.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.20688821375370026,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 858.1875610351562,
+      "completions/mean_terminated_length": 646.43994140625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 4.429154518950437,
+      "grad_norm": 0.14438757300376892,
+      "learning_rate": 1e-06,
+      "loss": -0.0186,
+      "num_tokens": 287097894.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1825454831123352,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 959.6607666015625,
+      "completions/mean_terminated_length": 673.1498413085938,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 4.438483965014577,
+      "grad_norm": 0.12239904701709747,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 287741798.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.13816626369953156,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514806270599365,
+      "step": 475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3663.0,
+      "completions/mean_length": 794.3817138671875,
+      "completions/mean_terminated_length": 599.2506103515625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 4.447813411078717,
+      "grad_norm": 0.13859078288078308,
+      "learning_rate": 1e-06,
+      "loss": -0.002,
+      "num_tokens": 288337772.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.17310599982738495,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2752.0,
+      "completions/mean_length": 817.7221069335938,
+      "completions/mean_terminated_length": 595.0023803710938,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.457142857142857,
+      "grad_norm": 0.15692879259586334,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 288922819.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.20023773610591888,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4039.0,
+      "completions/mean_length": 800.9163208007812,
+      "completions/mean_terminated_length": 658.9860229492188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.466472303206997,
+      "grad_norm": 0.13497665524482727,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 289576384.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.1835193783044815,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3026.0,
+      "completions/mean_length": 891.0670166015625,
+      "completions/mean_terminated_length": 606.789794921875,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 4.475801749271137,
+      "grad_norm": 0.14471465349197388,
+      "learning_rate": 1e-06,
+      "loss": -0.0246,
+      "num_tokens": 290166556.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.17415766417980194,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3387.0,
+      "completions/mean_length": 972.4263916015625,
+      "completions/mean_terminated_length": 661.9852905273438,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 4.485131195335277,
+      "grad_norm": 0.1347092241048813,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 290799898.0,
+      "reward": 0.59375,
+      "reward_std": 0.17303043603897095,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 843.364990234375,
+      "completions/mean_terminated_length": 584.7216796875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 4.494460641399417,
+      "grad_norm": 0.13890087604522705,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 291371993.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1665322184562683,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 952.92529296875,
+      "completions/mean_terminated_length": 636.3009643554688,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 4.503790087463557,
+      "grad_norm": 0.1366848349571228,
+      "learning_rate": 1e-06,
+      "loss": -0.0119,
+      "num_tokens": 291982182.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16931098699569702,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2581.0,
+      "completions/mean_length": 802.8694458007812,
+      "completions/mean_terminated_length": 558.056396484375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.513119533527696,
+      "grad_norm": 0.1445130556821823,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 292527769.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.14673562347888947,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3284.0,
+      "completions/mean_length": 871.6986694335938,
+      "completions/mean_terminated_length": 660.834716796875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 4.522448979591837,
+      "grad_norm": 0.12720076739788055,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 293165827.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16476628184318542,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3721.0,
+      "completions/mean_length": 1004.193115234375,
+      "completions/mean_terminated_length": 663.213134765625,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 4.531778425655976,
+      "grad_norm": 0.12677869200706482,
+      "learning_rate": 1e-06,
+      "loss": -0.0289,
+      "num_tokens": 293793920.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.15751849114894867,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 774.974365234375,
+      "completions/mean_terminated_length": 603.4659423828125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.541107871720117,
+      "grad_norm": 0.12845060229301453,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 294386425.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1436467170715332,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3193.0,
+      "completions/mean_length": 922.3795166015625,
+      "completions/mean_terminated_length": 636.6763916015625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.550437317784256,
+      "grad_norm": 0.12636502087116241,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 294995781.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14692038297653198,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.47335079312324524,
+      "step": 487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2357.0,
+      "completions/mean_length": 782.0826416015625,
+      "completions/mean_terminated_length": 573.7343139648438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 4.559766763848397,
+      "grad_norm": 0.13962702453136444,
+      "learning_rate": 1e-06,
+      "loss": -0.0223,
+      "num_tokens": 295565335.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.16878741979599,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3860.0,
+      "completions/mean_length": 947.0770263671875,
+      "completions/mean_terminated_length": 646.81298828125,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 4.569096209912536,
+      "grad_norm": 0.132938951253891,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 296187868.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.15600895881652832,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3187.0,
+      "completions/mean_length": 886.2623291015625,
+      "completions/mean_terminated_length": 647.648681640625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.578425655976677,
+      "grad_norm": 0.1473442018032074,
+      "learning_rate": 1e-06,
+      "loss": -0.037,
+      "num_tokens": 296825559.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.20305675268173218,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2786.0,
+      "completions/mean_length": 818.0067138671875,
+      "completions/mean_terminated_length": 603.6314086914062,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 4.587755102040816,
+      "grad_norm": 0.12897878885269165,
+      "learning_rate": 1e-06,
+      "loss": -0.0177,
+      "num_tokens": 297419053.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.14741073548793793,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3134.0,
+      "completions/mean_length": 774.5335083007812,
+      "completions/mean_terminated_length": 619.3247680664062,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 4.597084548104956,
+      "grad_norm": 0.14938555657863617,
+      "learning_rate": 1e-06,
+      "loss": 0.0102,
+      "num_tokens": 298037499.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.1947152316570282,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 858.6283569335938,
+      "completions/mean_terminated_length": 592.7572631835938,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 4.606413994169096,
+      "grad_norm": 0.147346630692482,
+      "learning_rate": 1e-06,
+      "loss": -0.0278,
+      "num_tokens": 298614094.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.14522789418697357,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3926.0,
+      "completions/mean_length": 864.3370971679688,
+      "completions/mean_terminated_length": 632.3994750976562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.615743440233236,
+      "grad_norm": 0.14167658984661102,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 299222164.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.183292955160141,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2834.0,
+      "completions/mean_length": 816.4955444335938,
+      "completions/mean_terminated_length": 581.1243896484375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.625072886297376,
+      "grad_norm": 0.1331305205821991,
+      "learning_rate": 1e-06,
+      "loss": -0.0076,
+      "num_tokens": 299793616.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.14985774457454681,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 894.37841796875,
+      "completions/mean_terminated_length": 627.2539672851562,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 4.634402332361516,
+      "grad_norm": 0.14743056893348694,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 300404115.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.18847593665122986,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2680.0,
+      "completions/mean_length": 707.8605346679688,
+      "completions/mean_terminated_length": 578.3024291992188,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 4.643731778425656,
+      "grad_norm": 0.1283249855041504,
+      "learning_rate": 1e-06,
+      "loss": -0.0289,
+      "num_tokens": 300986022.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.15368029475212097,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2971.0,
+      "completions/mean_length": 973.654052734375,
+      "completions/mean_terminated_length": 663.3349609375,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 4.653061224489796,
+      "grad_norm": 0.1258484274148941,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 301616176.0,
+      "reward": 0.6015625,
+      "reward_std": 0.18159796297550201,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3528.0,
+      "completions/mean_length": 887.72216796875,
+      "completions/mean_terminated_length": 594.6394653320312,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 4.662390670553936,
+      "grad_norm": 0.1510901153087616,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 302195407.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1686376929283142,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3967.0,
+      "completions/mean_length": 866.3348388671875,
+      "completions/mean_terminated_length": 601.0966186523438,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 4.671720116618076,
+      "grad_norm": 0.15007464587688446,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 302784259.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.16394002735614777,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 903.3817138671875,
+      "completions/mean_terminated_length": 641.1859741210938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 4.681049562682215,
+      "grad_norm": 0.12818759679794312,
+      "learning_rate": 1e-06,
+      "loss": -0.036,
+      "num_tokens": 303410361.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.16732317209243774,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3536.0,
+      "completions/mean_length": 868.4710083007812,
+      "completions/mean_terminated_length": 640.9629516601562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.690379008746356,
+      "grad_norm": 0.1186971366405487,
+      "learning_rate": 1e-06,
+      "loss": -0.0143,
+      "num_tokens": 304045423.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.1632988154888153,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 965.685302734375,
+      "completions/mean_terminated_length": 629.0506591796875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 4.699708454810495,
+      "grad_norm": 0.15227293968200684,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 304648605.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.20474673807621002,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3013.0,
+      "completions/mean_length": 987.505615234375,
+      "completions/mean_terminated_length": 661.707763671875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.709037900874636,
+      "grad_norm": 0.1331615000963211,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 305276842.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16461291909217834,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2731.0,
+      "completions/mean_length": 899.0592041015625,
+      "completions/mean_terminated_length": 611.2567138671875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 4.718367346938775,
+      "grad_norm": 0.12163786590099335,
+      "learning_rate": 1e-06,
+      "loss": -0.0246,
+      "num_tokens": 305874063.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14027062058448792,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 849.5324096679688,
+      "completions/mean_terminated_length": 633.1011962890625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.727696793002916,
+      "grad_norm": 0.13531754910945892,
+      "learning_rate": 1e-06,
+      "loss": -0.0191,
+      "num_tokens": 306495380.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.14173416793346405,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2874.0,
+      "completions/mean_length": 798.4933471679688,
+      "completions/mean_terminated_length": 591.1767578125,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 4.737026239067055,
+      "grad_norm": 0.15166935324668884,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 307091854.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.17446286976337433,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3327.0,
+      "completions/mean_length": 1000.7957763671875,
+      "completions/mean_terminated_length": 672.169189453125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 4.746355685131196,
+      "grad_norm": 0.12078892439603806,
+      "learning_rate": 1e-06,
+      "loss": -0.0146,
+      "num_tokens": 307731023.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.14522789418697357,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 817.6585083007812,
+      "completions/mean_terminated_length": 594.9344482421875,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 4.755685131195335,
+      "grad_norm": 0.15145684778690338,
+      "learning_rate": 1e-06,
+      "loss": -0.0267,
+      "num_tokens": 308323797.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17115573585033417,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 801.3114013671875,
+      "completions/mean_terminated_length": 631.1631469726562,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 4.765014577259475,
+      "grad_norm": 0.13937285542488098,
+      "learning_rate": 1e-06,
+      "loss": -0.0264,
+      "num_tokens": 308946148.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.18295523524284363,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4023.0,
+      "completions/mean_length": 898.5592041015625,
+      "completions/mean_terminated_length": 664.9736938476562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.774344023323615,
+      "grad_norm": 0.1371222287416458,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 309604385.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.19328516721725464,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2417.0,
+      "completions/mean_length": 759.6551513671875,
+      "completions/mean_terminated_length": 549.8967895507812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.783673469387755,
+      "grad_norm": 0.1425262838602066,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 310152996.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1539812833070755,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3742.0,
+      "completions/mean_length": 854.3560791015625,
+      "completions/mean_terminated_length": 617.5413208007812,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.793002915451895,
+      "grad_norm": 0.127227321267128,
+      "learning_rate": 1e-06,
+      "loss": -0.0182,
+      "num_tokens": 310760955.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.14597856998443604,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3814.0,
+      "completions/mean_length": 845.8772583007812,
+      "completions/mean_terminated_length": 595.8677978515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 4.802332361516035,
+      "grad_norm": 0.15406261384487152,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 311337605.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.18859288096427917,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3212.0,
+      "completions/mean_length": 929.5881958007812,
+      "completions/mean_terminated_length": 631.891357421875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.811661807580175,
+      "grad_norm": 0.12791962921619415,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 311951900.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.14661939442157745,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 839.4810791015625,
+      "completions/mean_terminated_length": 630.6306762695312,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 4.820991253644315,
+      "grad_norm": 0.1630844622850418,
+      "learning_rate": 1e-06,
+      "loss": -0.0208,
+      "num_tokens": 312576987.0,
+      "reward": 0.609375,
+      "reward_std": 0.20154792070388794,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3576.0,
+      "completions/mean_length": 826.0379638671875,
+      "completions/mean_terminated_length": 632.7777709960938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.830320699708455,
+      "grad_norm": 0.1412864774465561,
+      "learning_rate": 1e-06,
+      "loss": -0.0176,
+      "num_tokens": 313201189.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.19366033375263214,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3066.0,
+      "completions/mean_length": 941.6607666015625,
+      "completions/mean_terminated_length": 632.4118041992188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 4.839650145772595,
+      "grad_norm": 0.11668366938829422,
+      "learning_rate": 1e-06,
+      "loss": -0.02,
+      "num_tokens": 313799549.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.13034509122371674,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3242.0,
+      "completions/mean_length": 943.4453735351562,
+      "completions/mean_terminated_length": 621.5977783203125,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 4.848979591836734,
+      "grad_norm": 0.11190957576036453,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 314388012.0,
+      "reward": 0.609375,
+      "reward_std": 0.11933468282222748,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3943.0,
+      "completions/mean_length": 914.3326416015625,
+      "completions/mean_terminated_length": 640.516357421875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 4.858309037900875,
+      "grad_norm": 0.1547592580318451,
+      "learning_rate": 1e-06,
+      "loss": -0.0216,
+      "num_tokens": 315004270.0,
+      "reward": 0.578125,
+      "reward_std": 0.18404366075992584,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3586.0,
+      "completions/mean_length": 858.6663208007812,
+      "completions/mean_terminated_length": 626.32177734375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 4.867638483965014,
+      "grad_norm": 0.12735597789287567,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 315620763.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.13703903555870056,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3393.0,
+      "completions/mean_length": 754.9654541015625,
+      "completions/mean_terminated_length": 561.682373046875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 4.876967930029155,
+      "grad_norm": 0.1571730077266693,
+      "learning_rate": 1e-06,
+      "loss": -0.0215,
+      "num_tokens": 316181476.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.16953922808170319,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960144996643,
+      "step": 522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2997.0,
+      "completions/mean_length": 811.7846069335938,
+      "completions/mean_terminated_length": 617.6820068359375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 4.886297376093294,
+      "grad_norm": 0.14319612085819244,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 316800435.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1746155321598053,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2788.0,
+      "completions/mean_length": 829.2176513671875,
+      "completions/mean_terminated_length": 573.6931762695312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.895626822157435,
+      "grad_norm": 0.13439147174358368,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 317368478.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.15672755241394043,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3346.0,
+      "completions/mean_length": 1004.0335083007812,
+      "completions/mean_terminated_length": 700.8995361328125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.904956268221574,
+      "grad_norm": 0.1192203015089035,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 318036588.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.17450454831123352,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3314.0,
+      "completions/mean_length": 963.818115234375,
+      "completions/mean_terminated_length": 639.7992553710938,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.914285714285715,
+      "grad_norm": 0.16149286925792694,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 318647921.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.19576901197433472,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 878.7277221679688,
+      "completions/mean_terminated_length": 593.3560180664062,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 4.923615160349854,
+      "grad_norm": 0.1332666277885437,
+      "learning_rate": 1e-06,
+      "loss": -0.0402,
+      "num_tokens": 319225717.0,
+      "reward": 0.59375,
+      "reward_std": 0.14962315559387207,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3086.0,
+      "completions/mean_length": 866.7199096679688,
+      "completions/mean_terminated_length": 639.08837890625,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 4.932944606413994,
+      "grad_norm": 0.1298314929008484,
+      "learning_rate": 1e-06,
+      "loss": -0.0247,
+      "num_tokens": 319849666.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1675507128238678,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 797.5045166015625,
+      "completions/mean_terminated_length": 610.7971801757812,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 4.942274052478134,
+      "grad_norm": 0.13810941576957703,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 320447734.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1637527495622635,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 856.8292846679688,
+      "completions/mean_terminated_length": 632.638427734375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 4.9516034985422746,
+      "grad_norm": 0.13064926862716675,
+      "learning_rate": 1e-06,
+      "loss": -0.0174,
+      "num_tokens": 321067693.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1661524474620819,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3872.0,
+      "completions/mean_length": 811.2098388671875,
+      "completions/mean_terminated_length": 575.4592895507812,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.960932944606414,
+      "grad_norm": 0.11666761338710785,
+      "learning_rate": 1e-06,
+      "loss": -0.0182,
+      "num_tokens": 321633025.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.10840277373790741,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3707.0,
+      "completions/mean_length": 854.0569458007812,
+      "completions/mean_terminated_length": 621.3815307617188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 4.970262390670554,
+      "grad_norm": 0.14021816849708557,
+      "learning_rate": 1e-06,
+      "loss": -0.0322,
+      "num_tokens": 322232188.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.18610312044620514,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3761.0,
+      "completions/mean_length": 874.6272583007812,
+      "completions/mean_terminated_length": 626.829345703125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.979591836734694,
+      "grad_norm": 0.1198548674583435,
+      "learning_rate": 1e-06,
+      "loss": -0.011,
+      "num_tokens": 322846414.0,
+      "reward": 0.6171875,
+      "reward_std": 0.12723183631896973,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 937.794677734375,
+      "completions/mean_terminated_length": 645.0829467773438,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 4.988921282798834,
+      "grad_norm": 0.13322417438030243,
+      "learning_rate": 1e-06,
+      "loss": -0.037,
+      "num_tokens": 323467590.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.1519557535648346,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.05965909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2171.0,
+      "completions/mean_length": 783.6079711914062,
+      "completions/mean_terminated_length": 573.4561767578125,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 4.998250728862974,
+      "grad_norm": 0.12898936867713928,
+      "learning_rate": 1e-06,
+      "loss": -0.021,
+      "num_tokens": 324074522.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.14034590125083923,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3500.0,
+      "completions/mean_length": 813.0547485351562,
+      "completions/mean_terminated_length": 602.509521484375,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 5.0093294460641395,
+      "grad_norm": 0.14552631974220276,
+      "learning_rate": 1e-06,
+      "loss": -0.0386,
+      "num_tokens": 324659427.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.17246659100055695,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 904.4531860351562,
+      "completions/mean_terminated_length": 667.1918334960938,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.01865889212828,
+      "grad_norm": 0.13958227634429932,
+      "learning_rate": 1e-06,
+      "loss": -0.0179,
+      "num_tokens": 325297585.0,
+      "reward": 0.5859375,
+      "reward_std": 0.19350989162921906,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3601.0,
+      "completions/mean_length": 997.4420166015625,
+      "completions/mean_terminated_length": 701.98046875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.0279883381924195,
+      "grad_norm": 0.12478427588939667,
+      "learning_rate": 1e-06,
+      "loss": -0.0258,
+      "num_tokens": 325962165.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.17002525925636292,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3311.0,
+      "completions/mean_length": 898.1585083007812,
+      "completions/mean_terminated_length": 627.1549682617188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.03731778425656,
+      "grad_norm": 0.15451836585998535,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 326572803.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16623163223266602,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3492.0,
+      "completions/mean_length": 816.6373291015625,
+      "completions/mean_terminated_length": 643.2279663085938,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 5.0466472303206995,
+      "grad_norm": 0.13921381533145905,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 327203302.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.18637412786483765,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2842.0,
+      "completions/mean_length": 900.4531860351562,
+      "completions/mean_terminated_length": 629.6441040039062,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.05597667638484,
+      "grad_norm": 0.14924168586730957,
+      "learning_rate": 1e-06,
+      "loss": -0.034,
+      "num_tokens": 327806316.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.17288917303085327,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 865.7210083007812,
+      "completions/mean_terminated_length": 633.8827514648438,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 5.0653061224489795,
+      "grad_norm": 0.14320100843906403,
+      "learning_rate": 1e-06,
+      "loss": -0.0221,
+      "num_tokens": 328418778.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17341090738773346,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2601.0,
+      "completions/mean_length": 881.5636596679688,
+      "completions/mean_terminated_length": 613.3700561523438,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 5.07463556851312,
+      "grad_norm": 0.14697082340717316,
+      "learning_rate": 1e-06,
+      "loss": -0.0147,
+      "num_tokens": 329013483.0,
+      "reward": 0.625,
+      "reward_std": 0.16363763809204102,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3615.0,
+      "completions/mean_length": 800.9096069335938,
+      "completions/mean_terminated_length": 634.8030395507812,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 5.0839650145772595,
+      "grad_norm": 0.13694144785404205,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 329648474.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1633773148059845,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3268.0,
+      "completions/mean_length": 883.349365234375,
+      "completions/mean_terminated_length": 640.375732421875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 5.093294460641399,
+      "grad_norm": 0.1366586685180664,
+      "learning_rate": 1e-06,
+      "loss": -0.0298,
+      "num_tokens": 330281163.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.15372127294540405,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 839.396240234375,
+      "completions/mean_terminated_length": 584.6679077148438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.1026239067055394,
+      "grad_norm": 0.14498327672481537,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 330849990.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.14672675728797913,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 821.1953735351562,
+      "completions/mean_terminated_length": 648.0270385742188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.111953352769679,
+      "grad_norm": 0.12947578728199005,
+      "learning_rate": 1e-06,
+      "loss": -0.0013,
+      "num_tokens": 331491477.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.16314978897571564,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3571.0,
+      "completions/mean_length": 809.1517944335938,
+      "completions/mean_terminated_length": 614.8936157226562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 5.121282798833819,
+      "grad_norm": 0.14195102453231812,
+      "learning_rate": 1e-06,
+      "loss": -0.0051,
+      "num_tokens": 332093645.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1514332890510559,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4011.0,
+      "completions/mean_length": 916.3482666015625,
+      "completions/mean_terminated_length": 671.7596435546875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 5.130612244897959,
+      "grad_norm": 0.11762266606092453,
+      "learning_rate": 1e-06,
+      "loss": -0.0217,
+      "num_tokens": 332743541.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.13771232962608337,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4011.0,
+      "completions/mean_length": 954.9063110351562,
+      "completions/mean_terminated_length": 617.1124877929688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.139941690962099,
+      "grad_norm": 0.1373228281736374,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 333342041.0,
+      "reward": 0.5234375,
+      "reward_std": 0.1512710452079773,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2820.0,
+      "completions/mean_length": 838.5658569335938,
+      "completions/mean_terminated_length": 604.7786865234375,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 5.149271137026239,
+      "grad_norm": 0.1289171576499939,
+      "learning_rate": 1e-06,
+      "loss": -0.0293,
+      "num_tokens": 333935972.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14420942962169647,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3400.0,
+      "completions/mean_length": 900.5803833007812,
+      "completions/mean_terminated_length": 695.6484985351562,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 5.158600583090379,
+      "grad_norm": 0.13979865610599518,
+      "learning_rate": 1e-06,
+      "loss": -0.0259,
+      "num_tokens": 334608988.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.19239293038845062,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 890.7154541015625,
+      "completions/mean_terminated_length": 623.285400390625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 5.167930029154519,
+      "grad_norm": 0.14315195381641388,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 335210669.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16093555092811584,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3909.0,
+      "completions/mean_length": 943.89404296875,
+      "completions/mean_terminated_length": 672.621826171875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.1772594752186585,
+      "grad_norm": 0.1337359994649887,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 335852998.0,
+      "reward": 0.6171875,
+      "reward_std": 0.1865263730287552,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2980.0,
+      "completions/mean_length": 887.0313110351562,
+      "completions/mean_terminated_length": 652.6035766601562,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 5.186588921282799,
+      "grad_norm": 0.1405474841594696,
+      "learning_rate": 1e-06,
+      "loss": -0.016,
+      "num_tokens": 336483826.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17167635262012482,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3039.0,
+      "completions/mean_length": 836.8828735351562,
+      "completions/mean_terminated_length": 631.9798583984375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 5.1959183673469385,
+      "grad_norm": 0.15516424179077148,
+      "learning_rate": 1e-06,
+      "loss": -0.0264,
+      "num_tokens": 337107697.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1729990392923355,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3043.0,
+      "completions/mean_length": 1003.779052734375,
+      "completions/mean_terminated_length": 667.00244140625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.205247813411079,
+      "grad_norm": 0.131962850689888,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 337735603.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16142340004444122,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3519.0,
+      "completions/mean_length": 904.9141235351562,
+      "completions/mean_terminated_length": 626.081298828125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 5.214577259475218,
+      "grad_norm": 0.14526274800300598,
+      "learning_rate": 1e-06,
+      "loss": -0.0273,
+      "num_tokens": 338347022.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1642010509967804,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 981.40966796875,
+      "completions/mean_terminated_length": 625.013671875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 5.223906705539359,
+      "grad_norm": 0.14314597845077515,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 338934845.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.17119666934013367,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 874.1897583007812,
+      "completions/mean_terminated_length": 626.3582153320312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 5.233236151603498,
+      "grad_norm": 0.13769236207008362,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 339545695.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.1521807461977005,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3652.0,
+      "completions/mean_length": 975.404052734375,
+      "completions/mean_terminated_length": 609.6483764648438,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 5.242565597667639,
+      "grad_norm": 0.13476085662841797,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 340125761.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.15153953433036804,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2965.0,
+      "completions/mean_length": 905.052490234375,
+      "completions/mean_terminated_length": 642.9939575195312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.251895043731778,
+      "grad_norm": 0.14517644047737122,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 340743480.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.15518662333488464,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 908.62841796875,
+      "completions/mean_terminated_length": 642.69287109375,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 5.261224489795918,
+      "grad_norm": 0.14808538556098938,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 341360259.0,
+      "reward": 0.6171875,
+      "reward_std": 0.17972436547279358,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 990.5904541015625,
+      "completions/mean_terminated_length": 706.905029296875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 5.270553935860058,
+      "grad_norm": 0.13488610088825226,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 342040276.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.18047957122325897,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2525.0,
+      "completions/mean_length": 842.6641235351562,
+      "completions/mean_terminated_length": 609.1710205078125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 5.279883381924198,
+      "grad_norm": 0.1330379992723465,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 342640551.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.16209810972213745,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3831.0,
+      "completions/mean_length": 857.114990234375,
+      "completions/mean_terminated_length": 624.6590576171875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 5.289212827988338,
+      "grad_norm": 0.12528836727142334,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 343248670.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.13763242959976196,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 933.4922485351562,
+      "completions/mean_terminated_length": 640.3817138671875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.298542274052478,
+      "grad_norm": 0.14895907044410706,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 343859247.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.19527794420719147,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3634.0,
+      "completions/mean_length": 914.67529296875,
+      "completions/mean_terminated_length": 628.278564453125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 5.307871720116618,
+      "grad_norm": 0.1415090411901474,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 344462452.0,
+      "reward": 0.6328125,
+      "reward_std": 0.15210728347301483,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3712.0,
+      "completions/mean_length": 923.8873291015625,
+      "completions/mean_terminated_length": 671.64697265625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 5.317201166180758,
+      "grad_norm": 0.1356671005487442,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 345112175.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15808121860027313,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 884.427490234375,
+      "completions/mean_terminated_length": 637.3834228515625,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 5.326530612244898,
+      "grad_norm": 0.1242910847067833,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 345727446.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.14841853082180023,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3432.0,
+      "completions/mean_length": 917.950927734375,
+      "completions/mean_terminated_length": 627.6297607421875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 5.335860058309038,
+      "grad_norm": 0.1463022381067276,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 346324954.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1641671359539032,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3445.0,
+      "completions/mean_length": 877.927490234375,
+      "completions/mean_terminated_length": 592.48486328125,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 5.345189504373177,
+      "grad_norm": 0.12898695468902588,
+      "learning_rate": 1e-06,
+      "loss": -0.0132,
+      "num_tokens": 346905257.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.13903389871120453,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 897.3761596679688,
+      "completions/mean_terminated_length": 617.8847045898438,
+      "completions/min_length": 82.0,
+      "completions/min_terminated_length": 82.0,
+      "epoch": 5.354518950437318,
+      "grad_norm": 0.13803651928901672,
+      "learning_rate": 1e-06,
+      "loss": -0.0225,
+      "num_tokens": 347508970.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15026256442070007,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3207.0,
+      "completions/mean_length": 823.3761596679688,
+      "completions/mean_terminated_length": 567.3947143554688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 5.363848396501457,
+      "grad_norm": 0.16021214425563812,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 348071027.0,
+      "reward": 0.625,
+      "reward_std": 0.1699499785900116,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3627.0,
+      "completions/mean_length": 974.5279541015625,
+      "completions/mean_terminated_length": 676.8814697265625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 5.373177842565598,
+      "grad_norm": 0.13691644370555878,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 348717196.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.19058279693126678,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841193318367004,
+      "step": 575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3303.0,
+      "completions/mean_length": 861.9475708007812,
+      "completions/mean_terminated_length": 613.17431640625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 5.382507288629737,
+      "grad_norm": 0.12933017313480377,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 349323901.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.14774522185325623,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 879.1105346679688,
+      "completions/mean_terminated_length": 664.6512451171875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 5.391836734693878,
+      "grad_norm": 0.11132606118917465,
+      "learning_rate": 1e-06,
+      "loss": -0.0085,
+      "num_tokens": 349968784.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12734243273735046,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2866.0,
+      "completions/mean_length": 889.68310546875,
+      "completions/mean_terminated_length": 609.5194091796875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.401166180758017,
+      "grad_norm": 0.12581051886081696,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 350566652.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1265924572944641,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3481.0,
+      "completions/mean_length": 957.44873046875,
+      "completions/mean_terminated_length": 645.51904296875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.410495626822158,
+      "grad_norm": 0.13605797290802002,
+      "learning_rate": 1e-06,
+      "loss": -0.0069,
+      "num_tokens": 351186790.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.16224753856658936,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 866.6964721679688,
+      "completions/mean_terminated_length": 609.908447265625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.419825072886297,
+      "grad_norm": 0.15027391910552979,
+      "learning_rate": 1e-06,
+      "loss": -0.0311,
+      "num_tokens": 351778750.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1741601824760437,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3479.0,
+      "completions/mean_length": 886.44091796875,
+      "completions/mean_terminated_length": 593.2412109375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.429154518950437,
+      "grad_norm": 0.1291462481021881,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 352352025.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.14361028373241425,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3480.0,
+      "completions/mean_length": 926.9219360351562,
+      "completions/mean_terminated_length": 624.7359619140625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 5.438483965014577,
+      "grad_norm": 0.13395194709300995,
+      "learning_rate": 1e-06,
+      "loss": -0.0157,
+      "num_tokens": 352944587.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15480755269527435,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3692.0,
+      "completions/mean_length": 854.021240234375,
+      "completions/mean_terminated_length": 596.225341796875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.447813411078717,
+      "grad_norm": 0.1539541482925415,
+      "learning_rate": 1e-06,
+      "loss": -0.048,
+      "num_tokens": 353522342.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.18044115602970123,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 858.6685791015625,
+      "completions/mean_terminated_length": 601.2421875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 5.457142857142857,
+      "grad_norm": 0.1502072811126709,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 354106013.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.19148364663124084,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2871.0,
+      "completions/mean_length": 1015.3906860351562,
+      "completions/mean_terminated_length": 637.0701904296875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.466472303206997,
+      "grad_norm": 0.13293175399303436,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 354711363.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.146052747964859,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2175.0,
+      "completions/mean_length": 865.8917846679688,
+      "completions/mean_terminated_length": 592.15380859375,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 5.475801749271137,
+      "grad_norm": 0.15534572303295135,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 355288218.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1977938711643219,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3632.0,
+      "completions/mean_length": 995.3605346679688,
+      "completions/mean_terminated_length": 661.9171752929688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 5.485131195335277,
+      "grad_norm": 0.14128495752811432,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 355922325.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.16059856116771698,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 1025.6551513671875,
+      "completions/mean_terminated_length": 644.269775390625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 5.494460641399417,
+      "grad_norm": 0.1482999175786972,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 356533480.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.17017750442028046,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 882.4766235351562,
+      "completions/mean_terminated_length": 639.4369506835938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.503790087463557,
+      "grad_norm": 0.1332821547985077,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 357151787.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.16755323112010956,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2597.0,
+      "completions/mean_length": 783.0313110351562,
+      "completions/mean_terminated_length": 566.3685913085938,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 5.513119533527696,
+      "grad_norm": 0.15688472986221313,
+      "learning_rate": 1e-06,
+      "loss": -0.0181,
+      "num_tokens": 357711823.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.14586912095546722,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4051.0,
+      "completions/mean_length": 1026.529052734375,
+      "completions/mean_terminated_length": 632.214111328125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.522448979591837,
+      "grad_norm": 0.14070656895637512,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 358309881.0,
+      "reward": 0.625,
+      "reward_std": 0.16717232763767242,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3189.0,
+      "completions/mean_length": 821.7332763671875,
+      "completions/mean_terminated_length": 603.4488525390625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.531778425655976,
+      "grad_norm": 0.13638702034950256,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 358918010.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.13711318373680115,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3686.0,
+      "completions/mean_length": 915.25341796875,
+      "completions/mean_terminated_length": 594.8341674804688,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 5.541107871720117,
+      "grad_norm": 0.16951455175876617,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 359498525.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.16679435968399048,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2943.0,
+      "completions/mean_length": 1003.8616333007812,
+      "completions/mean_terminated_length": 683.9852294921875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.550437317784256,
+      "grad_norm": 0.15062110126018524,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 360138497.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.2011367678642273,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3001.0,
+      "completions/mean_length": 1000.88623046875,
+      "completions/mean_terminated_length": 646.7188720703125,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 5.559766763848397,
+      "grad_norm": 0.1648234874010086,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 360765499.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.1934778094291687,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3845.0,
+      "completions/mean_length": 939.7199096679688,
+      "completions/mean_terminated_length": 626.0281982421875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 5.569096209912536,
+      "grad_norm": 0.15192818641662598,
+      "learning_rate": 1e-06,
+      "loss": -0.0487,
+      "num_tokens": 361351512.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.17844374477863312,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3842.0,
+      "completions/mean_length": 783.2377319335938,
+      "completions/mean_terminated_length": 591.59033203125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.578425655976677,
+      "grad_norm": 0.13535654544830322,
+      "learning_rate": 1e-06,
+      "loss": -0.0336,
+      "num_tokens": 361930173.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.13087642192840576,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2758.0,
+      "completions/mean_length": 869.6785888671875,
+      "completions/mean_terminated_length": 625.6710205078125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 5.587755102040816,
+      "grad_norm": 0.1371794492006302,
+      "learning_rate": 1e-06,
+      "loss": -0.0134,
+      "num_tokens": 362535869.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.16575013101100922,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3988.0,
+      "completions/mean_length": 941.3906860351562,
+      "completions/mean_terminated_length": 644.803466796875,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.597084548104956,
+      "grad_norm": 0.12543779611587524,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 363155555.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.1598842889070511,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3489.0,
+      "completions/mean_length": 1007.9342041015625,
+      "completions/mean_terminated_length": 633.0375366210938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.606413994169096,
+      "grad_norm": 0.15942542254924774,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 363748664.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17585155367851257,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 600
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3927.0,
+      "completions/mean_length": 839.8013916015625,
+      "completions/mean_terminated_length": 643.2733764648438,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 5.615743440233236,
+      "grad_norm": 0.13871051371097565,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 364380670.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.19208098948001862,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 601
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 842.1016235351562,
+      "completions/mean_terminated_length": 616.8914184570312,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 5.625072886297376,
+      "grad_norm": 0.1313745081424713,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 364977225.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16563068330287933,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 602
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3004.0,
+      "completions/mean_length": 925.3449096679688,
+      "completions/mean_terminated_length": 644.108154296875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 5.634402332361516,
+      "grad_norm": 0.16670598089694977,
+      "learning_rate": 1e-06,
+      "loss": -0.0206,
+      "num_tokens": 365602102.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.20249293744564056,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 603
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 904.255615234375,
+      "completions/mean_terminated_length": 662.8630981445312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.643731778425656,
+      "grad_norm": 0.14878563582897186,
+      "learning_rate": 1e-06,
+      "loss": -0.0494,
+      "num_tokens": 366240707.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.19475801289081573,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 604
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3581.0,
+      "completions/mean_length": 888.8348388671875,
+      "completions/mean_terminated_length": 629.630859375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 5.653061224489796,
+      "grad_norm": 0.1483723521232605,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 366852159.0,
+      "reward": 0.640625,
+      "reward_std": 0.16923388838768005,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 605
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 910.8527221679688,
+      "completions/mean_terminated_length": 611.3944091796875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 5.662390670553936,
+      "grad_norm": 0.15718428790569305,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 367440075.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.19385577738285065,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 606
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3415.0,
+      "completions/mean_length": 916.1484985351562,
+      "completions/mean_terminated_length": 629.8843994140625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.671720116618076,
+      "grad_norm": 0.13625109195709229,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 368044632.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.15680313110351562,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 607
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3278.0,
+      "completions/mean_length": 813.708740234375,
+      "completions/mean_terminated_length": 586.533447265625,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 5.681049562682215,
+      "grad_norm": 0.12798573076725006,
+      "learning_rate": 1e-06,
+      "loss": -0.0335,
+      "num_tokens": 368630211.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.14744353294372559,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 608
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2993.0,
+      "completions/mean_length": 1024.04248046875,
+      "completions/mean_terminated_length": 668.261474609375,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 5.690379008746356,
+      "grad_norm": 0.13185234367847443,
+      "learning_rate": 1e-06,
+      "loss": -0.0526,
+      "num_tokens": 369256209.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.16453805565834045,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 609
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2891.0,
+      "completions/mean_length": 845.8170166015625,
+      "completions/mean_terminated_length": 548.90625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.699708454810495,
+      "grad_norm": 0.14759176969528198,
+      "learning_rate": 1e-06,
+      "loss": -0.0241,
+      "num_tokens": 369798349.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14330969750881195,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 610
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2774.0,
+      "completions/mean_length": 874.9922485351562,
+      "completions/mean_terminated_length": 618.8638916015625,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 5.709037900874636,
+      "grad_norm": 0.1345078945159912,
+      "learning_rate": 1e-06,
+      "loss": -0.034,
+      "num_tokens": 370407406.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.1731833815574646,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 611
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3951.0,
+      "completions/mean_length": 1105.0692138671875,
+      "completions/mean_terminated_length": 646.9987182617188,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 5.718367346938775,
+      "grad_norm": 0.18225589394569397,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 371009772.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.23840835690498352,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 612
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3014.0,
+      "completions/mean_length": 974.927490234375,
+      "completions/mean_terminated_length": 609.115966796875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.727696793002916,
+      "grad_norm": 0.15671861171722412,
+      "learning_rate": 1e-06,
+      "loss": -0.0249,
+      "num_tokens": 371587939.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14940449595451355,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 613
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 941.404052734375,
+      "completions/mean_terminated_length": 606.4716186523438,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 5.737026239067055,
+      "grad_norm": 0.15861521661281586,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 372172917.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.13771162927150726,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 614
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3809.0,
+      "completions/mean_length": 953.4141235351562,
+      "completions/mean_terminated_length": 632.584228515625,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 5.746355685131196,
+      "grad_norm": 0.14253567159175873,
+      "learning_rate": 1e-06,
+      "loss": -0.0622,
+      "num_tokens": 372775704.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.17926721274852753,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 615
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2692.0,
+      "completions/mean_length": 910.1082763671875,
+      "completions/mean_terminated_length": 602.0477294921875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 5.755685131195335,
+      "grad_norm": 0.14117032289505005,
+      "learning_rate": 1e-06,
+      "loss": -0.0069,
+      "num_tokens": 373360409.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.14951257407665253,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 616
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2807.0,
+      "completions/mean_length": 927.6886596679688,
+      "completions/mean_terminated_length": 608.5220947265625,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 5.765014577259475,
+      "grad_norm": 0.15116062760353088,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 373942082.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.17111042141914368,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 617
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3099.0,
+      "completions/mean_length": 1008.1842041015625,
+      "completions/mean_terminated_length": 671.8873901367188,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 5.774344023323615,
+      "grad_norm": 0.12510289251804352,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 374569255.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.18006137013435364,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 618
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3745.0,
+      "completions/mean_length": 974.8125610351562,
+      "completions/mean_terminated_length": 600.2699584960938,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 5.783673469387755,
+      "grad_norm": 0.13947227597236633,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 375138975.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.16311588883399963,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 619
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3447.0,
+      "completions/mean_length": 863.1886596679688,
+      "completions/mean_terminated_length": 589.2215576171875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.793002915451895,
+      "grad_norm": 0.15783898532390594,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 375722552.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1863730102777481,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 620
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 905.7701416015625,
+      "completions/mean_terminated_length": 631.2169799804688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.802332361516035,
+      "grad_norm": 0.1397719383239746,
+      "learning_rate": 1e-06,
+      "loss": -0.0232,
+      "num_tokens": 376330386.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.14812499284744263,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 621
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3536.0,
+      "completions/mean_length": 915.5569458007812,
+      "completions/mean_terminated_length": 641.8460693359375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.811661807580175,
+      "grad_norm": 0.12052565068006516,
+      "learning_rate": 1e-06,
+      "loss": -0.0136,
+      "num_tokens": 376944117.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1407175064086914,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 622
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 1081.75,
+      "completions/mean_terminated_length": 703.0753784179688,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 5.820991253644315,
+      "grad_norm": 0.14530135691165924,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 377604165.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.16424313187599182,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 623
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3502.0,
+      "completions/mean_length": 1032.03466796875,
+      "completions/mean_terminated_length": 642.7760620117188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 5.830320699708455,
+      "grad_norm": 0.13524962961673737,
+      "learning_rate": 1e-06,
+      "loss": -0.0535,
+      "num_tokens": 378216948.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16584935784339905,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890191316604614,
+      "step": 624
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3559.0,
+      "completions/mean_length": 846.4107666015625,
+      "completions/mean_terminated_length": 592.2310791015625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 5.839650145772595,
+      "grad_norm": 0.14528243243694305,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 378788724.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.16186915338039398,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 625
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2959.0,
+      "completions/mean_length": 850.9609985351562,
+      "completions/mean_terminated_length": 575.9576416015625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.848979591836734,
+      "grad_norm": 0.1341572254896164,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 379344441.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1303137093782425,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 626
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 822.5301513671875,
+      "completions/mean_terminated_length": 620.84716796875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.858309037900875,
+      "grad_norm": 0.13909585773944855,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 379963396.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.18490804731845856,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 627
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3902.0,
+      "completions/mean_length": 909.5045166015625,
+      "completions/mean_terminated_length": 631.0728149414062,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 5.867638483965014,
+      "grad_norm": 0.14758238196372986,
+      "learning_rate": 1e-06,
+      "loss": -0.0268,
+      "num_tokens": 380563704.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16259340941905975,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 628
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3701.0,
+      "completions/mean_length": 973.08154296875,
+      "completions/mean_terminated_length": 632.9616088867188,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.876967930029155,
+      "grad_norm": 0.13139067590236664,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 381173257.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1308029592037201,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 629
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2968.0,
+      "completions/mean_length": 920.4230346679688,
+      "completions/mean_terminated_length": 613.35986328125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 5.886297376093294,
+      "grad_norm": 0.15726451575756073,
+      "learning_rate": 1e-06,
+      "loss": -0.0129,
+      "num_tokens": 381766404.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.17145811021327972,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 630
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2643.0,
+      "completions/mean_length": 918.8381958007812,
+      "completions/mean_terminated_length": 598.7800903320312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 5.895626822157435,
+      "grad_norm": 0.15146227180957794,
+      "learning_rate": 1e-06,
+      "loss": -0.0466,
+      "num_tokens": 382341499.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.14846019446849823,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 631
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2318.0,
+      "completions/mean_length": 945.5870971679688,
+      "completions/mean_terminated_length": 636.7230834960938,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 5.904956268221574,
+      "grad_norm": 0.15846389532089233,
+      "learning_rate": 1e-06,
+      "loss": -0.0341,
+      "num_tokens": 382958017.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.18277119100093842,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 632
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 870.130615234375,
+      "completions/mean_terminated_length": 592.5103149414062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 5.914285714285715,
+      "grad_norm": 0.1437930166721344,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 383527846.0,
+      "reward": 0.65625,
+      "reward_std": 0.1528201550245285,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 633
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 842.7422485351562,
+      "completions/mean_terminated_length": 617.576416015625,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 5.923615160349854,
+      "grad_norm": 0.140001580119133,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 384137615.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.16029614210128784,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 634
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3173.0,
+      "completions/mean_length": 1009.1004638671875,
+      "completions/mean_terminated_length": 647.2943115234375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.932944606413994,
+      "grad_norm": 0.15843509137630463,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 384754145.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.19061671197414398,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 635
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2906.0,
+      "completions/mean_length": 987.6495971679688,
+      "completions/mean_terminated_length": 636.2708129882812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 5.942274052478134,
+      "grad_norm": 0.14235179126262665,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 385353463.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15075111389160156,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 636
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4055.0,
+      "completions/mean_length": 1003.5859985351562,
+      "completions/mean_terminated_length": 658.2791748046875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 5.9516034985422746,
+      "grad_norm": 0.13037067651748657,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 385979764.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.16300641000270844,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 637
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3693.0,
+      "completions/mean_length": 1024.9888916015625,
+      "completions/mean_terminated_length": 690.5222778320312,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.960932944606414,
+      "grad_norm": 0.1297571361064911,
+      "learning_rate": 1e-06,
+      "loss": -0.0262,
+      "num_tokens": 386633442.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.15405938029289246,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 638
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2324.0,
+      "completions/mean_length": 896.3527221679688,
+      "completions/mean_terminated_length": 595.5311279296875,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 5.970262390670554,
+      "grad_norm": 0.13038305938243866,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 387212398.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14158262312412262,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 639
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 919.154052734375,
+      "completions/mean_terminated_length": 564.4193725585938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.979591836734694,
+      "grad_norm": 0.1239788755774498,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 387747560.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.12448880821466446,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 640
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2632.0,
+      "completions/mean_length": 1172.763427734375,
+      "completions/mean_terminated_length": 626.83447265625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 5.988921282798834,
+      "grad_norm": 0.16144493222236633,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 388320788.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.1644297093153,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 641
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.11931818181818177,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3491.0,
+      "completions/mean_length": 1079.23583984375,
+      "completions/mean_terminated_length": 670.5128784179688,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.998250728862974,
+      "grad_norm": 0.12611761689186096,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 388903151.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1252797544002533,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 642
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3967.0,
+      "completions/mean_length": 978.6897583007812,
+      "completions/mean_terminated_length": 673.0711059570312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.0093294460641395,
+      "grad_norm": 0.14926742017269135,
+      "learning_rate": 1e-06,
+      "loss": -0.0228,
+      "num_tokens": 389557321.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.17104442417621613,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 643
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3307.0,
+      "completions/mean_length": 850.5692138671875,
+      "completions/mean_terminated_length": 566.9878540039062,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 6.01865889212828,
+      "grad_norm": 0.15022827684879303,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 390102135.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1798299103975296,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140389680862427,
+      "step": 644
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3990.0,
+      "completions/mean_length": 1025.227783203125,
+      "completions/mean_terminated_length": 613.2000122070312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.0279883381924195,
+      "grad_norm": 0.17383526265621185,
+      "learning_rate": 1e-06,
+      "loss": -0.0649,
+      "num_tokens": 390678091.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.2123749703168869,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 645
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2602.0,
+      "completions/mean_length": 1063.946533203125,
+      "completions/mean_terminated_length": 621.9334716796875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 6.03731778425656,
+      "grad_norm": 0.15711233019828796,
+      "learning_rate": 1e-06,
+      "loss": -0.0362,
+      "num_tokens": 391265275.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.16465681791305542,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 646
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4096.0,
+      "completions/mean_length": 1064.532470703125,
+      "completions/mean_terminated_length": 700.7562255859375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 6.0466472303206995,
+      "grad_norm": 0.12954795360565186,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 391910216.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1645815223455429,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 647
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 922.4788208007812,
+      "completions/mean_terminated_length": 607.0736083984375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 6.05597667638484,
+      "grad_norm": 0.1555488258600235,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 392492517.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.18472330272197723,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 648
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 1020.1685791015625,
+      "completions/mean_terminated_length": 638.1016235351562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 6.0653061224489795,
+      "grad_norm": 0.12056968361139297,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 393088804.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.12651507556438446,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 649
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2589.0,
+      "completions/mean_length": 898.1864013671875,
+      "completions/mean_terminated_length": 584.67529296875,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 6.07463556851312,
+      "grad_norm": 0.134687140583992,
+      "learning_rate": 1e-06,
+      "loss": -0.033,
+      "num_tokens": 393657235.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.14409995079040527,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 650
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2604.0,
+      "completions/mean_length": 807.2020263671875,
+      "completions/mean_terminated_length": 579.576416015625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 6.0839650145772595,
+      "grad_norm": 0.15552006661891937,
+      "learning_rate": 1e-06,
+      "loss": -0.031,
+      "num_tokens": 394233912.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.15477727353572845,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 651
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2422.0,
+      "completions/mean_length": 933.0078735351562,
+      "completions/mean_terminated_length": 579.820068359375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 6.093294460641399,
+      "grad_norm": 0.15305151045322418,
+      "learning_rate": 1e-06,
+      "loss": -0.0353,
+      "num_tokens": 394789423.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.14733406901359558,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 652
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3308.0,
+      "completions/mean_length": 905.1395263671875,
+      "completions/mean_terminated_length": 617.8843994140625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.1026239067055394,
+      "grad_norm": 0.15112105011940002,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 395388116.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.16108711063861847,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 653
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 1040.6239013671875,
+      "completions/mean_terminated_length": 669.6958618164062,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 6.111953352769679,
+      "grad_norm": 0.13102900981903076,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 396020419.0,
+      "reward": 0.625,
+      "reward_std": 0.15176916122436523,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 654
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3262.0,
+      "completions/mean_length": 975.3438110351562,
+      "completions/mean_terminated_length": 565.5606079101562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.121282798833819,
+      "grad_norm": 0.15055210888385773,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 396550487.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.16112099587917328,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 655
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2855.0,
+      "completions/mean_length": 865.3549194335938,
+      "completions/mean_terminated_length": 574.5182495117188,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 6.130612244897959,
+      "grad_norm": 0.14336565136909485,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 397099973.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13493286073207855,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 656
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3133.0,
+      "completions/mean_length": 870.6897583007812,
+      "completions/mean_terminated_length": 618.4091796875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.139941690962099,
+      "grad_norm": 0.14243707060813904,
+      "learning_rate": 1e-06,
+      "loss": -0.0725,
+      "num_tokens": 397698871.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1721295863389969,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 657
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3554.0,
+      "completions/mean_length": 1019.55810546875,
+      "completions/mean_terminated_length": 584.5452270507812,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 6.149271137026239,
+      "grad_norm": 0.1588740199804306,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 398251547.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.15495699644088745,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179546356201,
+      "step": 658
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 866.716552734375,
+      "completions/mean_terminated_length": 580.2794799804688,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 6.158600583090379,
+      "grad_norm": 0.14313143491744995,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 398814189.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.14158332347869873,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 659
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3080.0,
+      "completions/mean_length": 966.9006958007812,
+      "completions/mean_terminated_length": 595.7839965820312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.167930029154519,
+      "grad_norm": 0.13183774054050446,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 399377956.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1441013514995575,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 660
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3293.0,
+      "completions/mean_length": 1092.44873046875,
+      "completions/mean_terminated_length": 667.74267578125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.1772594752186585,
+      "grad_norm": 0.16232049465179443,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 400004414.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.1810370534658432,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 661
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2978.0,
+      "completions/mean_length": 841.4174194335938,
+      "completions/mean_terminated_length": 607.8348999023438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.186588921282799,
+      "grad_norm": 0.12299291789531708,
+      "learning_rate": 1e-06,
+      "loss": -0.0285,
+      "num_tokens": 400595492.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.14867813885211945,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 662
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3307.0,
+      "completions/mean_length": 972.4085083007812,
+      "completions/mean_terminated_length": 593.1990356445312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 6.1959183673469385,
+      "grad_norm": 0.1376301348209381,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 401162874.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.14545612037181854,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 663
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 920.7176513671875,
+      "completions/mean_terminated_length": 592.2401123046875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.205247813411079,
+      "grad_norm": 0.135666623711586,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 401724901.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.13587717711925507,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 664
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2843.0,
+      "completions/mean_length": 1083.359375,
+      "completions/mean_terminated_length": 648.5848999023438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 6.214577259475218,
+      "grad_norm": 0.13558167219161987,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 402331623.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.15548720955848694,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 665
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 913.6574096679688,
+      "completions/mean_terminated_length": 536.2259521484375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.223906705539359,
+      "grad_norm": 0.1738593429327011,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 402839516.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.14436279237270355,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 666
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3839.0,
+      "completions/mean_length": 1033.844970703125,
+      "completions/mean_terminated_length": 653.476806640625,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 6.233236151603498,
+      "grad_norm": 0.14586031436920166,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 403442457.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1676594614982605,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 667
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3068.0,
+      "completions/mean_length": 1085.3717041015625,
+      "completions/mean_terminated_length": 655.2818603515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.242565597667639,
+      "grad_norm": 0.14115239679813385,
+      "learning_rate": 1e-06,
+      "loss": -0.0776,
+      "num_tokens": 404051982.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.164730966091156,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 668
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3320.0,
+      "completions/mean_length": 964.1250610351562,
+      "completions/mean_terminated_length": 610.0869750976562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.251895043731778,
+      "grad_norm": 0.1455235630273819,
+      "learning_rate": 1e-06,
+      "loss": -0.0387,
+      "num_tokens": 404634454.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.1539819985628128,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 669
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3266.0,
+      "completions/mean_length": 918.7098388671875,
+      "completions/mean_terminated_length": 563.925537109375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.261224489795918,
+      "grad_norm": 0.13864287734031677,
+      "learning_rate": 1e-06,
+      "loss": -0.0369,
+      "num_tokens": 405179210.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.12129746377468109,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 670
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2980.0,
+      "completions/mean_length": 953.2154541015625,
+      "completions/mean_terminated_length": 580.4756469726562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 6.270553935860058,
+      "grad_norm": 0.16936975717544556,
+      "learning_rate": 1e-06,
+      "loss": -0.0758,
+      "num_tokens": 405733211.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.1598842889070511,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 671
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3677.0,
+      "completions/mean_length": 989.482177734375,
+      "completions/mean_terminated_length": 629.6986083984375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 6.279883381924198,
+      "grad_norm": 0.13950200378894806,
+      "learning_rate": 1e-06,
+      "loss": -0.0703,
+      "num_tokens": 406333163.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14707191288471222,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 672
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2629.0,
+      "completions/mean_length": 1002.18310546875,
+      "completions/mean_terminated_length": 600.3379516601562,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 6.289212827988338,
+      "grad_norm": 0.1564752608537674,
+      "learning_rate": 1e-06,
+      "loss": -0.0599,
+      "num_tokens": 406908959.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16938655078411102,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 673
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 944.0279541015625,
+      "completions/mean_terminated_length": 639.2472534179688,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 6.298542274052478,
+      "grad_norm": 0.14450131356716156,
+      "learning_rate": 1e-06,
+      "loss": -0.0349,
+      "num_tokens": 407518064.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.171762615442276,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 674
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3451.0,
+      "completions/mean_length": 1000.7801513671875,
+      "completions/mean_terminated_length": 633.681640625,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 6.307871720116618,
+      "grad_norm": 0.1488829255104065,
+      "learning_rate": 1e-06,
+      "loss": -0.0725,
+      "num_tokens": 408101387.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15856976807117462,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 675
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3398.0,
+      "completions/mean_length": 1001.6875610351562,
+      "completions/mean_terminated_length": 643.3175659179688,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 6.317201166180758,
+      "grad_norm": 0.14910122752189636,
+      "learning_rate": 1e-06,
+      "loss": -0.0838,
+      "num_tokens": 408705075.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1907336562871933,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 676
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3551.0,
+      "completions/mean_length": 1056.5179443359375,
+      "completions/mean_terminated_length": 586.4948120117188,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.326530612244898,
+      "grad_norm": 0.1475907415151596,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 409251555.0,
+      "reward": 0.625,
+      "reward_std": 0.14691968262195587,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 677
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2654.0,
+      "completions/mean_length": 999.1428833007812,
+      "completions/mean_terminated_length": 579.1635131835938,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 6.335860058309038,
+      "grad_norm": 0.15115858614444733,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 409811563.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1451544314622879,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 678
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4023.0,
+      "completions/mean_length": 890.2522583007812,
+      "completions/mean_terminated_length": 580.271728515625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 6.345189504373177,
+      "grad_norm": 0.1378905177116394,
+      "learning_rate": 1e-06,
+      "loss": -0.0547,
+      "num_tokens": 410374141.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.15826597809791565,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 679
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3437.0,
+      "completions/mean_length": 984.8359985351562,
+      "completions/mean_terminated_length": 654.5148315429688,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.354518950437318,
+      "grad_norm": 0.13695885241031647,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 410990162.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.16825932264328003,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.47737622261047363,
+      "step": 680
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2914.0,
+      "completions/mean_length": 1057.704345703125,
+      "completions/mean_terminated_length": 636.8983154296875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 6.363848396501457,
+      "grad_norm": 0.1458936631679535,
+      "learning_rate": 1e-06,
+      "loss": -0.0445,
+      "num_tokens": 411582201.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16619591414928436,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 681
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3007.0,
+      "completions/mean_length": 1068.0670166015625,
+      "completions/mean_terminated_length": 635.5050659179688,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.373177842565598,
+      "grad_norm": 0.15132257342338562,
+      "learning_rate": 1e-06,
+      "loss": -0.025,
+      "num_tokens": 412175781.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.16258637607097626,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 682
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2926.0,
+      "completions/mean_length": 947.7422485351562,
+      "completions/mean_terminated_length": 591.8521728515625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.382507288629737,
+      "grad_norm": 0.1570195108652115,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 412744822.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.15390783548355103,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 683
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3387.0,
+      "completions/mean_length": 1046.8326416015625,
+      "completions/mean_terminated_length": 637.7037963867188,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.391836734693878,
+      "grad_norm": 0.1534552276134491,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 413338928.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.15932045876979828,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 684
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 948.1328735351562,
+      "completions/mean_terminated_length": 557.117919921875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.401166180758017,
+      "grad_norm": 0.1437825709581375,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 413874599.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1479741632938385,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 685
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3242.0,
+      "completions/mean_length": 1084.251220703125,
+      "completions/mean_terminated_length": 591.4194946289062,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.410495626822158,
+      "grad_norm": 0.14510203897953033,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 414417496.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.14496827125549316,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 686
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 971.7578735351562,
+      "completions/mean_terminated_length": 652.8007202148438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.419825072886297,
+      "grad_norm": 0.14245858788490295,
+      "learning_rate": 1e-06,
+      "loss": -0.0302,
+      "num_tokens": 415032655.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.16119766235351562,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 687
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 1006.2567138671875,
+      "completions/mean_terminated_length": 635.4874877929688,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 6.429154518950437,
+      "grad_norm": 0.1387123465538025,
+      "learning_rate": 1e-06,
+      "loss": -0.0484,
+      "num_tokens": 415628597.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.14173558354377747,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3964.0,
+      "completions/mean_length": 1053.0379638671875,
+      "completions/mean_terminated_length": 622.7592163085938,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 6.438483965014577,
+      "grad_norm": 0.14167840778827667,
+      "learning_rate": 1e-06,
+      "loss": -0.0463,
+      "num_tokens": 416208327.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.14515121281147003,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 689
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3639.0,
+      "completions/mean_length": 1001.5178833007812,
+      "completions/mean_terminated_length": 625.84228515625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 6.447813411078717,
+      "grad_norm": 0.15804407000541687,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 416793207.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.170363649725914,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 690
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3890.0,
+      "completions/mean_length": 1071.2366943359375,
+      "completions/mean_terminated_length": 647.9236450195312,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 6.457142857142857,
+      "grad_norm": 0.1627172827720642,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 417390947.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.19772042334079742,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 691
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3897.0,
+      "completions/mean_length": 859.9263916015625,
+      "completions/mean_terminated_length": 581.4278564453125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 6.466472303206997,
+      "grad_norm": 0.13965976238250732,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 417960913.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13801473379135132,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 692
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3663.0,
+      "completions/mean_length": 971.9553833007812,
+      "completions/mean_terminated_length": 614.4776000976562,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 6.475801749271137,
+      "grad_norm": 0.15344823896884918,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 418537345.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.17644678056240082,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 693
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3841.0,
+      "completions/mean_length": 921.2020263671875,
+      "completions/mean_terminated_length": 588.4549560546875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 6.485131195335277,
+      "grad_norm": 0.16213160753250122,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 419106150.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.13459837436676025,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 694
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3944.0,
+      "completions/mean_length": 1001.28466796875,
+      "completions/mean_terminated_length": 603.7266845703125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 6.494460641399417,
+      "grad_norm": 0.1728551685810089,
+      "learning_rate": 1e-06,
+      "loss": -0.0817,
+      "num_tokens": 419672869.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.172694131731987,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 695
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2525.0,
+      "completions/mean_length": 1050.458740234375,
+      "completions/mean_terminated_length": 606.4795532226562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 6.503790087463557,
+      "grad_norm": 0.16064096987247467,
+      "learning_rate": 1e-06,
+      "loss": -0.0312,
+      "num_tokens": 420240728.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.15056565403938293,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 696
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4025.0,
+      "completions/mean_length": 1152.38623046875,
+      "completions/mean_terminated_length": 625.6342163085938,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 6.513119533527696,
+      "grad_norm": 0.17802776396274567,
+      "learning_rate": 1e-06,
+      "loss": -0.0692,
+      "num_tokens": 420812882.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.19523699581623077,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 697
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 965.9420166015625,
+      "completions/mean_terminated_length": 629.3349609375,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 6.522448979591837,
+      "grad_norm": 0.1359633207321167,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 421421766.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1796458661556244,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 698
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2912.0,
+      "completions/mean_length": 981.7522583007812,
+      "completions/mean_terminated_length": 559.4144287109375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 6.531778425655976,
+      "grad_norm": 0.13205242156982422,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 421952872.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.12749215960502625,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 699
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2405.0,
+      "completions/mean_length": 868.075927734375,
+      "completions/mean_terminated_length": 568.9024658203125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.541107871720117,
+      "grad_norm": 0.12569795548915863,
+      "learning_rate": 1e-06,
+      "loss": -0.0238,
+      "num_tokens": 422499556.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.12595123052597046,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.46896928548812866,
+      "step": 700
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3071.0,
+      "completions/mean_length": 1055.8717041015625,
+      "completions/mean_terminated_length": 612.6815795898438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.550437317784256,
+      "grad_norm": 0.14089711010456085,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 423063809.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.13827574253082275,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 701
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 937.9442138671875,
+      "completions/mean_terminated_length": 589.6580200195312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.559766763848397,
+      "grad_norm": 0.13796377182006836,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 423623967.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1167111024260521,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 702
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 1203.165283203125,
+      "completions/mean_terminated_length": 667.4550170898438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 6.569096209912536,
+      "grad_norm": 0.17245352268218994,
+      "learning_rate": 1e-06,
+      "loss": -0.075,
+      "num_tokens": 424204907.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1447407603263855,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 703
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2938.0,
+      "completions/mean_length": 864.9241333007812,
+      "completions/mean_terminated_length": 582.5971069335938,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 6.578425655976677,
+      "grad_norm": 0.15715719759464264,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 424770519.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14887388050556183,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 704
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2681.0,
+      "completions/mean_length": 998.1808471679688,
+      "completions/mean_terminated_length": 652.2704467773438,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 6.587755102040816,
+      "grad_norm": 0.15077020227909088,
+      "learning_rate": 1e-06,
+      "loss": -0.0458,
+      "num_tokens": 425377409.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.17261813580989838,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 705
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 1056.735595703125,
+      "completions/mean_terminated_length": 640.1865234375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 6.597084548104956,
+      "grad_norm": 0.15572671592235565,
+      "learning_rate": 1e-06,
+      "loss": -0.042,
+      "num_tokens": 425974932.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.16217085719108582,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 706
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2756.0,
+      "completions/mean_length": 883.94091796875,
+      "completions/mean_terminated_length": 586.23779296875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 6.606413994169096,
+      "grad_norm": 0.15391968190670013,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 426547039.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14060692489147186,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 707
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3692.0,
+      "completions/mean_length": 897.9967041015625,
+      "completions/mean_terminated_length": 580.1582641601562,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 6.615743440233236,
+      "grad_norm": 0.14751707017421722,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 427109996.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.19320568442344666,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 708
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3979.0,
+      "completions/mean_length": 1117.0223388671875,
+      "completions/mean_terminated_length": 634.04931640625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 6.625072886297376,
+      "grad_norm": 0.16707062721252441,
+      "learning_rate": 1e-06,
+      "loss": -0.0811,
+      "num_tokens": 427688144.0,
+      "reward": 0.6171875,
+      "reward_std": 0.16394254565238953,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 709
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3331.0,
+      "completions/mean_length": 1118.5882568359375,
+      "completions/mean_terminated_length": 590.4007568359375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.634402332361516,
+      "grad_norm": 0.1403144896030426,
+      "learning_rate": 1e-06,
+      "loss": -0.0588,
+      "num_tokens": 428237231.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.13639962673187256,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 710
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3550.0,
+      "completions/mean_length": 981.6160888671875,
+      "completions/mean_terminated_length": 633.8560791015625,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 6.643731778425656,
+      "grad_norm": 0.12499608844518661,
+      "learning_rate": 1e-06,
+      "loss": -0.0318,
+      "num_tokens": 428831975.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12531296908855438,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 711
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 1115.3226318359375,
+      "completions/mean_terminated_length": 586.5558471679688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.653061224489796,
+      "grad_norm": 0.1809120774269104,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 429374712.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.18975867331027985,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 712
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2627.0,
+      "completions/mean_length": 1017.966552734375,
+      "completions/mean_terminated_length": 609.3780517578125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 6.662390670553936,
+      "grad_norm": 0.13838516175746918,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 429947746.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1327946037054062,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 713
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3475.0,
+      "completions/mean_length": 1117.8348388671875,
+      "completions/mean_terminated_length": 625.9921875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 6.671720116618076,
+      "grad_norm": 0.15369167923927307,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 430528246.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.12092021107673645,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961684107780457,
+      "step": 714
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2491.0,
+      "completions/mean_length": 1041.997802734375,
+      "completions/mean_terminated_length": 619.0164794921875,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 6.681049562682215,
+      "grad_norm": 0.17129403352737427,
+      "learning_rate": 1e-06,
+      "loss": -0.055,
+      "num_tokens": 431106148.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.16551373898983002,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 715
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2946.0,
+      "completions/mean_length": 1083.171875,
+      "completions/mean_terminated_length": 635.1102905273438,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 6.690379008746356,
+      "grad_norm": 0.15595877170562744,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 431692286.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.16311517357826233,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 716
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 1120.594970703125,
+      "completions/mean_terminated_length": 656.0477905273438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 6.699708454810495,
+      "grad_norm": 0.12979260087013245,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 432289731.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1328631341457367,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 717
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2711.0,
+      "completions/mean_length": 1017.5982666015625,
+      "completions/mean_terminated_length": 604.5468139648438,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 6.709037900874636,
+      "grad_norm": 0.17066724598407745,
+      "learning_rate": 1e-06,
+      "loss": -0.0623,
+      "num_tokens": 432851643.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.19501832127571106,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 718
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 976.0022583007812,
+      "completions/mean_terminated_length": 618.987548828125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.718367346938775,
+      "grad_norm": 0.14995244145393372,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 433448189.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.15893998742103577,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 719
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2896.0,
+      "completions/mean_length": 1039.6328125,
+      "completions/mean_terminated_length": 607.4586181640625,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 6.727696793002916,
+      "grad_norm": 0.15274804830551147,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 434013964.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14012089371681213,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 720
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2835.0,
+      "completions/mean_length": 976.6607666015625,
+      "completions/mean_terminated_length": 615.3922729492188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 6.737026239067055,
+      "grad_norm": 0.1447124183177948,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 434589044.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14518442749977112,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 721
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2406.0,
+      "completions/mean_length": 1010.3303833007812,
+      "completions/mean_terminated_length": 574.0127563476562,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.746355685131196,
+      "grad_norm": 0.144724503159523,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 435142420.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.143646702170372,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 722
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2387.0,
+      "completions/mean_length": 1048.5592041015625,
+      "completions/mean_terminated_length": 590.8562622070312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.755685131195335,
+      "grad_norm": 0.14169110357761383,
+      "learning_rate": 1e-06,
+      "loss": -0.0401,
+      "num_tokens": 435690633.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1201702207326889,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 723
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2746.0,
+      "completions/mean_length": 954.693115234375,
+      "completions/mean_terminated_length": 590.8804321289062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.765014577259475,
+      "grad_norm": 0.15913435816764832,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 436246142.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.15597687661647797,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 724
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3877.0,
+      "completions/mean_length": 1101.71435546875,
+      "completions/mean_terminated_length": 643.1300048828125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 6.774344023323615,
+      "grad_norm": 0.1231972724199295,
+      "learning_rate": 1e-06,
+      "loss": -0.0695,
+      "num_tokens": 436831502.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.137190580368042,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 725
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3839.0,
+      "completions/mean_length": 1031.219970703125,
+      "completions/mean_terminated_length": 615.5906372070312,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.783673469387755,
+      "grad_norm": 0.16800829768180847,
+      "learning_rate": 1e-06,
+      "loss": -0.062,
+      "num_tokens": 437404651.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.16950741410255432,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 726
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3820.0,
+      "completions/mean_length": 1120.3348388671875,
+      "completions/mean_terminated_length": 628.9050903320312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 6.793002915451895,
+      "grad_norm": 0.1576811969280243,
+      "learning_rate": 1e-06,
+      "loss": -0.0834,
+      "num_tokens": 437978679.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.17866946756839752,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924396276473999,
+      "step": 727
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4070.0,
+      "completions/mean_length": 1077.74560546875,
+      "completions/mean_terminated_length": 650.9605102539062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.802332361516035,
+      "grad_norm": 0.15597330033779144,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 438573691.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.16897287964820862,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 728
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4094.0,
+      "completions/mean_length": 1027.2679443359375,
+      "completions/mean_terminated_length": 619.9140625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.811661807580175,
+      "grad_norm": 0.16009485721588135,
+      "learning_rate": 1e-06,
+      "loss": -0.0631,
+      "num_tokens": 439145419.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16799716651439667,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 729
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2769.0,
+      "completions/mean_length": 1080.5023193359375,
+      "completions/mean_terminated_length": 645.3154296875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.820991253644315,
+      "grad_norm": 0.1696934551000595,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 439727237.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.18344563245773315,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 730
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1629464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3934.0,
+      "completions/mean_length": 1211.430908203125,
+      "completions/mean_terminated_length": 649.9013061523438,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 6.830320699708455,
+      "grad_norm": 0.15010182559490204,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 440303463.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.14587052166461945,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 731
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 1067.74560546875,
+      "completions/mean_terminated_length": 635.1377563476562,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 6.839650145772595,
+      "grad_norm": 0.15665987133979797,
+      "learning_rate": 1e-06,
+      "loss": -0.0687,
+      "num_tokens": 440891995.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1796797662973404,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 732
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4080.0,
+      "completions/mean_length": 1021.5435791015625,
+      "completions/mean_terminated_length": 635.3052978515625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 6.848979591836734,
+      "grad_norm": 0.14565272629261017,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 441498786.0,
+      "reward": 0.6484375,
+      "reward_std": 0.16078400611877441,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 733
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 1053.6998291015625,
+      "completions/mean_terminated_length": 610.193115234375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 6.858309037900875,
+      "grad_norm": 0.12248275429010391,
+      "learning_rate": 1e-06,
+      "loss": -0.0548,
+      "num_tokens": 442064669.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12467243522405624,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 734
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3630.0,
+      "completions/mean_length": 1226.4364013671875,
+      "completions/mean_terminated_length": 630.8665771484375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.867638483965014,
+      "grad_norm": 0.14588762819766998,
+      "learning_rate": 1e-06,
+      "loss": -0.0951,
+      "num_tokens": 442632556.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.14331039786338806,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 735
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2815.0,
+      "completions/mean_length": 1014.5558471679688,
+      "completions/mean_terminated_length": 609.9216918945312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.876967930029155,
+      "grad_norm": 0.15247777104377747,
+      "learning_rate": 1e-06,
+      "loss": -0.0661,
+      "num_tokens": 443215750.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1789322942495346,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 736
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2444.0,
+      "completions/mean_length": 921.61279296875,
+      "completions/mean_terminated_length": 580.2385864257812,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 6.886297376093294,
+      "grad_norm": 0.146469846367836,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 443784179.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.13166987895965576,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 737
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3031.0,
+      "completions/mean_length": 1093.0546875,
+      "completions/mean_terminated_length": 672.795166015625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.895626822157435,
+      "grad_norm": 0.14227406680583954,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 444407068.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.14943519234657288,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 738
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 967.3917846679688,
+      "completions/mean_terminated_length": 583.1766967773438,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 6.904956268221574,
+      "grad_norm": 0.161316379904747,
+      "learning_rate": 1e-06,
+      "loss": -0.034,
+      "num_tokens": 444953627.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.14173416793346405,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 739
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 1104.263427734375,
+      "completions/mean_terminated_length": 641.6237182617188,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.914285714285715,
+      "grad_norm": 0.1274370402097702,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 445545927.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.12174323946237564,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 740
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2638.0,
+      "completions/mean_length": 977.2879638671875,
+      "completions/mean_terminated_length": 567.7600708007812,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.923615160349854,
+      "grad_norm": 0.16711221635341644,
+      "learning_rate": 1e-06,
+      "loss": -0.0888,
+      "num_tokens": 446076081.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1892266422510147,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 741
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3409.0,
+      "completions/mean_length": 1017.7935791015625,
+      "completions/mean_terminated_length": 609.1820678710938,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 6.932944606413994,
+      "grad_norm": 0.14523564279079437,
+      "learning_rate": 1e-06,
+      "loss": -0.0332,
+      "num_tokens": 446642448.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.13203758001327515,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 742
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3425.0,
+      "completions/mean_length": 903.7120971679688,
+      "completions/mean_terminated_length": 573.475341796875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.942274052478134,
+      "grad_norm": 0.12424454092979431,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 447203078.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.11599572002887726,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 743
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1741071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2782.0,
+      "completions/mean_length": 1237.685302734375,
+      "completions/mean_terminated_length": 635.1216430664062,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 6.9516034985422746,
+      "grad_norm": 0.1522192507982254,
+      "learning_rate": 1e-06,
+      "loss": -0.0862,
+      "num_tokens": 447759372.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.14714859426021576,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 744
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3506.0,
+      "completions/mean_length": 1002.8092041015625,
+      "completions/mean_terminated_length": 635.9512939453125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.960932944606414,
+      "grad_norm": 0.16338354349136353,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 448359329.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16468890011310577,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 745
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3056.0,
+      "completions/mean_length": 1093.83154296875,
+      "completions/mean_terminated_length": 607.0985717773438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.970262390670554,
+      "grad_norm": 0.14463958144187927,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 448918322.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.14920946955680847,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 746
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3299.0,
+      "completions/mean_length": 1028.368408203125,
+      "completions/mean_terminated_length": 590.1351928710938,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 6.979591836734694,
+      "grad_norm": 0.16860869526863098,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 449467500.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.20166808366775513,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 747
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3624.0,
+      "completions/mean_length": 1013.8582763671875,
+      "completions/mean_terminated_length": 600.3050537109375,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.988921282798834,
+      "grad_norm": 0.14585554599761963,
+      "learning_rate": 1e-06,
+      "loss": -0.0649,
+      "num_tokens": 450022117.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.14917558431625366,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.46100425720214844,
+      "step": 748
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15340909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2098.0,
+      "completions/mean_length": 1125.6534423828125,
+      "completions/mean_terminated_length": 587.4027099609375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 6.998250728862974,
+      "grad_norm": 0.1666969656944275,
+      "learning_rate": 1e-06,
+      "loss": -0.1032,
+      "num_tokens": 450573106.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.17333422601222992,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 749
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3491.0,
+      "completions/mean_length": 1101.943115234375,
+      "completions/mean_terminated_length": 598.37939453125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 7.0093294460641395,
+      "grad_norm": 0.1618053913116455,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 451127951.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.16570919752120972,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 750
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 990.2734985351562,
+      "completions/mean_terminated_length": 586.8814697265625,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 7.01865889212828,
+      "grad_norm": 0.1463259607553482,
+      "learning_rate": 1e-06,
+      "loss": -0.0769,
+      "num_tokens": 451684532.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.17277081310749054,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2101.0,
+      "completions/mean_length": 1067.78466796875,
+      "completions/mean_terminated_length": 599.5038452148438,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.0279883381924195,
+      "grad_norm": 0.17970505356788635,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 452234059.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16720734536647797,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 752
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 1139.446533203125,
+      "completions/mean_terminated_length": 642.1903686523438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.03731778425656,
+      "grad_norm": 0.13983535766601562,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 452812275.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.15018658339977264,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 753
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2732.0,
+      "completions/mean_length": 1135.7366943359375,
+      "completions/mean_terminated_length": 573.561767578125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.0466472303206995,
+      "grad_norm": 0.1569301187992096,
+      "learning_rate": 1e-06,
+      "loss": -0.0821,
+      "num_tokens": 453331071.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14766854047775269,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 754
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3035.0,
+      "completions/mean_length": 1066.384033203125,
+      "completions/mean_terminated_length": 629.1596069335938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 7.05597667638484,
+      "grad_norm": 0.16864013671875,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 453924383.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.17261996865272522,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 755
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3674.0,
+      "completions/mean_length": 1001.9922485351562,
+      "completions/mean_terminated_length": 652.2347412109375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 7.0653061224489795,
+      "grad_norm": 0.1340419054031372,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 454538504.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15372055768966675,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 756
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2668.0,
+      "completions/mean_length": 938.55029296875,
+      "completions/mean_terminated_length": 572.8679809570312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.07463556851312,
+      "grad_norm": 0.13865657150745392,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 455085757.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.13136427104473114,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 757
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3534.0,
+      "completions/mean_length": 1068.599365234375,
+      "completions/mean_terminated_length": 586.87841796875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 7.0839650145772595,
+      "grad_norm": 0.1785573959350586,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 455627406.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.17870336771011353,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 758
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2359.0,
+      "completions/mean_length": 1011.97216796875,
+      "completions/mean_terminated_length": 580.3651123046875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.093294460641399,
+      "grad_norm": 0.14673587679862976,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 456175773.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1665654182434082,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 759
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2938.0,
+      "completions/mean_length": 1018.4263916015625,
+      "completions/mean_terminated_length": 627.43896484375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 7.1026239067055394,
+      "grad_norm": 0.1314193457365036,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 456766507.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.13005296885967255,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 760
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 1100.9085693359375,
+      "completions/mean_terminated_length": 601.7265625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.111953352769679,
+      "grad_norm": 0.15485523641109467,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 457311361.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14271126687526703,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 761
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3791.0,
+      "completions/mean_length": 1136.161865234375,
+      "completions/mean_terminated_length": 656.2918090820312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.121282798833819,
+      "grad_norm": 0.1420951932668686,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 457907706.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.14774340391159058,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740602016449,
+      "step": 762
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3293.0,
+      "completions/mean_length": 1117.15966796875,
+      "completions/mean_terminated_length": 611.6123046875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.130612244897959,
+      "grad_norm": 0.17951548099517822,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 458470953.0,
+      "reward": 0.6171875,
+      "reward_std": 0.20053830742835999,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 763
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3280.0,
+      "completions/mean_length": 969.3047485351562,
+      "completions/mean_terminated_length": 633.059326171875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 7.139941690962099,
+      "grad_norm": 0.12861484289169312,
+      "learning_rate": 1e-06,
+      "loss": -0.0466,
+      "num_tokens": 459063298.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14045536518096924,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 764
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1819196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2980.0,
+      "completions/mean_length": 1254.390625,
+      "completions/mean_terminated_length": 622.4911499023438,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 7.149271137026239,
+      "grad_norm": 0.16698843240737915,
+      "learning_rate": 1e-06,
+      "loss": -0.082,
+      "num_tokens": 459619056.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.1616862416267395,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 765
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2727.0,
+      "completions/mean_length": 1059.31591796875,
+      "completions/mean_terminated_length": 580.6654052734375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 7.158600583090379,
+      "grad_norm": 0.14558841288089752,
+      "learning_rate": 1e-06,
+      "loss": -0.0189,
+      "num_tokens": 460151443.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.12697336077690125,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 766
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2526.0,
+      "completions/mean_length": 1019.71435546875,
+      "completions/mean_terminated_length": 641.9248046875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.167930029154519,
+      "grad_norm": 0.143239825963974,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 460757083.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1641247719526291,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 767
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3296.0,
+      "completions/mean_length": 1001.1529541015625,
+      "completions/mean_terminated_length": 594.7588500976562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 7.1772594752186585,
+      "grad_norm": 0.16062027215957642,
+      "learning_rate": 1e-06,
+      "loss": -0.0539,
+      "num_tokens": 461314212.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.15402548015117645,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 768
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 962.7076416015625,
+      "completions/mean_terminated_length": 634.3107299804688,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 7.186588921282799,
+      "grad_norm": 0.14385035634040833,
+      "learning_rate": 1e-06,
+      "loss": -0.0666,
+      "num_tokens": 461916678.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1645801067352295,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 769
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2688.0,
+      "completions/mean_length": 1010.232177734375,
+      "completions/mean_terminated_length": 605.0302734375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 7.1959183673469385,
+      "grad_norm": 0.12803252041339874,
+      "learning_rate": 1e-06,
+      "loss": -0.0727,
+      "num_tokens": 462488382.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.13034580647945404,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 770
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 1106.634033203125,
+      "completions/mean_terminated_length": 653.2339477539062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.205247813411079,
+      "grad_norm": 0.13519492745399475,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 463082030.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12549589574337006,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 771
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3068.0,
+      "completions/mean_length": 1142.110595703125,
+      "completions/mean_terminated_length": 618.0958862304688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 7.214577259475218,
+      "grad_norm": 0.16670489311218262,
+      "learning_rate": 1e-06,
+      "loss": -0.0953,
+      "num_tokens": 463645793.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15788871049880981,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 772
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2454.0,
+      "completions/mean_length": 989.1641235351562,
+      "completions/mean_terminated_length": 545.330322265625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 7.223906705539359,
+      "grad_norm": 0.16454815864562988,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 464168212.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1539064198732376,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 773
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3919.0,
+      "completions/mean_length": 913.5201416015625,
+      "completions/mean_terminated_length": 601.5122680664062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.233236151603498,
+      "grad_norm": 0.14666207134723663,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 464750862.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1650358885526657,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 774
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3768.0,
+      "completions/mean_length": 1094.6529541015625,
+      "completions/mean_terminated_length": 652.7131958007812,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 7.242565597667639,
+      "grad_norm": 0.14351041615009308,
+      "learning_rate": 1e-06,
+      "loss": -0.0703,
+      "num_tokens": 465351919.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16671767830848694,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 775
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3495.0,
+      "completions/mean_length": 1077.279052734375,
+      "completions/mean_terminated_length": 628.341064453125,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 7.251895043731778,
+      "grad_norm": 0.16652733087539673,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 465928009.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.1670207679271698,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 776
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3992.0,
+      "completions/mean_length": 972.5301513671875,
+      "completions/mean_terminated_length": 575.7119140625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 7.261224489795918,
+      "grad_norm": 0.13777396082878113,
+      "learning_rate": 1e-06,
+      "loss": -0.0715,
+      "num_tokens": 466467964.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14902400970458984,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 777
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3125.0,
+      "completions/mean_length": 970.71435546875,
+      "completions/mean_terminated_length": 626.0421142578125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 7.270553935860058,
+      "grad_norm": 0.14167393743991852,
+      "learning_rate": 1e-06,
+      "loss": -0.0777,
+      "num_tokens": 467058652.0,
+      "reward": 0.65625,
+      "reward_std": 0.1788976937532425,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 778
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2588.0,
+      "completions/mean_length": 1097.6373291015625,
+      "completions/mean_terminated_length": 682.3621215820312,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 7.279883381924198,
+      "grad_norm": 0.16399122774600983,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 467688207.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.2153034806251526,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 779
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 976.3660888671875,
+      "completions/mean_terminated_length": 606.3720092773438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.289212827988338,
+      "grad_norm": 0.14657285809516907,
+      "learning_rate": 1e-06,
+      "loss": -0.0356,
+      "num_tokens": 468262135.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.14725738763809204,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 780
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2954.0,
+      "completions/mean_length": 920.0870971679688,
+      "completions/mean_terminated_length": 604.4441528320312,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 7.298542274052478,
+      "grad_norm": 0.1364431381225586,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 468837061.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.13293729722499847,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 781
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 1103.671875,
+      "completions/mean_terminated_length": 618.5343627929688,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.307871720116618,
+      "grad_norm": 0.16352158784866333,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 469407359.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1749500334262848,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 782
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4046.0,
+      "completions/mean_length": 986.9967041015625,
+      "completions/mean_terminated_length": 639.8374633789062,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.317201166180758,
+      "grad_norm": 0.14241141080856323,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 470008412.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13113674521446228,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 783
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 936.0357666015625,
+      "completions/mean_terminated_length": 574.44775390625,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 7.326530612244898,
+      "grad_norm": 0.16738606989383698,
+      "learning_rate": 1e-06,
+      "loss": -0.0721,
+      "num_tokens": 470560212.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.18227308988571167,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 784
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2862.0,
+      "completions/mean_length": 939.0714721679688,
+      "completions/mean_terminated_length": 599.5747680664062,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 7.335860058309038,
+      "grad_norm": 0.1392066329717636,
+      "learning_rate": 1e-06,
+      "loss": -0.0387,
+      "num_tokens": 471126908.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.13508623838424683,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 785
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2201.0,
+      "completions/mean_length": 1056.08935546875,
+      "completions/mean_terminated_length": 621.8162841796875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.345189504373177,
+      "grad_norm": 0.15498603880405426,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 471704396.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1473340541124344,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 786
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3692.0,
+      "completions/mean_length": 1047.2601318359375,
+      "completions/mean_terminated_length": 646.9204711914062,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 7.354518950437318,
+      "grad_norm": 0.16760165989398956,
+      "learning_rate": 1e-06,
+      "loss": -0.0739,
+      "num_tokens": 472297013.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.15451332926750183,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 787
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3973.0,
+      "completions/mean_length": 1065.068115234375,
+      "completions/mean_terminated_length": 675.7039794921875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 7.363848396501457,
+      "grad_norm": 0.1438007950782776,
+      "learning_rate": 1e-06,
+      "loss": -0.074,
+      "num_tokens": 472929090.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.17254258692264557,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 788
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3282.0,
+      "completions/mean_length": 944.6160888671875,
+      "completions/mean_terminated_length": 597.065673828125,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 7.373177842565598,
+      "grad_norm": 0.12902919948101044,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 473496762.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.12192799896001816,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 789
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2843.0,
+      "completions/mean_length": 802.7020263671875,
+      "completions/mean_terminated_length": 574.7649536132812,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.382507288629737,
+      "grad_norm": 0.14225251972675323,
+      "learning_rate": 1e-06,
+      "loss": -0.0294,
+      "num_tokens": 474068415.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.15672755241394043,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 790
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 910.9810791015625,
+      "completions/mean_terminated_length": 620.023193359375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 7.391836734693878,
+      "grad_norm": 0.161042720079422,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 474668030.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.15315786004066467,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 791
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2867.0,
+      "completions/mean_length": 916.62841796875,
+      "completions/mean_terminated_length": 561.6116333007812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 7.401166180758017,
+      "grad_norm": 0.17593781650066376,
+      "learning_rate": 1e-06,
+      "loss": -0.0183,
+      "num_tokens": 475218361.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1504133939743042,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 792
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3796.0,
+      "completions/mean_length": 954.6239013671875,
+      "completions/mean_terminated_length": 586.4326782226562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 7.410495626822158,
+      "grad_norm": 0.1471102088689804,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 475777728.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1367352306842804,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 793
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3421.0,
+      "completions/mean_length": 957.4163208007812,
+      "completions/mean_terminated_length": 615.59033203125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 7.419825072886297,
+      "grad_norm": 0.14781427383422852,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 476360973.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.15282082557678223,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 794
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 981.2801513671875,
+      "completions/mean_terminated_length": 572.2764892578125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 7.429154518950437,
+      "grad_norm": 0.14452864229679108,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 476894488.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.13283173739910126,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 795
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2993.0,
+      "completions/mean_length": 1171.3348388671875,
+      "completions/mean_terminated_length": 710.3411254882812,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 7.438483965014577,
+      "grad_norm": 0.14694994688034058,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 477543908.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.1586029827594757,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 796
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 1129.8460693359375,
+      "completions/mean_terminated_length": 648.9520263671875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 7.447813411078717,
+      "grad_norm": 0.17439693212509155,
+      "learning_rate": 1e-06,
+      "loss": -0.1045,
+      "num_tokens": 478131186.0,
+      "reward": 0.609375,
+      "reward_std": 0.21080127358436584,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 797
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3194.0,
+      "completions/mean_length": 1074.9921875,
+      "completions/mean_terminated_length": 634.5895385742188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.457142857142857,
+      "grad_norm": 0.17701904475688934,
+      "learning_rate": 1e-06,
+      "loss": -0.0729,
+      "num_tokens": 478723603.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.17949292063713074,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 798
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3232.0,
+      "completions/mean_length": 1005.0592041015625,
+      "completions/mean_terminated_length": 647.0796508789062,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.466472303206997,
+      "grad_norm": 0.12809105217456818,
+      "learning_rate": 1e-06,
+      "loss": -0.0501,
+      "num_tokens": 479334864.0,
+      "reward": 0.6640625,
+      "reward_std": 0.13809029757976532,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 799
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 988.7756958007812,
+      "completions/mean_terminated_length": 654.6242065429688,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 7.475801749271137,
+      "grad_norm": 0.13909395039081573,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 479955687.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.15395060181617737,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 800
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3158.0,
+      "completions/mean_length": 1103.4420166015625,
+      "completions/mean_terminated_length": 627.2651977539062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 7.485131195335277,
+      "grad_norm": 0.16141991317272186,
+      "learning_rate": 1e-06,
+      "loss": -0.0741,
+      "num_tokens": 480523363.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1770554929971695,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 801
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1618303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2823.0,
+      "completions/mean_length": 1211.69873046875,
+      "completions/mean_terminated_length": 654.8095703125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.494460641399417,
+      "grad_norm": 0.15116246044635773,
+      "learning_rate": 1e-06,
+      "loss": -0.1158,
+      "num_tokens": 481100005.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.18952761590480804,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 802
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3256.0,
+      "completions/mean_length": 1101.47998046875,
+      "completions/mean_terminated_length": 633.9484252929688,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.503790087463557,
+      "grad_norm": 0.1282787024974823,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 481685987.0,
+      "reward": 0.6640625,
+      "reward_std": 0.12035568058490753,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 803
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3192.0,
+      "completions/mean_length": 1075.8616943359375,
+      "completions/mean_terminated_length": 608.8298950195312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 7.513119533527696,
+      "grad_norm": 0.1601278930902481,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 482250279.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16762737929821014,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 804
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2814.0,
+      "completions/mean_length": 1049.9453125,
+      "completions/mean_terminated_length": 614.7946166992188,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 7.522448979591837,
+      "grad_norm": 0.1626991629600525,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 482817430.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.17415907979011536,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 805
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 1100.029052734375,
+      "completions/mean_terminated_length": 632.27099609375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.531778425655976,
+      "grad_norm": 0.14310038089752197,
+      "learning_rate": 1e-06,
+      "loss": -0.0512,
+      "num_tokens": 483386728.0,
+      "reward": 0.640625,
+      "reward_std": 0.135238915681839,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 806
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3505.0,
+      "completions/mean_length": 1171.40185546875,
+      "completions/mean_terminated_length": 629.8095092773438,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.541107871720117,
+      "grad_norm": 0.15656399726867676,
+      "learning_rate": 1e-06,
+      "loss": -0.0603,
+      "num_tokens": 483950504.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1259523630142212,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 807
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4045.0,
+      "completions/mean_length": 1061.6685791015625,
+      "completions/mean_terminated_length": 710.2453002929688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 7.550437317784256,
+      "grad_norm": 0.1365361213684082,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 484600223.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.14417481422424316,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 808
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3320.0,
+      "completions/mean_length": 1017.114990234375,
+      "completions/mean_terminated_length": 660.53173828125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.559766763848397,
+      "grad_norm": 0.15237265825271606,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 485218454.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.18550536036491394,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 809
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2910.0,
+      "completions/mean_length": 1116.6373291015625,
+      "completions/mean_terminated_length": 578.8603515625,
+      "completions/min_length": 199.0,
+      "completions/min_terminated_length": 199.0,
+      "epoch": 7.569096209912536,
+      "grad_norm": 0.1521894782781601,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 485759849.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.13737350702285767,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 810
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3790.0,
+      "completions/mean_length": 1101.5123291015625,
+      "completions/mean_terminated_length": 678.087890625,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 7.578425655976677,
+      "grad_norm": 0.1567058563232422,
+      "learning_rate": 1e-06,
+      "loss": -0.0888,
+      "num_tokens": 486377700.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1518009603023529,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 811
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3786.0,
+      "completions/mean_length": 1089.810302734375,
+      "completions/mean_terminated_length": 647.157470703125,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 7.587755102040816,
+      "grad_norm": 0.13738732039928436,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 486976106.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1594706028699875,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 812
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 1118.40625,
+      "completions/mean_terminated_length": 640.139892578125,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 7.597084548104956,
+      "grad_norm": 0.13973119854927063,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 487557750.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13655118644237518,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 813
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4021.0,
+      "completions/mean_length": 840.1529541015625,
+      "completions/mean_terminated_length": 555.6614379882812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.606413994169096,
+      "grad_norm": 0.16010016202926636,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 488104791.0,
+      "reward": 0.7566964626312256,
+      "reward_std": 0.16171550750732422,
+      "rewards/verify_math_reward/mean": 0.7566964030265808,
+      "rewards/verify_math_reward/std": 0.4293164908885956,
+      "step": 814
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3129.0,
+      "completions/mean_length": 1131.6920166015625,
+      "completions/mean_terminated_length": 610.409423828125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.615743440233236,
+      "grad_norm": 0.1457391381263733,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 488655459.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.13629086315631866,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 815
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 1082.7801513671875,
+      "completions/mean_terminated_length": 630.2169799804688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 7.625072886297376,
+      "grad_norm": 0.16214509308338165,
+      "learning_rate": 1e-06,
+      "loss": -0.0956,
+      "num_tokens": 489232550.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.1884777694940567,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 816
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2217.0,
+      "completions/mean_length": 1073.6004638671875,
+      "completions/mean_terminated_length": 606.2190551757812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.634402332361516,
+      "grad_norm": 0.11986333876848221,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 489788608.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.12256810069084167,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 817
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2619.0,
+      "completions/mean_length": 1052.2132568359375,
+      "completions/mean_terminated_length": 612.9437866210938,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 7.643731778425656,
+      "grad_norm": 0.18690215051174164,
+      "learning_rate": 1e-06,
+      "loss": -0.0586,
+      "num_tokens": 490359959.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.16296251118183136,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 818
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3396.0,
+      "completions/mean_length": 1057.0570068359375,
+      "completions/mean_terminated_length": 653.6574096679688,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 7.653061224489796,
+      "grad_norm": 0.14397084712982178,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 490974570.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17325754463672638,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 819
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 882.8359985351562,
+      "completions/mean_terminated_length": 580.7435913085938,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 7.662390670553936,
+      "grad_norm": 0.13318616151809692,
+      "learning_rate": 1e-06,
+      "loss": -0.0379,
+      "num_tokens": 491532767.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.13016104698181152,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 820
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1025.2645263671875,
+      "completions/mean_terminated_length": 665.3529052734375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 7.671720116618076,
+      "grad_norm": 0.16061414778232574,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 492145468.0,
+      "reward": 0.6328125,
+      "reward_std": 0.17408238351345062,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 821
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3687.0,
+      "completions/mean_length": 1062.6328125,
+      "completions/mean_terminated_length": 659.9734497070312,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 7.681049562682215,
+      "grad_norm": 0.15363216400146484,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 492763803.0,
+      "reward": 0.59375,
+      "reward_std": 0.17867128551006317,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 822
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3889.0,
+      "completions/mean_length": 1009.19873046875,
+      "completions/mean_terminated_length": 563.7215576171875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 7.690379008746356,
+      "grad_norm": 0.14927946031093597,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 493291309.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13718876242637634,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 823
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3626.0,
+      "completions/mean_length": 1106.888427734375,
+      "completions/mean_terminated_length": 585.8505859375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 7.699708454810495,
+      "grad_norm": 0.1388225555419922,
+      "learning_rate": 1e-06,
+      "loss": -0.0705,
+      "num_tokens": 493825257.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.12993532419204712,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 824
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3871.0,
+      "completions/mean_length": 1013.1551513671875,
+      "completions/mean_terminated_length": 625.863037109375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.709037900874636,
+      "grad_norm": 0.13892771303653717,
+      "learning_rate": 1e-06,
+      "loss": -0.0733,
+      "num_tokens": 494418492.0,
+      "reward": 0.640625,
+      "reward_std": 0.1447407603263855,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 825
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3915.0,
+      "completions/mean_length": 1076.2109375,
+      "completions/mean_terminated_length": 622.6611328125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 7.718367346938775,
+      "grad_norm": 0.1543859988451004,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 494997657.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.137190580368042,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 826
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3279.0,
+      "completions/mean_length": 1004.036865234375,
+      "completions/mean_terminated_length": 598.021484375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.727696793002916,
+      "grad_norm": 0.1700589656829834,
+      "learning_rate": 1e-06,
+      "loss": -0.0427,
+      "num_tokens": 495566890.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.17941875755786896,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 827
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3340.0,
+      "completions/mean_length": 1039.23779296875,
+      "completions/mean_terminated_length": 655.2223510742188,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.737026239067055,
+      "grad_norm": 0.12745653092861176,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 496181191.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.13034649193286896,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 828
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3624.0,
+      "completions/mean_length": 1017.3482666015625,
+      "completions/mean_terminated_length": 568.5421752929688,
+      "completions/min_length": 81.0,
+      "completions/min_terminated_length": 81.0,
+      "epoch": 7.746355685131196,
+      "grad_norm": 0.16452503204345703,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 496715935.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.14650669693946838,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 829
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2865.0,
+      "completions/mean_length": 1011.9386596679688,
+      "completions/mean_terminated_length": 602.5499877929688,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 7.755685131195335,
+      "grad_norm": 0.1416017860174179,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 497285368.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14083515107631683,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 830
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3841.0,
+      "completions/mean_length": 1045.4453125,
+      "completions/mean_terminated_length": 627.3489990234375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.765014577259475,
+      "grad_norm": 0.1301318258047104,
+      "learning_rate": 1e-06,
+      "loss": -0.0757,
+      "num_tokens": 497866455.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.14706940948963165,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 831
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4053.0,
+      "completions/mean_length": 1156.813720703125,
+      "completions/mean_terminated_length": 680.2918090820312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 7.774344023323615,
+      "grad_norm": 0.15623739361763,
+      "learning_rate": 1e-06,
+      "loss": -0.0463,
+      "num_tokens": 498472504.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.14553281664848328,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 832
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3800.0,
+      "completions/mean_length": 868.8761596679688,
+      "completions/mean_terminated_length": 603.8466186523438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 7.783673469387755,
+      "grad_norm": 0.15868671238422394,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 499060681.0,
+      "reward": 0.6484375,
+      "reward_std": 0.155263289809227,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 833
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3271.0,
+      "completions/mean_length": 891.9051513671875,
+      "completions/mean_terminated_length": 560.447021484375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 7.793002915451895,
+      "grad_norm": 0.1387527734041214,
+      "learning_rate": 1e-06,
+      "loss": -0.0251,
+      "num_tokens": 499612860.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.130574032664299,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 834
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2885.0,
+      "completions/mean_length": 1093.3951416015625,
+      "completions/mean_terminated_length": 620.1162719726562,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.802332361516035,
+      "grad_norm": 0.1586790531873703,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 500185470.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.14894986152648926,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 835
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3037.0,
+      "completions/mean_length": 906.935302734375,
+      "completions/mean_terminated_length": 581.3604125976562,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 7.811661807580175,
+      "grad_norm": 0.15984417498111725,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 500758788.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.14984887838363647,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 836
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3331.0,
+      "completions/mean_length": 1044.630615234375,
+      "completions/mean_terminated_length": 635.2063598632812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.820991253644315,
+      "grad_norm": 0.12488831579685211,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 501346505.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.11840107291936874,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 837
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2381.0,
+      "completions/mean_length": 1007.013427734375,
+      "completions/mean_terminated_length": 588.1013793945312,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.830320699708455,
+      "grad_norm": 0.17905659973621368,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 501897661.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1406497061252594,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 838
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2812.0,
+      "completions/mean_length": 898.8906860351562,
+      "completions/mean_terminated_length": 576.8230590820312,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 7.839650145772595,
+      "grad_norm": 0.16044704616069794,
+      "learning_rate": 1e-06,
+      "loss": -0.063,
+      "num_tokens": 502462475.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.17261813580989838,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.4693825840950012,
+      "step": 839
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2658.0,
+      "completions/mean_length": 1028.896240234375,
+      "completions/mean_terminated_length": 599.6577758789062,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.848979591836734,
+      "grad_norm": 0.15445226430892944,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 503018686.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1610877960920334,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 840
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 860.9207763671875,
+      "completions/mean_terminated_length": 552.4413452148438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 7.858309037900875,
+      "grad_norm": 0.14018657803535461,
+      "learning_rate": 1e-06,
+      "loss": -0.0622,
+      "num_tokens": 503567983.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.14071708917617798,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 841
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3226.0,
+      "completions/mean_length": 1017.0692138671875,
+      "completions/mean_terminated_length": 625.909423828125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 7.867638483965014,
+      "grad_norm": 0.1535613238811493,
+      "learning_rate": 1e-06,
+      "loss": -0.0634,
+      "num_tokens": 504150149.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.18208833038806915,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 842
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3406.0,
+      "completions/mean_length": 904.5803833007812,
+      "completions/mean_terminated_length": 561.37451171875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 7.876967930029155,
+      "grad_norm": 0.15810492634773254,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 504693469.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16104431450366974,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 843
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3386.0,
+      "completions/mean_length": 894.1406860351562,
+      "completions/mean_terminated_length": 532.1912841796875,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.886297376093294,
+      "grad_norm": 0.16374319791793823,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 505205035.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.1348598301410675,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 844
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3366.0,
+      "completions/mean_length": 873.029052734375,
+      "completions/mean_terminated_length": 612.5476684570312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.895626822157435,
+      "grad_norm": 0.15619264543056488,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 505810189.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.17810674011707306,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 845
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3342.0,
+      "completions/mean_length": 931.4397583007812,
+      "completions/mean_terminated_length": 604.0714111328125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 7.904956268221574,
+      "grad_norm": 0.134511798620224,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 506397359.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13601987063884735,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 846
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3867.0,
+      "completions/mean_length": 972.419677734375,
+      "completions/mean_terminated_length": 610.6600341796875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.914285714285715,
+      "grad_norm": 0.1518789678812027,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 506988551.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.16086068749427795,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 847
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2585.0,
+      "completions/mean_length": 1005.5926513671875,
+      "completions/mean_terminated_length": 573.0928955078125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.923615160349854,
+      "grad_norm": 0.16868479549884796,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 507530530.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.15349414944648743,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 848
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 977.0402221679688,
+      "completions/mean_terminated_length": 598.3930053710938,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 7.932944606413994,
+      "grad_norm": 0.14959383010864258,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 508099878.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.14455640316009521,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 849
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1662946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 1207.18310546875,
+      "completions/mean_terminated_length": 630.966552734375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 7.942274052478134,
+      "grad_norm": 0.17509475350379944,
+      "learning_rate": 1e-06,
+      "loss": -0.0818,
+      "num_tokens": 508665986.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.19227345287799835,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 850
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3551.0,
+      "completions/mean_length": 965.7210083007812,
+      "completions/mean_terminated_length": 594.4644165039062,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 7.9516034985422746,
+      "grad_norm": 0.14221110939979553,
+      "learning_rate": 1e-06,
+      "loss": -0.0728,
+      "num_tokens": 509228304.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.15416745841503143,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 851
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3503.0,
+      "completions/mean_length": 1157.989990234375,
+      "completions/mean_terminated_length": 645.8598022460938,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 7.960932944606414,
+      "grad_norm": 0.17198315262794495,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 509809911.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.174875870347023,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 852
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2859.0,
+      "completions/mean_length": 910.46435546875,
+      "completions/mean_terminated_length": 602.4381713867188,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 7.970262390670554,
+      "grad_norm": 0.15752212703227997,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 510382975.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.18223915994167328,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 853
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3717.0,
+      "completions/mean_length": 999.8147583007812,
+      "completions/mean_terminated_length": 579.926513671875,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 7.979591836734694,
+      "grad_norm": 0.12533758580684662,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 510925985.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.12606042623519897,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 854
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3150.0,
+      "completions/mean_length": 1086.65966796875,
+      "completions/mean_terminated_length": 607.8124389648438,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 7.988921282798834,
+      "grad_norm": 0.15512913465499878,
+      "learning_rate": 1e-06,
+      "loss": -0.0732,
+      "num_tokens": 511496936.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.16296502947807312,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 855
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12784090909090906,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2544.0,
+      "completions/mean_length": 1129.3636474609375,
+      "completions/mean_terminated_length": 694.5146484375,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 7.998250728862974,
+      "grad_norm": 0.1386326402425766,
+      "learning_rate": 1e-06,
+      "loss": -0.0732,
+      "num_tokens": 512048994.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1393595188856125,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 856
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2956.0,
+      "completions/mean_length": 1145.4866943359375,
+      "completions/mean_terminated_length": 622.0709228515625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.00932944606414,
+      "grad_norm": 0.15093453228473663,
+      "learning_rate": 1e-06,
+      "loss": -0.0654,
+      "num_tokens": 512616806.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1510535031557083,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 857
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3265.0,
+      "completions/mean_length": 1038.0859375,
+      "completions/mean_terminated_length": 592.3030395507812,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 8.018658892128279,
+      "grad_norm": 0.1357707977294922,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 513175843.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14995834231376648,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3095.0,
+      "completions/mean_length": 1149.2879638671875,
+      "completions/mean_terminated_length": 617.4044799804688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.02798833819242,
+      "grad_norm": 0.14728151261806488,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 513729045.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.1385032832622528,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 859
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3655.0,
+      "completions/mean_length": 1050.0201416015625,
+      "completions/mean_terminated_length": 654.388427734375,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 8.03731778425656,
+      "grad_norm": 0.14978253841400146,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 514328543.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.16330133378505707,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 860
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3406.0,
+      "completions/mean_length": 977.4107666015625,
+      "completions/mean_terminated_length": 603.1799926757812,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 8.0466472303207,
+      "grad_norm": 0.15136602520942688,
+      "learning_rate": 1e-06,
+      "loss": -0.062,
+      "num_tokens": 514896135.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.14951257407665253,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4056.0,
+      "completions/mean_length": 1060.4888916015625,
+      "completions/mean_terminated_length": 609.0538940429688,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 8.055976676384839,
+      "grad_norm": 0.15994176268577576,
+      "learning_rate": 1e-06,
+      "loss": -0.0818,
+      "num_tokens": 515452629.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1632232367992401,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 862
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3785.0,
+      "completions/mean_length": 1120.1529541015625,
+      "completions/mean_terminated_length": 610.5634155273438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.06530612244898,
+      "grad_norm": 0.16492946445941925,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 516024046.0,
+      "reward": 0.6328125,
+      "reward_std": 0.15375559031963348,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 863
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3592.0,
+      "completions/mean_length": 970.93310546875,
+      "completions/mean_terminated_length": 626.2850341796875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 8.07463556851312,
+      "grad_norm": 0.12416037172079086,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 516615346.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12358727306127548,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 864
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2338.0,
+      "completions/mean_length": 1082.2254638671875,
+      "completions/mean_terminated_length": 575.3455200195312,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 8.08396501457726,
+      "grad_norm": 0.16226497292518616,
+      "learning_rate": 1e-06,
+      "loss": -0.0778,
+      "num_tokens": 517154060.0,
+      "reward": 0.640625,
+      "reward_std": 0.14011767506599426,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2840.0,
+      "completions/mean_length": 902.01123046875,
+      "completions/mean_terminated_length": 584.57177734375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 8.093294460641399,
+      "grad_norm": 0.1480923444032669,
+      "learning_rate": 1e-06,
+      "loss": -0.0391,
+      "num_tokens": 517716126.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16394072771072388,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 866
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3843.0,
+      "completions/mean_length": 1153.10498046875,
+      "completions/mean_terminated_length": 662.6224365234375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 8.102623906705539,
+      "grad_norm": 0.144929900765419,
+      "learning_rate": 1e-06,
+      "loss": -0.0731,
+      "num_tokens": 518305724.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.18463844060897827,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865824937820435,
+      "step": 867
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3757.0,
+      "completions/mean_length": 1043.1328125,
+      "completions/mean_terminated_length": 633.5076293945312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.11195335276968,
+      "grad_norm": 0.1655925214290619,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 518903995.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.17119666934013367,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 868
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3576.0,
+      "completions/mean_length": 1001.661865234375,
+      "completions/mean_terminated_length": 608.5446166992188,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 8.12128279883382,
+      "grad_norm": 0.16748148202896118,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 519469948.0,
+      "reward": 0.6640625,
+      "reward_std": 0.16461403667926788,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 869
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 1038.7310791015625,
+      "completions/mean_terminated_length": 632.8988647460938,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 8.130612244897959,
+      "grad_norm": 0.126932755112648,
+      "learning_rate": 1e-06,
+      "loss": -0.0776,
+      "num_tokens": 520055955.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.12730783224105835,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 870
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3318.0,
+      "completions/mean_length": 1051.7734375,
+      "completions/mean_terminated_length": 607.9859008789062,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 8.139941690962099,
+      "grad_norm": 0.13293921947479248,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 520626712.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.10780475288629532,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 871
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2910.0,
+      "completions/mean_length": 1010.3281860351562,
+      "completions/mean_terminated_length": 591.8656616210938,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.14927113702624,
+      "grad_norm": 0.1483665108680725,
+      "learning_rate": 1e-06,
+      "loss": -0.0801,
+      "num_tokens": 521190094.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15431830286979675,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 872
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2800.0,
+      "completions/mean_length": 1017.9319458007812,
+      "completions/mean_terminated_length": 596.064697265625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 8.15860058309038,
+      "grad_norm": 0.16868089139461517,
+      "learning_rate": 1e-06,
+      "loss": -0.0918,
+      "num_tokens": 521752505.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.18532174825668335,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 873
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1584821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 1199.4420166015625,
+      "completions/mean_terminated_length": 653.9363403320312,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 8.167930029154519,
+      "grad_norm": 0.16264265775680542,
+      "learning_rate": 1e-06,
+      "loss": -0.1025,
+      "num_tokens": 522338133.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.1818275898694992,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 874
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3431.0,
+      "completions/mean_length": 1028.091552734375,
+      "completions/mean_terminated_length": 580.8516845703125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.177259475218658,
+      "grad_norm": 0.17777729034423828,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 522872855.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.161088228225708,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 875
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3197.0,
+      "completions/mean_length": 919.97998046875,
+      "completions/mean_terminated_length": 543.29833984375,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 8.186588921282798,
+      "grad_norm": 0.13674885034561157,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 523400565.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.10554774850606918,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 876
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 1002.333740234375,
+      "completions/mean_terminated_length": 600.5081787109375,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.19591836734694,
+      "grad_norm": 0.15885168313980103,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 523976488.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.15849490463733673,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 877
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3481.0,
+      "completions/mean_length": 1154.37060546875,
+      "completions/mean_terminated_length": 595.7344360351562,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 8.205247813411079,
+      "grad_norm": 0.14257389307022095,
+      "learning_rate": 1e-06,
+      "loss": -0.0828,
+      "num_tokens": 524518396.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.13327428698539734,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 878
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3330.0,
+      "completions/mean_length": 1001.3984985351562,
+      "completions/mean_terminated_length": 612.62939453125,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 8.214577259475218,
+      "grad_norm": 0.1312379390001297,
+      "learning_rate": 1e-06,
+      "loss": -0.0166,
+      "num_tokens": 525098425.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.11152489483356476,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 879
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4025.0,
+      "completions/mean_length": 1136.8426513671875,
+      "completions/mean_terminated_length": 652.6168823242188,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 8.223906705539358,
+      "grad_norm": 0.16868945956230164,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 525690092.0,
+      "reward": 0.59375,
+      "reward_std": 0.17479778826236725,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 880
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2779.0,
+      "completions/mean_length": 1014.15185546875,
+      "completions/mean_terminated_length": 613.8612670898438,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 8.2332361516035,
+      "grad_norm": 0.14295226335525513,
+      "learning_rate": 1e-06,
+      "loss": -0.0539,
+      "num_tokens": 526272308.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14913460612297058,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 881
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1551339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2826.0,
+      "completions/mean_length": 1160.45654296875,
+      "completions/mean_terminated_length": 621.4332885742188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.242565597667639,
+      "grad_norm": 0.16172069311141968,
+      "learning_rate": 1e-06,
+      "loss": -0.0829,
+      "num_tokens": 526846245.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.1732582449913025,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865824937820435,
+      "step": 882
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3266.0,
+      "completions/mean_length": 1042.44091796875,
+      "completions/mean_terminated_length": 592.8130493164062,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 8.251895043731778,
+      "grad_norm": 0.14926446974277496,
+      "learning_rate": 1e-06,
+      "loss": -0.0562,
+      "num_tokens": 527398944.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.12358727306127548,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 883
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3236.0,
+      "completions/mean_length": 1076.0413818359375,
+      "completions/mean_terminated_length": 609.037353515625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 8.261224489795918,
+      "grad_norm": 0.14860747754573822,
+      "learning_rate": 1e-06,
+      "loss": -0.0434,
+      "num_tokens": 527954357.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.13978207111358643,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 1049.3248291015625,
+      "completions/mean_terminated_length": 614.08544921875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.270553935860057,
+      "grad_norm": 0.1655399203300476,
+      "learning_rate": 1e-06,
+      "loss": -0.0925,
+      "num_tokens": 528533240.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.16671697795391083,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 885
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2722.0,
+      "completions/mean_length": 1051.6998291015625,
+      "completions/mean_terminated_length": 603.4353637695312,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 8.279883381924199,
+      "grad_norm": 0.17304687201976776,
+      "learning_rate": 1e-06,
+      "loss": -0.0455,
+      "num_tokens": 529095307.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1406843066215515,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 886
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2505.0,
+      "completions/mean_length": 964.4609985351562,
+      "completions/mean_terminated_length": 614.7853393554688,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 8.289212827988338,
+      "grad_norm": 0.14617525041103363,
+      "learning_rate": 1e-06,
+      "loss": -0.072,
+      "num_tokens": 529675360.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.15852628648281097,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 887
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3792.0,
+      "completions/mean_length": 994.591552734375,
+      "completions/mean_terminated_length": 626.759033203125,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 8.298542274052478,
+      "grad_norm": 0.1307070255279541,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 530267394.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.13659213483333588,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 888
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 1053.7679443359375,
+      "completions/mean_terminated_length": 601.3333740234375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 8.307871720116617,
+      "grad_norm": 0.15937061607837677,
+      "learning_rate": 1e-06,
+      "loss": -0.0932,
+      "num_tokens": 530822922.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.16262732446193695,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 889
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3863.0,
+      "completions/mean_length": 1050.3348388671875,
+      "completions/mean_terminated_length": 606.3375854492188,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.317201166180759,
+      "grad_norm": 0.15355893969535828,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 531390670.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.13929282128810883,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 890
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3655.0,
+      "completions/mean_length": 1113.3270263671875,
+      "completions/mean_terminated_length": 647.6452026367188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 8.326530612244898,
+      "grad_norm": 0.15006402134895325,
+      "learning_rate": 1e-06,
+      "loss": -0.057,
+      "num_tokens": 531988539.0,
+      "reward": 0.640625,
+      "reward_std": 0.15120504796504974,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 891
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3029.0,
+      "completions/mean_length": 1022.8739013671875,
+      "completions/mean_terminated_length": 561.313232421875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 8.335860058309038,
+      "grad_norm": 0.1519111841917038,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 532513786.0,
+      "reward": 0.625,
+      "reward_std": 0.13624808192253113,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 892
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2708.0,
+      "completions/mean_length": 1004.310302734375,
+      "completions/mean_terminated_length": 620.2734985351562,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 8.345189504373177,
+      "grad_norm": 0.15414708852767944,
+      "learning_rate": 1e-06,
+      "loss": -0.0728,
+      "num_tokens": 533089280.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.17187067866325378,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 893
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3471.0,
+      "completions/mean_length": 1069.9810791015625,
+      "completions/mean_terminated_length": 579.38134765625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 8.354518950437317,
+      "grad_norm": 0.15470200777053833,
+      "learning_rate": 1e-06,
+      "loss": -0.0646,
+      "num_tokens": 533629479.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.12463894486427307,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 894
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1618303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2539.0,
+      "completions/mean_length": 1188.857177734375,
+      "completions/mean_terminated_length": 627.5579223632812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.363848396501458,
+      "grad_norm": 0.17332008481025696,
+      "learning_rate": 1e-06,
+      "loss": -0.0934,
+      "num_tokens": 534184247.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1813383400440216,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 895
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 1083.4989013671875,
+      "completions/mean_terminated_length": 661.9020385742188,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 8.373177842565598,
+      "grad_norm": 0.14186617732048035,
+      "learning_rate": 1e-06,
+      "loss": -0.081,
+      "num_tokens": 534787886.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14278654754161835,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 896
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3524.0,
+      "completions/mean_length": 936.771240234375,
+      "completions/mean_terminated_length": 544.3450317382812,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 8.382507288629737,
+      "grad_norm": 0.16455881297588348,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 535322449.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1612725555896759,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 897
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3181.0,
+      "completions/mean_length": 1029.3348388671875,
+      "completions/mean_terminated_length": 600.1577758789062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.391836734693877,
+      "grad_norm": 0.15738701820373535,
+      "learning_rate": 1e-06,
+      "loss": -0.0831,
+      "num_tokens": 535871189.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.15770143270492554,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 898
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 971.5000610351562,
+      "completions/mean_terminated_length": 543.26904296875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 8.401166180758018,
+      "grad_norm": 0.15441343188285828,
+      "learning_rate": 1e-06,
+      "loss": -0.052,
+      "num_tokens": 536391389.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.12219971418380737,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 899
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2442.0,
+      "completions/mean_length": 933.7131958007812,
+      "completions/mean_terminated_length": 571.8594360351562,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.410495626822158,
+      "grad_norm": 0.15590281784534454,
+      "learning_rate": 1e-06,
+      "loss": -0.0799,
+      "num_tokens": 536931564.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.1756240278482437,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 900
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3387.0,
+      "completions/mean_length": 1023.6685791015625,
+      "completions/mean_terminated_length": 637.6972045898438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.419825072886297,
+      "grad_norm": 0.15883347392082214,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 537522291.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.15751782059669495,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 901
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3234.0,
+      "completions/mean_length": 913.35498046875,
+      "completions/mean_terminated_length": 579.7854614257812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.429154518950437,
+      "grad_norm": 0.10371751338243484,
+      "learning_rate": 1e-06,
+      "loss": -0.0248,
+      "num_tokens": 538073625.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.07792925834655762,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 902
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2465.0,
+      "completions/mean_length": 942.7388916015625,
+      "completions/mean_terminated_length": 581.9179077148438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 8.438483965014576,
+      "grad_norm": 0.1574653536081314,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 538628919.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14117145538330078,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 903
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3728.0,
+      "completions/mean_length": 974.6808471679688,
+      "completions/mean_terminated_length": 639.0136108398438,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.447813411078718,
+      "grad_norm": 0.14363057911396027,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 539242681.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1500004082918167,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 904
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3631.0,
+      "completions/mean_length": 1052.607177734375,
+      "completions/mean_terminated_length": 581.9793701171875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.457142857142857,
+      "grad_norm": 0.1549978256225586,
+      "learning_rate": 1e-06,
+      "loss": -0.0794,
+      "num_tokens": 539790161.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.17194415628910065,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 905
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3962.0,
+      "completions/mean_length": 954.2355346679688,
+      "completions/mean_terminated_length": 590.369873046875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 8.466472303206997,
+      "grad_norm": 0.14460058510303497,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 540350148.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.14444582164287567,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 906
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3915.0,
+      "completions/mean_length": 1096.669677734375,
+      "completions/mean_terminated_length": 632.8556518554688,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.475801749271136,
+      "grad_norm": 0.1491176187992096,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 540926692.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1572154015302658,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 907
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1662946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3849.0,
+      "completions/mean_length": 1207.3695068359375,
+      "completions/mean_terminated_length": 631.1900634765625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 8.485131195335278,
+      "grad_norm": 0.16436566412448883,
+      "learning_rate": 1e-06,
+      "loss": -0.0692,
+      "num_tokens": 541481423.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.14015229046344757,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 908
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2280.0,
+      "completions/mean_length": 948.1172485351562,
+      "completions/mean_terminated_length": 600.9529418945312,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 8.494460641399417,
+      "grad_norm": 0.15124177932739258,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 542052448.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14730015397071838,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 909
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3658.0,
+      "completions/mean_length": 1066.1160888671875,
+      "completions/mean_terminated_length": 642.0864868164062,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 8.503790087463557,
+      "grad_norm": 0.1336049735546112,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 542657192.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.13380561769008636,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 910
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3747.0,
+      "completions/mean_length": 774.1574096679688,
+      "completions/mean_terminated_length": 548.4779663085938,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 8.513119533527696,
+      "grad_norm": 0.1571814864873886,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 543206221.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13305744528770447,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 911
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4056.0,
+      "completions/mean_length": 1178.599365234375,
+      "completions/mean_terminated_length": 665.5656127929688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 8.522448979591836,
+      "grad_norm": 0.1574980467557907,
+      "learning_rate": 1e-06,
+      "loss": -0.0697,
+      "num_tokens": 543807582.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.14650921523571014,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.4982811510562897,
+      "step": 912
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 1108.7232666015625,
+      "completions/mean_terminated_length": 646.773193359375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.531778425655977,
+      "grad_norm": 0.15376946330070496,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 544394766.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16070912778377533,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 913
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2992.0,
+      "completions/mean_length": 1027.4476318359375,
+      "completions/mean_terminated_length": 552.9290771484375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 8.541107871720117,
+      "grad_norm": 0.17366181313991547,
+      "learning_rate": 1e-06,
+      "loss": -0.0805,
+      "num_tokens": 544918103.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.14808222651481628,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2780.0,
+      "completions/mean_length": 882.185302734375,
+      "completions/mean_terminated_length": 597.1203002929688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 8.550437317784256,
+      "grad_norm": 0.1341852843761444,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 545498109.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12422595918178558,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3485.0,
+      "completions/mean_length": 1174.6395263671875,
+      "completions/mean_terminated_length": 727.2239379882812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.559766763848396,
+      "grad_norm": 0.1317211389541626,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 546162178.0,
+      "reward": 0.578125,
+      "reward_std": 0.1328285187482834,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 916
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3681.0,
+      "completions/mean_length": 1050.578125,
+      "completions/mean_terminated_length": 633.1852416992188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.569096209912537,
+      "grad_norm": 0.144380122423172,
+      "learning_rate": 1e-06,
+      "loss": -0.032,
+      "num_tokens": 546749536.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.13493286073207855,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 917
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2272.0,
+      "completions/mean_length": 1031.766845703125,
+      "completions/mean_terminated_length": 598.4802856445312,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 8.578425655976677,
+      "grad_norm": 0.14323492348194122,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 547313319.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1482747346162796,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 918
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3186.0,
+      "completions/mean_length": 831.3850708007812,
+      "completions/mean_terminated_length": 576.0300903320312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 8.587755102040816,
+      "grad_norm": 0.14809049665927887,
+      "learning_rate": 1e-06,
+      "loss": -0.0708,
+      "num_tokens": 547887520.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.16491642594337463,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 919
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4047.0,
+      "completions/mean_length": 1038.96875,
+      "completions/mean_terminated_length": 659.2371215820312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 8.597084548104956,
+      "grad_norm": 0.15314710140228271,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 548495660.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15875521302223206,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 920
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3705.0,
+      "completions/mean_length": 964.9464721679688,
+      "completions/mean_terminated_length": 580.4310913085938,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 8.606413994169095,
+      "grad_norm": 0.15882423520088196,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 549041524.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.13763564825057983,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 921
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3518.0,
+      "completions/mean_length": 926.443115234375,
+      "completions/mean_terminated_length": 653.6690673828125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.615743440233237,
+      "grad_norm": 0.14339464902877808,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 549664913.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15074971318244934,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 922
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 1056.84375,
+      "completions/mean_terminated_length": 609.3367309570312,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 8.625072886297376,
+      "grad_norm": 0.14878612756729126,
+      "learning_rate": 1e-06,
+      "loss": -0.0796,
+      "num_tokens": 550236989.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.14042216539382935,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3077.0,
+      "completions/mean_length": 918.9710083007812,
+      "completions/mean_terminated_length": 564.2158813476562,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 8.634402332361516,
+      "grad_norm": 0.17830529808998108,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 550784067.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1710130274295807,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 1028.72998046875,
+      "completions/mean_terminated_length": 621.5701904296875,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 8.643731778425655,
+      "grad_norm": 0.15259338915348053,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 551367705.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.14774592220783234,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 925
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3203.0,
+      "completions/mean_length": 1023.1250610351562,
+      "completions/mean_terminated_length": 610.815185546875,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 8.653061224489797,
+      "grad_norm": 0.1758723109960556,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 551938129.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.192087322473526,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 926
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2504.0,
+      "completions/mean_length": 967.193115234375,
+      "completions/mean_terminated_length": 556.3396606445312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 8.662390670553936,
+      "grad_norm": 0.13319288194179535,
+      "learning_rate": 1e-06,
+      "loss": -0.0461,
+      "num_tokens": 552469966.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.10795699059963226,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 927
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 1093.1484375,
+      "completions/mean_terminated_length": 637.7030639648438,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.671720116618076,
+      "grad_norm": 0.13909879326820374,
+      "learning_rate": 1e-06,
+      "loss": -0.0639,
+      "num_tokens": 553055203.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14838463068008423,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 928
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2764.0,
+      "completions/mean_length": 1066.759033203125,
+      "completions/mean_terminated_length": 607.31103515625,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.681049562682215,
+      "grad_norm": 0.1701621115207672,
+      "learning_rate": 1e-06,
+      "loss": -0.0785,
+      "num_tokens": 553616387.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15138980746269226,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 929
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3890.0,
+      "completions/mean_length": 1081.673095703125,
+      "completions/mean_terminated_length": 588.4194946289062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 8.690379008746355,
+      "grad_norm": 0.16358621418476105,
+      "learning_rate": 1e-06,
+      "loss": -0.0669,
+      "num_tokens": 554155782.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15424412488937378,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 930
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3764.0,
+      "completions/mean_length": 1188.7545166015625,
+      "completions/mean_terminated_length": 668.5105590820312,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 8.699708454810496,
+      "grad_norm": 0.16409288346767426,
+      "learning_rate": 1e-06,
+      "loss": -0.0642,
+      "num_tokens": 554757290.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.17434313893318176,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 931
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 973.2489013671875,
+      "completions/mean_terminated_length": 641.6975708007812,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 8.709037900874636,
+      "grad_norm": 0.1480489820241928,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 555370673.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.13958704471588135,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 932
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2983.0,
+      "completions/mean_length": 1122.9520263671875,
+      "completions/mean_terminated_length": 627.4440307617188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 8.718367346938775,
+      "grad_norm": 0.17100459337234497,
+      "learning_rate": 1e-06,
+      "loss": -0.0514,
+      "num_tokens": 555941238.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.13440336287021637,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 933
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3000.0,
+      "completions/mean_length": 1114.6239013671875,
+      "completions/mean_terminated_length": 658.0167236328125,
+      "completions/min_length": 199.0,
+      "completions/min_terminated_length": 199.0,
+      "epoch": 8.727696793002915,
+      "grad_norm": 0.14564810693264008,
+      "learning_rate": 1e-06,
+      "loss": -0.0715,
+      "num_tokens": 556538685.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.14954577386379242,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3009.0,
+      "completions/mean_length": 1065.2645263671875,
+      "completions/mean_terminated_length": 578.46240234375,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 8.737026239067056,
+      "grad_norm": 0.14742593467235565,
+      "learning_rate": 1e-06,
+      "loss": -0.0631,
+      "num_tokens": 557064722.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.12106993794441223,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 935
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 992.5870971679688,
+      "completions/mean_terminated_length": 598.3169555664062,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 8.746355685131196,
+      "grad_norm": 0.1486990749835968,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 557628496.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1407923698425293,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 936
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 1003.29248046875,
+      "completions/mean_terminated_length": 597.1793212890625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 8.755685131195335,
+      "grad_norm": 0.14442980289459229,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 558194678.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.14207187294960022,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 937
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3625.0,
+      "completions/mean_length": 1034.5546875,
+      "completions/mean_terminated_length": 649.9509887695312,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 8.765014577259475,
+      "grad_norm": 0.2729840874671936,
+      "learning_rate": 1e-06,
+      "loss": -0.073,
+      "num_tokens": 558798711.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1557832509279251,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 938
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 788.6864013671875,
+      "completions/mean_terminated_length": 538.5534057617188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 8.774344023323614,
+      "grad_norm": 0.15766826272010803,
+      "learning_rate": 1e-06,
+      "loss": -0.0529,
+      "num_tokens": 559331302.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.1349007785320282,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 939
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3821.0,
+      "completions/mean_length": 1134.8895263671875,
+      "completions/mean_terminated_length": 623.2840576171875,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 8.783673469387756,
+      "grad_norm": 0.17000079154968262,
+      "learning_rate": 1e-06,
+      "loss": -0.0793,
+      "num_tokens": 559901171.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.14304685592651367,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 940
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2511.0,
+      "completions/mean_length": 901.47998046875,
+      "completions/mean_terminated_length": 592.5850830078125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 8.793002915451895,
+      "grad_norm": 0.12940526008605957,
+      "learning_rate": 1e-06,
+      "loss": -0.0569,
+      "num_tokens": 560464377.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.12388965487480164,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960144996643,
+      "step": 941
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3554.0,
+      "completions/mean_length": 1056.4554443359375,
+      "completions/mean_terminated_length": 604.4205322265625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 8.802332361516035,
+      "grad_norm": 0.15664970874786377,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 561020921.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.12787306308746338,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 942
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3071.0,
+      "completions/mean_length": 944.68310546875,
+      "completions/mean_terminated_length": 592.7990112304688,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.811661807580174,
+      "grad_norm": 0.15528330206871033,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 561588853.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.14420802891254425,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 943
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3023.0,
+      "completions/mean_length": 1003.5670166015625,
+      "completions/mean_terminated_length": 649.7064819335938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.820991253644316,
+      "grad_norm": 0.13627398014068604,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 562196809.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.15409894287586212,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 944
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3902.0,
+      "completions/mean_length": 1060.505615234375,
+      "completions/mean_terminated_length": 617.9910278320312,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 8.830320699708455,
+      "grad_norm": 0.17659050226211548,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 562763950.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.17017610371112823,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 945
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4088.0,
+      "completions/mean_length": 975.5535888671875,
+      "completions/mean_terminated_length": 592.3408203125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.839650145772595,
+      "grad_norm": 0.17134946584701538,
+      "learning_rate": 1e-06,
+      "loss": -0.085,
+      "num_tokens": 563320382.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.17934459447860718,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 946
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3398.0,
+      "completions/mean_length": 986.0156860351562,
+      "completions/mean_terminated_length": 617.166015625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.848979591836734,
+      "grad_norm": 0.1389453113079071,
+      "learning_rate": 1e-06,
+      "loss": -0.0232,
+      "num_tokens": 563897252.0,
+      "reward": 0.640625,
+      "reward_std": 0.13616888225078583,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 947
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3182.0,
+      "completions/mean_length": 1040.96435546875,
+      "completions/mean_terminated_length": 678.6317138671875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.858309037900874,
+      "grad_norm": 0.14301376044750214,
+      "learning_rate": 1e-06,
+      "loss": -0.0496,
+      "num_tokens": 564530956.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.16833347082138062,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 948
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 997.01904296875,
+      "completions/mean_terminated_length": 594.503173828125,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 8.867638483965015,
+      "grad_norm": 0.14853087067604065,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 565089165.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.14545543491840363,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 949
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2576.0,
+      "completions/mean_length": 1098.884033203125,
+      "completions/mean_terminated_length": 590.2349853515625,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 8.876967930029155,
+      "grad_norm": 0.15760570764541626,
+      "learning_rate": 1e-06,
+      "loss": -0.0413,
+      "num_tokens": 565631341.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.13298258185386658,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 950
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3224.0,
+      "completions/mean_length": 1056.919677734375,
+      "completions/mean_terminated_length": 613.88232421875,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 8.886297376093294,
+      "grad_norm": 0.13932481408119202,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 566205437.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10874612629413605,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 951
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4067.0,
+      "completions/mean_length": 973.489990234375,
+      "completions/mean_terminated_length": 646.22314453125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 8.895626822157434,
+      "grad_norm": 0.15475697815418243,
+      "learning_rate": 1e-06,
+      "loss": -0.0285,
+      "num_tokens": 566819572.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.14936032891273499,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 952
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3537.0,
+      "completions/mean_length": 1029.4866943359375,
+      "completions/mean_terminated_length": 568.9191284179688,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.904956268221575,
+      "grad_norm": 0.1805417388677597,
+      "learning_rate": 1e-06,
+      "loss": -0.0705,
+      "num_tokens": 567353936.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16266193985939026,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 953
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2703.0,
+      "completions/mean_length": 983.0469360351562,
+      "completions/mean_terminated_length": 587.5647583007812,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 8.914285714285715,
+      "grad_norm": 0.17471978068351746,
+      "learning_rate": 1e-06,
+      "loss": -0.084,
+      "num_tokens": 567912282.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.16540679335594177,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 954
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3157.0,
+      "completions/mean_length": 1032.2601318359375,
+      "completions/mean_terminated_length": 625.5689086914062,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 8.923615160349854,
+      "grad_norm": 0.17706899344921112,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 568490827.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1782590001821518,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 955
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3187.0,
+      "completions/mean_length": 1100.747802734375,
+      "completions/mean_terminated_length": 637.5643920898438,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 8.932944606413994,
+      "grad_norm": 0.14129015803337097,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 569075809.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.12918394804000854,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 956
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1685267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3967.0,
+      "completions/mean_length": 1210.188720703125,
+      "completions/mean_terminated_length": 625.2792358398438,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.942274052478133,
+      "grad_norm": 0.15340207517147064,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 569633322.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.14481531083583832,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 957
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2680.0,
+      "completions/mean_length": 1033.3504638671875,
+      "completions/mean_terminated_length": 657.235595703125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 8.951603498542275,
+      "grad_norm": 0.1456962674856186,
+      "learning_rate": 1e-06,
+      "loss": -0.0621,
+      "num_tokens": 570253044.0,
+      "reward": 0.6328125,
+      "reward_std": 0.17209498584270477,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 958
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 1101.59375,
+      "completions/mean_terminated_length": 597.9713134765625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 8.960932944606414,
+      "grad_norm": 0.18818694353103638,
+      "learning_rate": 1e-06,
+      "loss": -0.0774,
+      "num_tokens": 570802896.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.135540172457695,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 959
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 1114.310302734375,
+      "completions/mean_terminated_length": 644.3281860351562,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 8.970262390670554,
+      "grad_norm": 0.16497798264026642,
+      "learning_rate": 1e-06,
+      "loss": -0.0693,
+      "num_tokens": 571398326.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.16570806503295898,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 960
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2544.0,
+      "completions/mean_length": 932.7745971679688,
+      "completions/mean_terminated_length": 579.560791015625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 8.979591836734693,
+      "grad_norm": 0.14131681621074677,
+      "learning_rate": 1e-06,
+      "loss": -0.0436,
+      "num_tokens": 571954012.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.12351170927286148,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 961
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 1039.92529296875,
+      "completions/mean_terminated_length": 625.4765625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 8.988921282798835,
+      "grad_norm": 0.165950745344162,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 572544785.0,
+      "reward": 0.6484375,
+      "reward_std": 0.176642507314682,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 962
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.13920454545454541,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2209.0,
+      "completions/mean_length": 1126.8948974609375,
+      "completions/mean_terminated_length": 646.7426147460938,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 8.998250728862974,
+      "grad_norm": 0.15967780351638794,
+      "learning_rate": 1e-06,
+      "loss": -0.0775,
+      "num_tokens": 573171529.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.17990799248218536,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 963
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4012.0,
+      "completions/mean_length": 1102.005615234375,
+      "completions/mean_terminated_length": 678.6509399414062,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 9.00932944606414,
+      "grad_norm": 0.16359856724739075,
+      "learning_rate": 1e-06,
+      "loss": -0.0725,
+      "num_tokens": 573796478.0,
+      "reward": 0.640625,
+      "reward_std": 0.19925881922245026,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 964
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 991.5245971679688,
+      "completions/mean_terminated_length": 566.0380859375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.018658892128279,
+      "grad_norm": 0.1571071892976761,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 574328500.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.1351197212934494,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 965
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3454.0,
+      "completions/mean_length": 953.536865234375,
+      "completions/mean_terminated_length": 589.5902709960938,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 9.02798833819242,
+      "grad_norm": 0.15737630426883698,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 574898613.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.14931826293468475,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.4642214775085449,
+      "step": 966
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2875.0,
+      "completions/mean_length": 1113.2366943359375,
+      "completions/mean_terminated_length": 620.6345825195312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.03731778425656,
+      "grad_norm": 0.1779172569513321,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 575466281.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.14511913061141968,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3624.0,
+      "completions/mean_length": 1069.927490234375,
+      "completions/mean_terminated_length": 646.4312744140625,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.0466472303207,
+      "grad_norm": 0.17144325375556946,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 576080224.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.14650921523571014,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 968
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3978.0,
+      "completions/mean_length": 974.1953735351562,
+      "completions/mean_terminated_length": 616.973876953125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 9.055976676384839,
+      "grad_norm": 0.14389780163764954,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 576660911.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.1230994164943695,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 969
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3304.0,
+      "completions/mean_length": 925.0725708007812,
+      "completions/mean_terminated_length": 557.829345703125,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 9.06530612244898,
+      "grad_norm": 0.16744780540466309,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 577193376.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.14000959694385529,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 970
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2841.0,
+      "completions/mean_length": 1115.60498046875,
+      "completions/mean_terminated_length": 605.2366333007812,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 9.07463556851312,
+      "grad_norm": 0.17163673043251038,
+      "learning_rate": 1e-06,
+      "loss": -0.0742,
+      "num_tokens": 577748790.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.17093636095523834,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 971
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3152.0,
+      "completions/mean_length": 952.560302734375,
+      "completions/mean_terminated_length": 597.2149047851562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 9.08396501457726,
+      "grad_norm": 0.14103926718235016,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 578312468.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.14515303075313568,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 972
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2963.0,
+      "completions/mean_length": 976.27685546875,
+      "completions/mean_terminated_length": 627.9205932617188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.093294460641399,
+      "grad_norm": 0.1296180635690689,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 578906596.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13906599581241608,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 973
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3989.0,
+      "completions/mean_length": 1201.048095703125,
+      "completions/mean_terminated_length": 678.5072631835938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.102623906705539,
+      "grad_norm": 0.15290963649749756,
+      "learning_rate": 1e-06,
+      "loss": -0.1021,
+      "num_tokens": 579501695.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.15466415882110596,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 974
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1752232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2475.0,
+      "completions/mean_length": 1211.4263916015625,
+      "completions/mean_terminated_length": 598.6007690429688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 9.11195335276968,
+      "grad_norm": 0.1727268248796463,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 580049573.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.1580837368965149,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 975
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3260.0,
+      "completions/mean_length": 1119.37060546875,
+      "completions/mean_terminated_length": 586.7105712890625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.12128279883382,
+      "grad_norm": 0.16328230500221252,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 580587649.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16409479081630707,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3929.0,
+      "completions/mean_length": 1173.6607666015625,
+      "completions/mean_terminated_length": 668.75390625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.130612244897959,
+      "grad_norm": 0.13676023483276367,
+      "learning_rate": 1e-06,
+      "loss": -0.0791,
+      "num_tokens": 581191529.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14740893244743347,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 977
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2863.0,
+      "completions/mean_length": 1130.85498046875,
+      "completions/mean_terminated_length": 613.9947509765625,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 9.139941690962099,
+      "grad_norm": 0.13505032658576965,
+      "learning_rate": 1e-06,
+      "loss": -0.0621,
+      "num_tokens": 581748775.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1155492514371872,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 978
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3442.0,
+      "completions/mean_length": 1083.33935546875,
+      "completions/mean_terminated_length": 621.9407958984375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 9.14927113702624,
+      "grad_norm": 0.16368120908737183,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 582326815.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14853617548942566,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 979
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2927.0,
+      "completions/mean_length": 1160.578125,
+      "completions/mean_terminated_length": 635.2921142578125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.15860058309038,
+      "grad_norm": 0.15550637245178223,
+      "learning_rate": 1e-06,
+      "loss": -0.096,
+      "num_tokens": 582900837.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.18340173363685608,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 980
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 1033.9765625,
+      "completions/mean_terminated_length": 605.4490966796875,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 9.167930029154519,
+      "grad_norm": 0.1382673978805542,
+      "learning_rate": 1e-06,
+      "loss": -0.0688,
+      "num_tokens": 583474144.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1295209527015686,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 981
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 888.8114013671875,
+      "completions/mean_terminated_length": 617.0157470703125,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.177259475218658,
+      "grad_norm": 0.12372458726167679,
+      "learning_rate": 1e-06,
+      "loss": -0.0455,
+      "num_tokens": 584063255.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.11016871780157089,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 982
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3634.0,
+      "completions/mean_length": 821.0078735351562,
+      "completions/mean_terminated_length": 606.8287963867188,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.186588921282798,
+      "grad_norm": 0.14347834885120392,
+      "learning_rate": 1e-06,
+      "loss": -0.0548,
+      "num_tokens": 584658950.0,
+      "reward": 0.7645089626312256,
+      "reward_std": 0.1400442123413086,
+      "rewards/verify_math_reward/mean": 0.7645089030265808,
+      "rewards/verify_math_reward/std": 0.42454230785369873,
+      "step": 983
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4046.0,
+      "completions/mean_length": 1115.6429443359375,
+      "completions/mean_terminated_length": 623.438232421875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.19591836734694,
+      "grad_norm": 0.15761616826057434,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 585228126.0,
+      "reward": 0.65625,
+      "reward_std": 0.13793987035751343,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 984
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3777.0,
+      "completions/mean_length": 876.5625610351562,
+      "completions/mean_terminated_length": 578.1755981445312,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 9.205247813411079,
+      "grad_norm": 0.14765629172325134,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 585773902.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.12140623480081558,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 985
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2398.0,
+      "completions/mean_length": 843.2288208007812,
+      "completions/mean_terminated_length": 584.57470703125,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 9.214577259475218,
+      "grad_norm": 0.14843350648880005,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 586344683.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1426684856414795,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 986
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1707589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3150.0,
+      "completions/mean_length": 1231.532470703125,
+      "completions/mean_terminated_length": 641.6756591796875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.223906705539358,
+      "grad_norm": 0.13903850317001343,
+      "learning_rate": 1e-06,
+      "loss": -0.0881,
+      "num_tokens": 586920904.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.12110385298728943,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 987
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 1199.48779296875,
+      "completions/mean_terminated_length": 707.9125366210938,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 9.2332361516035,
+      "grad_norm": 0.16974543035030365,
+      "learning_rate": 1e-06,
+      "loss": -0.0869,
+      "num_tokens": 587563045.0,
+      "reward": 0.609375,
+      "reward_std": 0.17092426121234894,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 988
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3065.0,
+      "completions/mean_length": 921.8638916015625,
+      "completions/mean_terminated_length": 571.80419921875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.242565597667639,
+      "grad_norm": 0.1629951149225235,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 588108123.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.14515303075313568,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 989
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 1007.0614013671875,
+      "completions/mean_terminated_length": 601.4431762695312,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 9.251895043731778,
+      "grad_norm": 0.18752329051494598,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 588681850.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1760030835866928,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 990
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2605.0,
+      "completions/mean_length": 895.9207763671875,
+      "completions/mean_terminated_length": 612.0741577148438,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.261224489795918,
+      "grad_norm": 0.15491515398025513,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 589287715.0,
+      "reward": 0.625,
+      "reward_std": 0.13752686977386475,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 991
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 1092.0435791015625,
+      "completions/mean_terminated_length": 645.3013305664062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.270553935860057,
+      "grad_norm": 0.14504826068878174,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 589877386.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.14124701917171478,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 992
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 1050.2991943359375,
+      "completions/mean_terminated_length": 637.2572631835938,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.279883381924199,
+      "grad_norm": 0.14347554743289948,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 590479390.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.13282990455627441,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 993
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 1054.1585693359375,
+      "completions/mean_terminated_length": 632.8614501953125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.289212827988338,
+      "grad_norm": 0.1658715307712555,
+      "learning_rate": 1e-06,
+      "loss": -0.0838,
+      "num_tokens": 591060628.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.17453815042972565,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 994
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3667.0,
+      "completions/mean_length": 986.4922485351562,
+      "completions/mean_terminated_length": 613.3512573242188,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 9.298542274052478,
+      "grad_norm": 0.14837861061096191,
+      "learning_rate": 1e-06,
+      "loss": -0.053,
+      "num_tokens": 591643853.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.15627038478851318,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 995
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3867.0,
+      "completions/mean_length": 1003.747802734375,
+      "completions/mean_terminated_length": 597.6944580078125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.307871720116617,
+      "grad_norm": 0.15311138331890106,
+      "learning_rate": 1e-06,
+      "loss": -0.0612,
+      "num_tokens": 592209667.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11239181458950043,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.4646684527397156,
+      "step": 996
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3719.0,
+      "completions/mean_length": 988.87841796875,
+      "completions/mean_terminated_length": 616.0237426757812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.317201166180759,
+      "grad_norm": 0.18904991447925568,
+      "learning_rate": 1e-06,
+      "loss": -0.07,
+      "num_tokens": 592789814.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.19340254366397858,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2956.0,
+      "completions/mean_length": 894.3058471679688,
+      "completions/mean_terminated_length": 614.546142578125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 9.326530612244898,
+      "grad_norm": 0.15684527158737183,
+      "learning_rate": 1e-06,
+      "loss": -0.0193,
+      "num_tokens": 593373912.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.15488353371620178,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 998
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3115.0,
+      "completions/mean_length": 933.6920166015625,
+      "completions/mean_terminated_length": 554.2149658203125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 9.335860058309038,
+      "grad_norm": 0.17012563347816467,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 593908660.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14278656244277954,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 999
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3339.0,
+      "completions/mean_length": 1029.54248046875,
+      "completions/mean_terminated_length": 622.4905395507812,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 9.345189504373177,
+      "grad_norm": 0.15460209548473358,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 594495770.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16195543110370636,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1000
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2648.0,
+      "completions/mean_length": 1158.1920166015625,
+      "completions/mean_terminated_length": 600.2815551757812,
+      "completions/min_length": 192.0,
+      "completions/min_terminated_length": 192.0,
+      "epoch": 9.354518950437317,
+      "grad_norm": 0.17640163004398346,
+      "learning_rate": 1e-06,
+      "loss": -0.0804,
+      "num_tokens": 595041630.0,
+      "reward": 0.6484375,
+      "reward_std": 0.16792230308055878,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3498.0,
+      "completions/mean_length": 1013.5803833007812,
+      "completions/mean_terminated_length": 550.6239013671875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.363848396501458,
+      "grad_norm": 0.13645939528942108,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 595553270.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.10674984753131866,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1002
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3853.0,
+      "completions/mean_length": 1057.7310791015625,
+      "completions/mean_terminated_length": 628.1159057617188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 9.373177842565598,
+      "grad_norm": 0.15502622723579407,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 596134029.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15533816814422607,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1003
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2907.0,
+      "completions/mean_length": 1050.0491943359375,
+      "completions/mean_terminated_length": 619.3477783203125,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 9.382507288629737,
+      "grad_norm": 0.14409136772155762,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 596711673.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1320810616016388,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1004
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 1131.26123046875,
+      "completions/mean_terminated_length": 609.9028930664062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.391836734693877,
+      "grad_norm": 0.18565106391906738,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 597261451.0,
+      "reward": 0.6640625,
+      "reward_std": 0.12854525446891785,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1005
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 1149.421875,
+      "completions/mean_terminated_length": 644.844482421875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.401166180758018,
+      "grad_norm": 0.14761878550052643,
+      "learning_rate": 1e-06,
+      "loss": -0.0688,
+      "num_tokens": 597843365.0,
+      "reward": 0.6328125,
+      "reward_std": 0.14530277252197266,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1006
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3793.0,
+      "completions/mean_length": 1111.69873046875,
+      "completions/mean_terminated_length": 586.9002685546875,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 9.410495626822158,
+      "grad_norm": 0.1614135056734085,
+      "learning_rate": 1e-06,
+      "loss": -0.0922,
+      "num_tokens": 598379031.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1623997986316681,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1007
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3697.0,
+      "completions/mean_length": 1044.341552734375,
+      "completions/mean_terminated_length": 626.0938720703125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.419825072886297,
+      "grad_norm": 0.1610298752784729,
+      "learning_rate": 1e-06,
+      "loss": -0.0442,
+      "num_tokens": 598960977.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.15575116872787476,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111400604248,
+      "step": 1008
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3849.0,
+      "completions/mean_length": 1042.302490234375,
+      "completions/mean_terminated_length": 658.672119140625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.429154518950437,
+      "grad_norm": 0.14980989694595337,
+      "learning_rate": 1e-06,
+      "loss": -0.0793,
+      "num_tokens": 599573112.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15762656927108765,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1009
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 1104.771240234375,
+      "completions/mean_terminated_length": 583.3643798828125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.438483965014576,
+      "grad_norm": 0.1702858805656433,
+      "learning_rate": 1e-06,
+      "loss": -0.0968,
+      "num_tokens": 600115499.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.13275253772735596,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1010
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3687.0,
+      "completions/mean_length": 1051.2366943359375,
+      "completions/mean_terminated_length": 598.4256591796875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.447813411078718,
+      "grad_norm": 0.14281457662582397,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 600672759.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.13165919482707977,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1011
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2736.0,
+      "completions/mean_length": 1057.391845703125,
+      "completions/mean_terminated_length": 560.1649169921875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 9.457142857142857,
+      "grad_norm": 0.16530536115169525,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 601193822.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.138991117477417,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1012
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2627.0,
+      "completions/mean_length": 1027.8248291015625,
+      "completions/mean_terminated_length": 607.3134155273438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.466472303206997,
+      "grad_norm": 0.1515965461730957,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 601779225.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.14034590125083923,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1013
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3631.0,
+      "completions/mean_length": 1181.1585693359375,
+      "completions/mean_terminated_length": 682.0156860351562,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 9.475801749271136,
+      "grad_norm": 0.17264242470264435,
+      "learning_rate": 1e-06,
+      "loss": -0.0579,
+      "num_tokens": 602384447.0,
+      "reward": 0.6328125,
+      "reward_std": 0.15173636376857758,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1014
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1741071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3050.0,
+      "completions/mean_length": 1286.0614013671875,
+      "completions/mean_terminated_length": 693.6959838867188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.485131195335278,
+      "grad_norm": 0.14848469197750092,
+      "learning_rate": 1e-06,
+      "loss": -0.0745,
+      "num_tokens": 602987870.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.17021210491657257,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 1015
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3524.0,
+      "completions/mean_length": 978.919677734375,
+      "completions/mean_terminated_length": 560.678466796875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 9.494460641399417,
+      "grad_norm": 0.16232028603553772,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 603510878.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.12456366419792175,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1016
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3087.0,
+      "completions/mean_length": 1042.9007568359375,
+      "completions/mean_terminated_length": 597.8197021484375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 9.503790087463557,
+      "grad_norm": 0.14280246198177338,
+      "learning_rate": 1e-06,
+      "loss": -0.09,
+      "num_tokens": 604060685.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1500004231929779,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.46100425720214844,
+      "step": 1017
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3067.0,
+      "completions/mean_length": 1077.083740234375,
+      "completions/mean_terminated_length": 619.2017822265625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.513119533527696,
+      "grad_norm": 0.18426713347434998,
+      "learning_rate": 1e-06,
+      "loss": -0.0962,
+      "num_tokens": 604635816.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.19317500293254852,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1018
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3407.0,
+      "completions/mean_length": 1048.7935791015625,
+      "completions/mean_terminated_length": 631.1560668945312,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 9.522448979591836,
+      "grad_norm": 0.1455802619457245,
+      "learning_rate": 1e-06,
+      "loss": -0.1028,
+      "num_tokens": 605214367.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.15544624626636505,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1019
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1674107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3383.0,
+      "completions/mean_length": 1210.009033203125,
+      "completions/mean_terminated_length": 629.7158203125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 9.531778425655977,
+      "grad_norm": 0.16423115134239197,
+      "learning_rate": 1e-06,
+      "loss": -0.0934,
+      "num_tokens": 605768983.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.1583772599697113,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1020
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3906.0,
+      "completions/mean_length": 1084.4453125,
+      "completions/mean_terminated_length": 600.7240600585938,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.541107871720117,
+      "grad_norm": 0.1674438863992691,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 606320534.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.14966411888599396,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1021
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2727.0,
+      "completions/mean_length": 1050.6875,
+      "completions/mean_terminated_length": 602.2739868164062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 9.550437317784256,
+      "grad_norm": 0.1553095281124115,
+      "learning_rate": 1e-06,
+      "loss": -0.0832,
+      "num_tokens": 606879062.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.14794068038463593,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1022
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3367.0,
+      "completions/mean_length": 1199.6015625,
+      "completions/mean_terminated_length": 712.4628295898438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.559766763848396,
+      "grad_norm": 0.21782627701759338,
+      "learning_rate": 1e-06,
+      "loss": -0.083,
+      "num_tokens": 607526665.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1810377687215805,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1023
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3037.0,
+      "completions/mean_length": 1039.290283203125,
+      "completions/mean_terminated_length": 607.0675048828125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.569096209912537,
+      "grad_norm": 0.16398470103740692,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 608102581.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1660016030073166,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1024
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3717.0,
+      "completions/mean_length": 1067.0982666015625,
+      "completions/mean_terminated_length": 634.39794921875,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 9.578425655976677,
+      "grad_norm": 0.15100041031837463,
+      "learning_rate": 1e-06,
+      "loss": -0.081,
+      "num_tokens": 608683053.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16345147788524628,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1025
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3825.0,
+      "completions/mean_length": 1058.5067138671875,
+      "completions/mean_terminated_length": 556.8660278320312,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 9.587755102040816,
+      "grad_norm": 0.15612345933914185,
+      "learning_rate": 1e-06,
+      "loss": -0.0596,
+      "num_tokens": 609208563.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.10941985249519348,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1026
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2794.0,
+      "completions/mean_length": 992.0067138671875,
+      "completions/mean_terminated_length": 579.9722290039062,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 9.597084548104956,
+      "grad_norm": 0.12874767184257507,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 609753305.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.09198792278766632,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1027
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2869.0,
+      "completions/mean_length": 1163.48779296875,
+      "completions/mean_terminated_length": 683.6220703125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 9.606413994169095,
+      "grad_norm": 0.15402068197727203,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 610374126.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.16322575509548187,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 1028
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2769.0,
+      "completions/mean_length": 997.380615234375,
+      "completions/mean_terminated_length": 563.7315673828125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 9.615743440233237,
+      "grad_norm": 0.1549675464630127,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 610911987.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.12598443031311035,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1029
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2942.0,
+      "completions/mean_length": 893.5960083007812,
+      "completions/mean_terminated_length": 553.5877075195312,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 9.625072886297376,
+      "grad_norm": 0.13310593366622925,
+      "learning_rate": 1e-06,
+      "loss": -0.0605,
+      "num_tokens": 611445745.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.12392427772283554,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1030
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3800.0,
+      "completions/mean_length": 1061.96875,
+      "completions/mean_terminated_length": 632.952880859375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 9.634402332361516,
+      "grad_norm": 0.13584552705287933,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 612032277.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.13087712228298187,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1031
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3988.0,
+      "completions/mean_length": 1138.1976318359375,
+      "completions/mean_terminated_length": 663.110107421875,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 9.643731778425655,
+      "grad_norm": 0.14727799594402313,
+      "learning_rate": 1e-06,
+      "loss": -0.0772,
+      "num_tokens": 612638438.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.15541306138038635,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1032
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 1021.9542846679688,
+      "completions/mean_terminated_length": 582.8048095703125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.653061224489797,
+      "grad_norm": 0.1584702730178833,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 613179301.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.13898929953575134,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1033
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3012.0,
+      "completions/mean_length": 1061.3382568359375,
+      "completions/mean_terminated_length": 632.233154296875,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 9.662390670553936,
+      "grad_norm": 0.13369698822498322,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 613765228.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.11678596585988998,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1034
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3916.0,
+      "completions/mean_length": 961.5881958007812,
+      "completions/mean_terminated_length": 598.5740966796875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.671720116618076,
+      "grad_norm": 0.22063378989696503,
+      "learning_rate": 1e-06,
+      "loss": -0.0745,
+      "num_tokens": 614330995.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.17472319304943085,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1035
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3534.0,
+      "completions/mean_length": 973.200927734375,
+      "completions/mean_terminated_length": 585.2998657226562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.681049562682215,
+      "grad_norm": 0.16207484900951385,
+      "learning_rate": 1e-06,
+      "loss": -0.0896,
+      "num_tokens": 614886471.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.16322465240955353,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1036
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3137.0,
+      "completions/mean_length": 994.1082763671875,
+      "completions/mean_terminated_length": 613.1741943359375,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 9.690379008746355,
+      "grad_norm": 0.1522195190191269,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 615455056.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.13594317436218262,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1037
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2599.0,
+      "completions/mean_length": 1052.138427734375,
+      "completions/mean_terminated_length": 656.7818603515625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 9.699708454810496,
+      "grad_norm": 0.15572939813137054,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 616059548.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.17472107708454132,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1038
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3026.0,
+      "completions/mean_length": 975.255615234375,
+      "completions/mean_terminated_length": 600.7662353515625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.709037900874636,
+      "grad_norm": 0.16639718413352966,
+      "learning_rate": 1e-06,
+      "loss": -0.048,
+      "num_tokens": 616629473.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16142340004444122,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1039
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1618303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3305.0,
+      "completions/mean_length": 1189.6629638671875,
+      "completions/mean_terminated_length": 628.519287109375,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.718367346938775,
+      "grad_norm": 0.16171219944953918,
+      "learning_rate": 1e-06,
+      "loss": -0.0977,
+      "num_tokens": 617186651.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15300559997558594,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1040
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3864.0,
+      "completions/mean_length": 905.7723388671875,
+      "completions/mean_terminated_length": 567.0568237304688,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.727696793002915,
+      "grad_norm": 0.17202991247177124,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 617736527.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.15364499390125275,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1041
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2718.0,
+      "completions/mean_length": 917.5982666015625,
+      "completions/mean_terminated_length": 601.7079467773438,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.737026239067056,
+      "grad_norm": 0.13633190095424652,
+      "learning_rate": 1e-06,
+      "loss": -0.0727,
+      "num_tokens": 618309303.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.12828421592712402,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1042
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3423.0,
+      "completions/mean_length": 1003.286865234375,
+      "completions/mean_terminated_length": 597.1729736328125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.746355685131196,
+      "grad_norm": 0.1549861878156662,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 618869192.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.11802449822425842,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 1043
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3606.0,
+      "completions/mean_length": 1103.618408203125,
+      "completions/mean_terminated_length": 618.4721069335938,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.755685131195335,
+      "grad_norm": 0.1599438339471817,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 619431762.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.14135761559009552,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1044
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3534.0,
+      "completions/mean_length": 937.62060546875,
+      "completions/mean_terminated_length": 597.9678344726562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.765014577259475,
+      "grad_norm": 0.1297610104084015,
+      "learning_rate": 1e-06,
+      "loss": -0.0539,
+      "num_tokens": 619990486.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.11633063107728958,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1045
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3036.0,
+      "completions/mean_length": 1094.70654296875,
+      "completions/mean_terminated_length": 692.0012817382812,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 9.774344023323614,
+      "grad_norm": 0.14316801726818085,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 620631463.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.15158483386039734,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1046
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2983.0,
+      "completions/mean_length": 1160.3671875,
+      "completions/mean_terminated_length": 648.6514282226562,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 9.783673469387756,
+      "grad_norm": 0.14425425231456757,
+      "learning_rate": 1e-06,
+      "loss": -0.0733,
+      "num_tokens": 621223792.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1328285187482834,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1047
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3578.0,
+      "completions/mean_length": 1061.8538818359375,
+      "completions/mean_terminated_length": 623.9757080078125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.793002915451895,
+      "grad_norm": 0.1334461271762848,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 621805789.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.11396414041519165,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1048
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4072.0,
+      "completions/mean_length": 974.6652221679688,
+      "completions/mean_terminated_length": 630.4287719726562,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 9.802332361516035,
+      "grad_norm": 0.17007985711097717,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 622402385.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16999317705631256,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2899.0,
+      "completions/mean_length": 965.6842041015625,
+      "completions/mean_terminated_length": 594.4232177734375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.811661807580174,
+      "grad_norm": 0.16194379329681396,
+      "learning_rate": 1e-06,
+      "loss": -0.0961,
+      "num_tokens": 622966358.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.16258594393730164,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1050
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3583.0,
+      "completions/mean_length": 1048.3148193359375,
+      "completions/mean_terminated_length": 643.7547607421875,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 9.820991253644316,
+      "grad_norm": 0.1667070984840393,
+      "learning_rate": 1e-06,
+      "loss": -0.076,
+      "num_tokens": 623556136.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.16488321125507355,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1051
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3350.0,
+      "completions/mean_length": 1208.4632568359375,
+      "completions/mean_terminated_length": 687.2608642578125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.830320699708455,
+      "grad_norm": 0.14641916751861572,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 624172015.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.12463782727718353,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1052
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3434.0,
+      "completions/mean_length": 1022.7756958007812,
+      "completions/mean_terminated_length": 614.8255615234375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 9.839650145772595,
+      "grad_norm": 0.17525076866149902,
+      "learning_rate": 1e-06,
+      "loss": -0.0656,
+      "num_tokens": 624741182.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1623249500989914,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 1020.2098388671875,
+      "completions/mean_terminated_length": 620.7061767578125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 9.848979591836734,
+      "grad_norm": 0.15761888027191162,
+      "learning_rate": 1e-06,
+      "loss": -0.0201,
+      "num_tokens": 625323458.0,
+      "reward": 0.625,
+      "reward_std": 0.1371150016784668,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2466.0,
+      "completions/mean_length": 1079.146240234375,
+      "completions/mean_terminated_length": 580.9141845703125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 9.858309037900874,
+      "grad_norm": 0.1381913125514984,
+      "learning_rate": 1e-06,
+      "loss": -0.0913,
+      "num_tokens": 625872333.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.12065806984901428,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1055
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3856.0,
+      "completions/mean_length": 1147.857177734375,
+      "completions/mean_terminated_length": 687.5664672851562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.867638483965015,
+      "grad_norm": 0.15661345422267914,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 626499405.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.16660849750041962,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 1056
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3863.0,
+      "completions/mean_length": 1091.1640625,
+      "completions/mean_terminated_length": 617.5336303710938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.876967930029155,
+      "grad_norm": 0.1464555263519287,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 627064480.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.13659143447875977,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3533.0,
+      "completions/mean_length": 1068.14404296875,
+      "completions/mean_terminated_length": 626.7429809570312,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 9.886297376093294,
+      "grad_norm": 0.1781105101108551,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 627648441.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.18809868395328522,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1058
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3707.0,
+      "completions/mean_length": 1056.8482666015625,
+      "completions/mean_terminated_length": 657.7677001953125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 9.895626822157434,
+      "grad_norm": 0.17310470342636108,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 628255905.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.17442826926708221,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1059
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3609.0,
+      "completions/mean_length": 933.810302734375,
+      "completions/mean_terminated_length": 567.5790405273438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.904956268221575,
+      "grad_norm": 0.15535572171211243,
+      "learning_rate": 1e-06,
+      "loss": -0.0256,
+      "num_tokens": 628797855.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.10765069723129272,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1060
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 802.2623291015625,
+      "completions/mean_terminated_length": 518.8012084960938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.914285714285715,
+      "grad_norm": 0.15084369480609894,
+      "learning_rate": 1e-06,
+      "loss": -0.0349,
+      "num_tokens": 629306490.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.11866138130426407,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1061
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3356.0,
+      "completions/mean_length": 957.2991333007812,
+      "completions/mean_terminated_length": 585.043701171875,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 9.923615160349854,
+      "grad_norm": 0.15866389870643616,
+      "learning_rate": 1e-06,
+      "loss": -0.0201,
+      "num_tokens": 629863966.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.14334996044635773,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1062
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3786.0,
+      "completions/mean_length": 965.552490234375,
+      "completions/mean_terminated_length": 545.5177001953125,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 9.932944606413994,
+      "grad_norm": 0.1854659765958786,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 630390525.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12159238755702972,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1063
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3194.0,
+      "completions/mean_length": 1046.087158203125,
+      "completions/mean_terminated_length": 680.0974731445312,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 9.942274052478133,
+      "grad_norm": 0.16189289093017578,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 631014443.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.14425332844257355,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2940.0,
+      "completions/mean_length": 1046.8192138671875,
+      "completions/mean_terminated_length": 620.0890502929688,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.951603498542275,
+      "grad_norm": 0.12819170951843262,
+      "learning_rate": 1e-06,
+      "loss": -0.0706,
+      "num_tokens": 631593737.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.12114479392766953,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1065
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2902.0,
+      "completions/mean_length": 885.2366333007812,
+      "completions/mean_terminated_length": 617.3494873046875,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 9.960932944606414,
+      "grad_norm": 0.15327103435993195,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 632195461.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13478201627731323,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3972.0,
+      "completions/mean_length": 1029.7734375,
+      "completions/mean_terminated_length": 596.205078125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 9.970262390670554,
+      "grad_norm": 0.17385685443878174,
+      "learning_rate": 1e-06,
+      "loss": -0.0797,
+      "num_tokens": 632756266.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.16517673432826996,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2610.0,
+      "completions/mean_length": 902.9777221679688,
+      "completions/mean_terminated_length": 585.6343383789062,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.979591836734693,
+      "grad_norm": 0.13518302142620087,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 633312502.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1310618817806244,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3777.0,
+      "completions/mean_length": 1088.716552734375,
+      "completions/mean_terminated_length": 641.4794921875,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 9.988921282798835,
+      "grad_norm": 0.16097402572631836,
+      "learning_rate": 1e-06,
+      "loss": -0.0265,
+      "num_tokens": 633916944.0,
+      "reward": 0.609375,
+      "reward_std": 0.13778649270534515,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 1069
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.20170454545454541,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2982.0,
+      "completions/mean_length": 1306.32958984375,
+      "completions/mean_terminated_length": 601.4661865234375,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 9.998250728862974,
+      "grad_norm": 0.15865516662597656,
+      "learning_rate": 1e-06,
+      "loss": -0.0683,
+      "num_tokens": 634462382.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.14049884676933289,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1070
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3132.0,
+      "completions/mean_length": 1106.2723388671875,
+      "completions/mean_terminated_length": 589.7225341796875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.00932944606414,
+      "grad_norm": 0.16653719544410706,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 635005434.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.12805670499801636,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1071
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 1048.40966796875,
+      "completions/mean_terminated_length": 608.59130859375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.018658892128279,
+      "grad_norm": 0.16584089398384094,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 635575369.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.1292620301246643,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 1072
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2698.0,
+      "completions/mean_length": 1080.5513916015625,
+      "completions/mean_terminated_length": 591.6653442382812,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 10.02798833819242,
+      "grad_norm": 0.13904087245464325,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 636122471.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1209183931350708,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 1073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2482.0,
+      "completions/mean_length": 1050.6763916015625,
+      "completions/mean_terminated_length": 597.7820434570312,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.03731778425656,
+      "grad_norm": 0.17358961701393127,
+      "learning_rate": 1e-06,
+      "loss": -0.0882,
+      "num_tokens": 636674693.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.15431898832321167,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1074
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2720.0,
+      "completions/mean_length": 1021.5770263671875,
+      "completions/mean_terminated_length": 635.3429565429688,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 10.0466472303207,
+      "grad_norm": 0.1577582210302353,
+      "learning_rate": 1e-06,
+      "loss": -0.0744,
+      "num_tokens": 637275858.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1511615812778473,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3989.0,
+      "completions/mean_length": 890.2266235351562,
+      "completions/mean_terminated_length": 593.1060791015625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 10.055976676384839,
+      "grad_norm": 0.16038629412651062,
+      "learning_rate": 1e-06,
+      "loss": -0.0682,
+      "num_tokens": 637838781.0,
+      "reward": 0.7511160969734192,
+      "reward_std": 0.1537223756313324,
+      "rewards/verify_math_reward/mean": 0.7511160969734192,
+      "rewards/verify_math_reward/std": 0.43260788917541504,
+      "step": 1076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3541.0,
+      "completions/mean_length": 1025.3170166015625,
+      "completions/mean_terminated_length": 600.025390625,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 10.06530612244898,
+      "grad_norm": 0.13877595961093903,
+      "learning_rate": 1e-06,
+      "loss": -0.0627,
+      "num_tokens": 638403345.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11501792073249817,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1077
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3632.0,
+      "completions/mean_length": 1067.9029541015625,
+      "completions/mean_terminated_length": 639.7261352539062,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 10.07463556851312,
+      "grad_norm": 0.18216530978679657,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 638993010.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.19501762092113495,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 1078
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3097.0,
+      "completions/mean_length": 1112.5670166015625,
+      "completions/mean_terminated_length": 619.8543701171875,
+      "completions/min_length": 89.0,
+      "completions/min_terminated_length": 89.0,
+      "epoch": 10.08396501457726,
+      "grad_norm": 0.1633872091770172,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 639572462.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.16435188055038452,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 1079
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3079.0,
+      "completions/mean_length": 1025.5592041015625,
+      "completions/mean_terminated_length": 644.161865234375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.093294460641399,
+      "grad_norm": 0.14698049426078796,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 640187731.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1504882574081421,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1080
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 1014.6506958007812,
+      "completions/mean_terminated_length": 596.7744140625,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 10.102623906705539,
+      "grad_norm": 0.1668751984834671,
+      "learning_rate": 1e-06,
+      "loss": -0.0765,
+      "num_tokens": 640751250.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1709691435098648,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1081
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3775.0,
+      "completions/mean_length": 932.28466796875,
+      "completions/mean_terminated_length": 596.3839721679688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.11195335276968,
+      "grad_norm": 0.15423645079135895,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 641329593.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.14853869378566742,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1082
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2921.0,
+      "completions/mean_length": 969.3984985351562,
+      "completions/mean_terminated_length": 633.1631469726562,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 10.12128279883382,
+      "grad_norm": 0.19824273884296417,
+      "learning_rate": 1e-06,
+      "loss": -0.0364,
+      "num_tokens": 641941838.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.13598595559597015,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1083
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2640.0,
+      "completions/mean_length": 1022.349365234375,
+      "completions/mean_terminated_length": 649.2027587890625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 10.130612244897959,
+      "grad_norm": 0.13495387136936188,
+      "learning_rate": 1e-06,
+      "loss": -0.0444,
+      "num_tokens": 642554991.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.1317005753517151,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111400604248,
+      "step": 1084
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2905.0,
+      "completions/mean_length": 1028.685302734375,
+      "completions/mean_terminated_length": 643.34423828125,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 10.139941690962099,
+      "grad_norm": 0.1342616230249405,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 643150741.0,
+      "reward": 0.6484375,
+      "reward_std": 0.12828563153743744,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1085
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2998.0,
+      "completions/mean_length": 894.5692138671875,
+      "completions/mean_terminated_length": 519.3391723632812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 10.14927113702624,
+      "grad_norm": 0.15185034275054932,
+      "learning_rate": 1e-06,
+      "loss": -0.059,
+      "num_tokens": 643650803.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.1302691102027893,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1086
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 1003.83935546875,
+      "completions/mean_terminated_length": 566.6038208007812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 10.15860058309038,
+      "grad_norm": 0.14555291831493378,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 644190675.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.09405060112476349,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1087
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2786.0,
+      "completions/mean_length": 1041.8035888671875,
+      "completions/mean_terminated_length": 605.4898071289062,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 10.167930029154519,
+      "grad_norm": 0.16963058710098267,
+      "learning_rate": 1e-06,
+      "loss": -0.0707,
+      "num_tokens": 644750403.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.16266053915023804,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1088
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 1129.2957763671875,
+      "completions/mean_terminated_length": 661.6757202148438,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 10.177259475218658,
+      "grad_norm": 0.14441253244876862,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 645354100.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.11765290051698685,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1089
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 977.8449096679688,
+      "completions/mean_terminated_length": 550.4835205078125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 10.186588921282798,
+      "grad_norm": 0.16496771574020386,
+      "learning_rate": 1e-06,
+      "loss": -0.082,
+      "num_tokens": 645873305.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1352691650390625,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1090
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2541.0,
+      "completions/mean_length": 884.4777221679688,
+      "completions/mean_terminated_length": 539.1099853515625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.19591836734694,
+      "grad_norm": 0.15475855767726898,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 646393597.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.13778719305992126,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1091
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3091.0,
+      "completions/mean_length": 1162.6640625,
+      "completions/mean_terminated_length": 619.4536743164062,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.205247813411079,
+      "grad_norm": 0.1447315216064453,
+      "learning_rate": 1e-06,
+      "loss": -0.0757,
+      "num_tokens": 646953800.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.15139050781726837,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 1092
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3445.0,
+      "completions/mean_length": 1009.17529296875,
+      "completions/mean_terminated_length": 612.6309814453125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 10.214577259475218,
+      "grad_norm": 0.1439095288515091,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 647523421.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.13662534952163696,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1093
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 1105.2913818359375,
+      "completions/mean_terminated_length": 633.8876342773438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 10.223906705539358,
+      "grad_norm": 0.1669865995645523,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 648110634.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.16404879093170166,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2817.0,
+      "completions/mean_length": 954.7969360351562,
+      "completions/mean_terminated_length": 590.9962158203125,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 10.2332361516035,
+      "grad_norm": 0.16492746770381927,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 648669180.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15451402962207794,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1095
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3004.0,
+      "completions/mean_length": 1175.524658203125,
+      "completions/mean_terminated_length": 630.1112670898438,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.242565597667639,
+      "grad_norm": 0.15489059686660767,
+      "learning_rate": 1e-06,
+      "loss": -0.0853,
+      "num_tokens": 649235674.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.15364499390125275,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1096
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3364.0,
+      "completions/mean_length": 928.1116333007812,
+      "completions/mean_terminated_length": 570.0025024414062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.251895043731778,
+      "grad_norm": 0.14972880482673645,
+      "learning_rate": 1e-06,
+      "loss": -0.0615,
+      "num_tokens": 649781006.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.12159170210361481,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1097
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 995.771240234375,
+      "completions/mean_terminated_length": 623.7437133789062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.261224489795918,
+      "grad_norm": 0.160934180021286,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 650366169.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1384686678647995,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1098
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2483.0,
+      "completions/mean_length": 956.0547485351562,
+      "completions/mean_terminated_length": 548.2181396484375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.270553935860057,
+      "grad_norm": 0.13288824260234833,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 650894226.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1174592673778534,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1099
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4079.0,
+      "completions/mean_length": 1054.505615234375,
+      "completions/mean_terminated_length": 588.6911010742188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 10.279883381924199,
+      "grad_norm": 0.17229117453098297,
+      "learning_rate": 1e-06,
+      "loss": -0.0707,
+      "num_tokens": 651453095.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.15634846687316895,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 1100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2727.0,
+      "completions/mean_length": 864.1250610351562,
+      "completions/mean_terminated_length": 573.1776123046875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 10.289212827988338,
+      "grad_norm": 0.1550755798816681,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 652014183.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.13711389899253845,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3396.0,
+      "completions/mean_length": 1015.310302734375,
+      "completions/mean_terminated_length": 601.951904296875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.298542274052478,
+      "grad_norm": 0.14750759303569794,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 652582373.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.14315634965896606,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 1084.325927734375,
+      "completions/mean_terminated_length": 600.58544921875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.307871720116617,
+      "grad_norm": 0.15466561913490295,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 653139041.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.12192869931459427,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3120.0,
+      "completions/mean_length": 1058.1373291015625,
+      "completions/mean_terminated_length": 641.7804565429688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.317201166180759,
+      "grad_norm": 0.16274167597293854,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 653729108.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.143612802028656,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3069.0,
+      "completions/mean_length": 982.8694458007812,
+      "completions/mean_terminated_length": 609.2937622070312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 10.326530612244898,
+      "grad_norm": 0.15139319002628326,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 654301231.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.15680241584777832,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3535.0,
+      "completions/mean_length": 1012.7042846679688,
+      "completions/mean_terminated_length": 607.8270263671875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 10.335860058309038,
+      "grad_norm": 0.1497790366411209,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 654867406.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15364639461040497,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3005.0,
+      "completions/mean_length": 828.5245971679688,
+      "completions/mean_terminated_length": 534.3722534179688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.345189504373177,
+      "grad_norm": 0.18536463379859924,
+      "learning_rate": 1e-06,
+      "loss": -0.0568,
+      "num_tokens": 655393244.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14740821719169617,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2854.0,
+      "completions/mean_length": 915.2467041015625,
+      "completions/mean_terminated_length": 590.520263671875,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 10.354518950437317,
+      "grad_norm": 0.1505555510520935,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 655957249.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14184364676475525,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3287.0,
+      "completions/mean_length": 875.2266235351562,
+      "completions/mean_terminated_length": 563.7931518554688,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 10.363848396501458,
+      "grad_norm": 0.1695970594882965,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 656505260.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.14680273830890656,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3396.0,
+      "completions/mean_length": 1052.5625,
+      "completions/mean_terminated_length": 586.450439453125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 10.373177842565598,
+      "grad_norm": 0.15126630663871765,
+      "learning_rate": 1e-06,
+      "loss": -0.0744,
+      "num_tokens": 657046028.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1327090561389923,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3211.0,
+      "completions/mean_length": 1058.46435546875,
+      "completions/mean_terminated_length": 593.256103515625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.382507288629737,
+      "grad_norm": 0.161564439535141,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 657580740.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.12297855317592621,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 937.779052734375,
+      "completions/mean_terminated_length": 563.20849609375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.391836734693877,
+      "grad_norm": 0.18076066672801971,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 658117390.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.1413569152355194,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1796875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 1251.134033203125,
+      "completions/mean_terminated_length": 627.9727783203125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 10.401166180758018,
+      "grad_norm": 0.1642141193151474,
+      "learning_rate": 1e-06,
+      "loss": -0.1078,
+      "num_tokens": 658678702.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.13989154994487762,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 1113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 943.44873046875,
+      "completions/mean_terminated_length": 573.9476318359375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.410495626822158,
+      "grad_norm": 0.1734590381383896,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 659233376.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.13309067487716675,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3993.0,
+      "completions/mean_length": 1058.83935546875,
+      "completions/mean_terminated_length": 611.6261596679688,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 10.419825072886297,
+      "grad_norm": 0.15424303710460663,
+      "learning_rate": 1e-06,
+      "loss": -0.1034,
+      "num_tokens": 659790352.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1413230150938034,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.4642214775085449,
+      "step": 1115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3394.0,
+      "completions/mean_length": 1113.982177734375,
+      "completions/mean_terminated_length": 603.3359375,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 10.429154518950437,
+      "grad_norm": 0.16236351430416107,
+      "learning_rate": 1e-06,
+      "loss": -0.0853,
+      "num_tokens": 660344160.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.16394071280956268,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2838.0,
+      "completions/mean_length": 960.5982666015625,
+      "completions/mean_terminated_length": 610.4913330078125,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 10.438483965014576,
+      "grad_norm": 0.17198672890663147,
+      "learning_rate": 1e-06,
+      "loss": -0.0646,
+      "num_tokens": 660916104.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.15788941085338593,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3317.0,
+      "completions/mean_length": 1087.7991943359375,
+      "completions/mean_terminated_length": 635.98974609375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.447813411078718,
+      "grad_norm": 0.1357061117887497,
+      "learning_rate": 1e-06,
+      "loss": -0.0705,
+      "num_tokens": 661502812.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.12764301896095276,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2802.0,
+      "completions/mean_length": 1091.060302734375,
+      "completions/mean_terminated_length": 617.4134521484375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 10.457142857142857,
+      "grad_norm": 0.14067105948925018,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 662073842.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.12215623259544373,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1584821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2393.0,
+      "completions/mean_length": 1134.614990234375,
+      "completions/mean_terminated_length": 576.9005126953125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 10.466472303206997,
+      "grad_norm": 0.15287235379219055,
+      "learning_rate": 1e-06,
+      "loss": -0.0683,
+      "num_tokens": 662600201.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1327204555273056,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3066.0,
+      "completions/mean_length": 1100.3226318359375,
+      "completions/mean_terminated_length": 614.6420288085938,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.475801749271136,
+      "grad_norm": 0.15658532083034515,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 663165066.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.13711319863796234,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2467.0,
+      "completions/mean_length": 1028.891845703125,
+      "completions/mean_terminated_length": 527.0012817382812,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.485131195335278,
+      "grad_norm": 0.18758775293827057,
+      "learning_rate": 1e-06,
+      "loss": -0.0863,
+      "num_tokens": 663651489.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.1420711725950241,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3326.0,
+      "completions/mean_length": 1023.7745971679688,
+      "completions/mean_terminated_length": 589.3579711914062,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 10.494460641399417,
+      "grad_norm": 0.15295983850955963,
+      "learning_rate": 1e-06,
+      "loss": -0.0891,
+      "num_tokens": 664198231.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12535572052001953,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3910.0,
+      "completions/mean_length": 996.1629638671875,
+      "completions/mean_terminated_length": 597.9470825195312,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.503790087463557,
+      "grad_norm": 0.15623658895492554,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 664758905.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1357584297657013,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3711.0,
+      "completions/mean_length": 940.65966796875,
+      "completions/mean_terminated_length": 548.7164306640625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.513119533527696,
+      "grad_norm": 0.17176030576229095,
+      "learning_rate": 1e-06,
+      "loss": -0.0639,
+      "num_tokens": 665276456.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.15477405488491058,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3550.0,
+      "completions/mean_length": 1006.9029541015625,
+      "completions/mean_terminated_length": 547.4987182617188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.522448979591836,
+      "grad_norm": 0.17296266555786133,
+      "learning_rate": 1e-06,
+      "loss": -0.0639,
+      "num_tokens": 665809289.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.14696383476257324,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2798.0,
+      "completions/mean_length": 958.154052734375,
+      "completions/mean_terminated_length": 537.1265869140625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 10.531778425655977,
+      "grad_norm": 0.17006491124629974,
+      "learning_rate": 1e-06,
+      "loss": -0.0691,
+      "num_tokens": 666325459.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.13978277146816254,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3639.0,
+      "completions/mean_length": 1009.08935546875,
+      "completions/mean_terminated_length": 550.01025390625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 10.541107871720117,
+      "grad_norm": 0.15393473207950592,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 666855955.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.14586800336837769,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3568.0,
+      "completions/mean_length": 943.86279296875,
+      "completions/mean_terminated_length": 561.187744140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.550437317784256,
+      "grad_norm": 0.18221965432167053,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 667393128.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15559779107570648,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3907.0,
+      "completions/mean_length": 951.65966796875,
+      "completions/mean_terminated_length": 609.2066650390625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.559766763848396,
+      "grad_norm": 0.14804306626319885,
+      "learning_rate": 1e-06,
+      "loss": -0.0375,
+      "num_tokens": 667972279.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.13293799757957458,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2337.0,
+      "completions/mean_length": 951.716552734375,
+      "completions/mean_terminated_length": 552.2540893554688,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 10.569096209912537,
+      "grad_norm": 0.151942178606987,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 668491785.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.13824184238910675,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3668.0,
+      "completions/mean_length": 1134.501220703125,
+      "completions/mean_terminated_length": 645.4109497070312,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 10.578425655976677,
+      "grad_norm": 0.16631515324115753,
+      "learning_rate": 1e-06,
+      "loss": -0.0788,
+      "num_tokens": 669081954.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.14984957873821259,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 906.86279296875,
+      "completions/mean_terminated_length": 607.029296875,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 10.587755102040816,
+      "grad_norm": 0.1585167497396469,
+      "learning_rate": 1e-06,
+      "loss": -0.0352,
+      "num_tokens": 669678031.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.11314209550619125,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2717.0,
+      "completions/mean_length": 1051.25341796875,
+      "completions/mean_terminated_length": 616.28955078125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.597084548104956,
+      "grad_norm": 0.16445694863796234,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 670251034.0,
+      "reward": 0.6171875,
+      "reward_std": 0.15785551071166992,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 1134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2990.0,
+      "completions/mean_length": 987.7835083007812,
+      "completions/mean_terminated_length": 557.2935180664062,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 10.606413994169095,
+      "grad_norm": 0.16716906428337097,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 670774832.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.15526077151298523,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763102173805237,
+      "step": 1135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2645.0,
+      "completions/mean_length": 1102.7578125,
+      "completions/mean_terminated_length": 576.3871459960938,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 10.615743440233237,
+      "grad_norm": 0.15244048833847046,
+      "learning_rate": 1e-06,
+      "loss": -0.0766,
+      "num_tokens": 671301767.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1349007785320282,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2719.0,
+      "completions/mean_length": 1099.9296875,
+      "completions/mean_terminated_length": 573.0617065429688,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 10.625072886297376,
+      "grad_norm": 0.17223677039146423,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 671835240.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13527168333530426,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3753.0,
+      "completions/mean_length": 963.0692138671875,
+      "completions/mean_terminated_length": 591.4981079101562,
+      "completions/min_length": 90.0,
+      "completions/min_terminated_length": 90.0,
+      "epoch": 10.634402332361516,
+      "grad_norm": 0.1511462777853012,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 672400966.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.14666074514389038,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 916.2444458007812,
+      "completions/mean_terminated_length": 595.925048828125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.643731778425655,
+      "grad_norm": 0.14917875826358795,
+      "learning_rate": 1e-06,
+      "loss": -0.0389,
+      "num_tokens": 672963185.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.12910906970500946,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2999.0,
+      "completions/mean_length": 1131.966552734375,
+      "completions/mean_terminated_length": 615.3001708984375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.653061224489797,
+      "grad_norm": 0.15106496214866638,
+      "learning_rate": 1e-06,
+      "loss": -0.0701,
+      "num_tokens": 673531235.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.11922773718833923,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 1167.3795166015625,
+      "completions/mean_terminated_length": 638.7615356445312,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 10.662390670553936,
+      "grad_norm": 0.14597447216510773,
+      "learning_rate": 1e-06,
+      "loss": -0.0917,
+      "num_tokens": 674099991.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.142221599817276,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3597.0,
+      "completions/mean_length": 1002.5926513671875,
+      "completions/mean_terminated_length": 613.9736328125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.671720116618076,
+      "grad_norm": 0.12379582226276398,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 674683306.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.10810784995555878,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2491.0,
+      "completions/mean_length": 1064.8873291015625,
+      "completions/mean_terminated_length": 527.1734619140625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.681049562682215,
+      "grad_norm": 0.15036804974079132,
+      "learning_rate": 1e-06,
+      "loss": -0.0702,
+      "num_tokens": 675183357.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.11399875581264496,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3383.0,
+      "completions/mean_length": 991.0714721679688,
+      "completions/mean_terminated_length": 578.9127807617188,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 10.690379008746355,
+      "grad_norm": 0.16261744499206543,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 675730933.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.13703972101211548,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3813.0,
+      "completions/mean_length": 1006.8426513671875,
+      "completions/mean_terminated_length": 587.907470703125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 10.699708454810496,
+      "grad_norm": 0.14799970388412476,
+      "learning_rate": 1e-06,
+      "loss": -0.0774,
+      "num_tokens": 676283848.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1342620700597763,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 967.732177734375,
+      "completions/mean_terminated_length": 601.0773315429688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.709037900874636,
+      "grad_norm": 0.1432398110628128,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 676847608.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.13080044090747833,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 1041.482177734375,
+      "completions/mean_terminated_length": 600.6641235351562,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 10.718367346938775,
+      "grad_norm": 0.1304580718278885,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 677407608.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.13511762022972107,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 977.01123046875,
+      "completions/mean_terminated_length": 620.1119384765625,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 10.727696793002915,
+      "grad_norm": 0.15389768779277802,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 677991866.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12459757179021835,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3330.0,
+      "completions/mean_length": 926.8192138671875,
+      "completions/mean_terminated_length": 624.6234741210938,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.737026239067056,
+      "grad_norm": 0.1426958441734314,
+      "learning_rate": 1e-06,
+      "loss": -0.067,
+      "num_tokens": 678588336.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.13778789341449738,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2925.0,
+      "completions/mean_length": 1102.0335693359375,
+      "completions/mean_terminated_length": 621.1372680664062,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.746355685131196,
+      "grad_norm": 0.1610199213027954,
+      "learning_rate": 1e-06,
+      "loss": -0.1098,
+      "num_tokens": 679159134.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1904703974723816,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2655.0,
+      "completions/mean_length": 1085.9320068359375,
+      "completions/mean_terminated_length": 606.9689331054688,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 10.755685131195335,
+      "grad_norm": 0.14890161156654358,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 679718841.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.14966341853141785,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 1151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1752232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2878.0,
+      "completions/mean_length": 1217.3695068359375,
+      "completions/mean_terminated_length": 605.8064575195312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 10.765014577259475,
+      "grad_norm": 0.162293940782547,
+      "learning_rate": 1e-06,
+      "loss": -0.1113,
+      "num_tokens": 680260452.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1647316813468933,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 1152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 959.9676513671875,
+      "completions/mean_terminated_length": 592.4027709960938,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 10.774344023323614,
+      "grad_norm": 0.1541632115840912,
+      "learning_rate": 1e-06,
+      "loss": -0.0745,
+      "num_tokens": 680826975.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.1325695961713791,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3916.0,
+      "completions/mean_length": 957.4609985351562,
+      "completions/mean_terminated_length": 593.9688720703125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.783673469387756,
+      "grad_norm": 0.14813178777694702,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 681392332.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.13876289129257202,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2717.0,
+      "completions/mean_length": 925.3638916015625,
+      "completions/mean_terminated_length": 588.7283935546875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.793002915451895,
+      "grad_norm": 0.14858478307724,
+      "learning_rate": 1e-06,
+      "loss": -0.0287,
+      "num_tokens": 681956506.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.14045536518096924,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2685.0,
+      "completions/mean_length": 1002.50341796875,
+      "completions/mean_terminated_length": 596.28662109375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 10.802332361516035,
+      "grad_norm": 0.14092624187469482,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 682519629.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.12681996822357178,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 993.2656860351562,
+      "completions/mean_terminated_length": 572.4891967773438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 10.811661807580174,
+      "grad_norm": 0.16126419603824615,
+      "learning_rate": 1e-06,
+      "loss": -0.0352,
+      "num_tokens": 683069843.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1329386979341507,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2845.0,
+      "completions/mean_length": 977.83935546875,
+      "completions/mean_terminated_length": 586.1105346679688,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 10.820991253644316,
+      "grad_norm": 0.1482193022966385,
+      "learning_rate": 1e-06,
+      "loss": -0.0494,
+      "num_tokens": 683626171.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11783835291862488,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 794.7991333007812,
+      "completions/mean_terminated_length": 549.3861083984375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.830320699708455,
+      "grad_norm": 0.152037113904953,
+      "learning_rate": 1e-06,
+      "loss": -0.0661,
+      "num_tokens": 684169511.0,
+      "reward": 0.7734375596046448,
+      "reward_std": 0.1475943922996521,
+      "rewards/verify_math_reward/mean": 0.7734375,
+      "rewards/verify_math_reward/std": 0.4188409447669983,
+      "step": 1159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3332.0,
+      "completions/mean_length": 1098.657470703125,
+      "completions/mean_terminated_length": 589.969970703125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 10.839650145772595,
+      "grad_norm": 0.16387182474136353,
+      "learning_rate": 1e-06,
+      "loss": -0.0781,
+      "num_tokens": 684715236.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16558973491191864,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 1160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3907.0,
+      "completions/mean_length": 898.0881958007812,
+      "completions/mean_terminated_length": 567.2697143554688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.848979591836734,
+      "grad_norm": 0.16958512365818024,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 685257907.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.14556558430194855,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4016.0,
+      "completions/mean_length": 902.2332763671875,
+      "completions/mean_terminated_length": 610.4762573242188,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 10.858309037900874,
+      "grad_norm": 0.14481863379478455,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 685846732.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.14730015397071838,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3430.0,
+      "completions/mean_length": 819.0145263671875,
+      "completions/mean_terminated_length": 554.1676635742188,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 10.867638483965015,
+      "grad_norm": 0.1555619090795517,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 686395817.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.14966341853141785,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3898.0,
+      "completions/mean_length": 1159.421875,
+      "completions/mean_terminated_length": 611.0013427734375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.876967930029155,
+      "grad_norm": 0.15758249163627625,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 686939459.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1626587212085724,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 1164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2749.0,
+      "completions/mean_length": 1000.9598388671875,
+      "completions/mean_terminated_length": 549.7647094726562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.886297376093294,
+      "grad_norm": 0.15486952662467957,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 687454591.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.11032096296548843,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3211.0,
+      "completions/mean_length": 1010.0670166015625,
+      "completions/mean_terminated_length": 582.6632690429688,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 10.895626822157434,
+      "grad_norm": 0.18233704566955566,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 688001619.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.1368447095155716,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2702.0,
+      "completions/mean_length": 1012.4386596679688,
+      "completions/mean_terminated_length": 567.4290771484375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 10.904956268221575,
+      "grad_norm": 0.14485375583171844,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 688533764.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.10926900058984756,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2201.0,
+      "completions/mean_length": 978.8995971679688,
+      "completions/mean_terminated_length": 501.50579833984375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.914285714285715,
+      "grad_norm": 0.1333228200674057,
+      "learning_rate": 1e-06,
+      "loss": -0.0523,
+      "num_tokens": 689015186.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.0942763164639473,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3510.0,
+      "completions/mean_length": 1227.2523193359375,
+      "completions/mean_terminated_length": 682.4568481445312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.923615160349854,
+      "grad_norm": 0.15539956092834473,
+      "learning_rate": 1e-06,
+      "loss": -0.0836,
+      "num_tokens": 689615172.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.17874544858932495,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 1169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2996.0,
+      "completions/mean_length": 964.0714721679688,
+      "completions/mean_terminated_length": 557.2761840820312,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 10.932944606413994,
+      "grad_norm": 0.1751089245080948,
+      "learning_rate": 1e-06,
+      "loss": -0.0787,
+      "num_tokens": 690148340.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.17464762926101685,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3278.0,
+      "completions/mean_length": 1067.4788818359375,
+      "completions/mean_terminated_length": 603.6512451171875,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 10.942274052478133,
+      "grad_norm": 0.153433158993721,
+      "learning_rate": 1e-06,
+      "loss": -0.0681,
+      "num_tokens": 690713801.0,
+      "reward": 0.5859375,
+      "reward_std": 0.16037100553512573,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 1171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3570.0,
+      "completions/mean_length": 1132.790283203125,
+      "completions/mean_terminated_length": 661.2833251953125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 10.951603498542275,
+      "grad_norm": 0.13235421478748322,
+      "learning_rate": 1e-06,
+      "loss": -0.0647,
+      "num_tokens": 691315357.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.13659071922302246,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3669.0,
+      "completions/mean_length": 1080.087158203125,
+      "completions/mean_terminated_length": 658.0126953125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 10.960932944606414,
+      "grad_norm": 0.17141176760196686,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 691914083.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1681494265794754,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3734.0,
+      "completions/mean_length": 1016.8449096679688,
+      "completions/mean_terminated_length": 616.9041748046875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 10.970262390670554,
+      "grad_norm": 0.15656226873397827,
+      "learning_rate": 1e-06,
+      "loss": -0.0512,
+      "num_tokens": 692488704.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.12294856458902359,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 1174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3043.0,
+      "completions/mean_length": 865.8516235351562,
+      "completions/mean_terminated_length": 592.1101684570312,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 10.979591836734693,
+      "grad_norm": 0.14476443827152252,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 693070787.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.1454133540391922,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3835.0,
+      "completions/mean_length": 962.5402221679688,
+      "completions/mean_terminated_length": 608.322998046875,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 10.988921282798835,
+      "grad_norm": 0.1381600797176361,
+      "learning_rate": 1e-06,
+      "loss": -0.0728,
+      "num_tokens": 693650367.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.14553029835224152,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.11647727272727271,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2684.0,
+      "completions/mean_length": 1063.375,
+      "completions/mean_terminated_length": 663.5755615234375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.998250728862974,
+      "grad_norm": 0.14036379754543304,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 694221257.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.11836080253124237,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 1177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 1020.8326416015625,
+      "completions/mean_terminated_length": 647.5018920898438,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 11.00932944606414,
+      "grad_norm": 0.15750440955162048,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 694832307.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.14876440167427063,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3029.0,
+      "completions/mean_length": 1144.9989013671875,
+      "completions/mean_terminated_length": 688.6585083007812,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 11.018658892128279,
+      "grad_norm": 0.14614486694335938,
+      "learning_rate": 1e-06,
+      "loss": -0.0434,
+      "num_tokens": 695458178.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1377551257610321,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2308.0,
+      "completions/mean_length": 1016.6685791015625,
+      "completions/mean_terminated_length": 563.245849609375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 11.02798833819242,
+      "grad_norm": 0.17202715575695038,
+      "learning_rate": 1e-06,
+      "loss": -0.0939,
+      "num_tokens": 695979441.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1751040816307068,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3305.0,
+      "completions/mean_length": 1011.4085083007812,
+      "completions/mean_terminated_length": 579.72265625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 11.03731778425656,
+      "grad_norm": 0.1744828224182129,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 696521255.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.19182203710079193,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 1013.9542846679688,
+      "completions/mean_terminated_length": 626.7625732421875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.0466472303207,
+      "grad_norm": 0.16108720004558563,
+      "learning_rate": 1e-06,
+      "loss": -0.0679,
+      "num_tokens": 697106622.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.1451530158519745,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 939.6183471679688,
+      "completions/mean_terminated_length": 613.0960693359375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.055976676384839,
+      "grad_norm": 0.12822826206684113,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 697693840.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.11381399631500244,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2811.0,
+      "completions/mean_length": 1046.766845703125,
+      "completions/mean_terminated_length": 628.8515014648438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.06530612244898,
+      "grad_norm": 0.14602269232273102,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 698285311.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.14771203696727753,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3158.0,
+      "completions/mean_length": 1098.110595703125,
+      "completions/mean_terminated_length": 607.5467529296875,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 11.07463556851312,
+      "grad_norm": 0.1648271530866623,
+      "learning_rate": 1e-06,
+      "loss": -0.0892,
+      "num_tokens": 698842674.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1681487113237381,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2911.0,
+      "completions/mean_length": 1121.610595703125,
+      "completions/mean_terminated_length": 625.87890625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.08396501457726,
+      "grad_norm": 0.16297124326229095,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 699418277.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.13568425178527832,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 1003.6842041015625,
+      "completions/mean_terminated_length": 570.9172973632812,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 11.093294460641399,
+      "grad_norm": 0.14411231875419617,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 699960090.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.14176806807518005,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2534.0,
+      "completions/mean_length": 1062.0145263671875,
+      "completions/mean_terminated_length": 628.5880126953125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.102623906705539,
+      "grad_norm": 0.15576989948749542,
+      "learning_rate": 1e-06,
+      "loss": -0.066,
+      "num_tokens": 700552911.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.15331050753593445,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2376.0,
+      "completions/mean_length": 963.1495971679688,
+      "completions/mean_terminated_length": 556.2345581054688,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.11195335276968,
+      "grad_norm": 0.13737371563911438,
+      "learning_rate": 1e-06,
+      "loss": -0.045,
+      "num_tokens": 701069349.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.11426975578069687,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1852678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3818.0,
+      "completions/mean_length": 1250.52685546875,
+      "completions/mean_terminated_length": 603.4739990234375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.12128279883382,
+      "grad_norm": 0.1470501869916916,
+      "learning_rate": 1e-06,
+      "loss": -0.0791,
+      "num_tokens": 701604661.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1184028759598732,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3439.0,
+      "completions/mean_length": 1024.1060791015625,
+      "completions/mean_terminated_length": 567.26025390625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.130612244897959,
+      "grad_norm": 0.146786168217659,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 702124196.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.09950529038906097,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 1142.96875,
+      "completions/mean_terminated_length": 664.2023315429688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.139941690962099,
+      "grad_norm": 0.135858952999115,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 702739328.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.1335441768169403,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 1192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2813.0,
+      "completions/mean_length": 1016.091552734375,
+      "completions/mean_terminated_length": 602.8379516601562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 11.14927113702624,
+      "grad_norm": 0.1672326922416687,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 703299594.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.16044698655605316,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2147.0,
+      "completions/mean_length": 964.2545166015625,
+      "completions/mean_terminated_length": 561.9395141601562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.15860058309038,
+      "grad_norm": 0.15635710954666138,
+      "learning_rate": 1e-06,
+      "loss": -0.0866,
+      "num_tokens": 703830270.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.15094542503356934,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3841.0,
+      "completions/mean_length": 989.029052734375,
+      "completions/mean_terminated_length": 581.0429077148438,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 11.167930029154519,
+      "grad_norm": 0.16447122395038605,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 704392424.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1384693682193756,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.46896928548812866,
+      "step": 1195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3838.0,
+      "completions/mean_length": 1072.443115234375,
+      "completions/mean_terminated_length": 609.3757934570312,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 11.177259475218658,
+      "grad_norm": 0.18577629327774048,
+      "learning_rate": 1e-06,
+      "loss": -0.0665,
+      "num_tokens": 704944653.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.16022199392318726,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2636.0,
+      "completions/mean_length": 865.2355346679688,
+      "completions/mean_terminated_length": 557.16748046875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.186588921282798,
+      "grad_norm": 0.17470259964466095,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 705487072.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.14887316524982452,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2983.0,
+      "completions/mean_length": 998.9453735351562,
+      "completions/mean_terminated_length": 592.2613525390625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 11.19591836734694,
+      "grad_norm": 0.1412266492843628,
+      "learning_rate": 1e-06,
+      "loss": -0.0332,
+      "num_tokens": 706040559.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.11265213787555695,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3100.0,
+      "completions/mean_length": 1081.765625,
+      "completions/mean_terminated_length": 565.6026611328125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.205247813411079,
+      "grad_norm": 0.14826829731464386,
+      "learning_rate": 1e-06,
+      "loss": -0.0735,
+      "num_tokens": 706568957.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1247912049293518,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 993.5592041015625,
+      "completions/mean_terminated_length": 621.2662353515625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.214577259475218,
+      "grad_norm": 0.16074644029140472,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 707161178.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.15480755269527435,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3452.0,
+      "completions/mean_length": 983.92529296875,
+      "completions/mean_terminated_length": 597.3563232421875,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.223906705539358,
+      "grad_norm": 0.14656543731689453,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 707719967.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.128467857837677,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3800.0,
+      "completions/mean_length": 962.7879638671875,
+      "completions/mean_terminated_length": 621.5469970703125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 11.2332361516035,
+      "grad_norm": 0.13340365886688232,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 708309265.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.10626452416181564,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131773710250854,
+      "step": 1202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2833.0,
+      "completions/mean_length": 1011.8348388671875,
+      "completions/mean_terminated_length": 557.7003784179688,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 11.242565597667639,
+      "grad_norm": 0.1607799530029297,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 708831261.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.1385025829076767,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2409.0,
+      "completions/mean_length": 912.1975708007812,
+      "completions/mean_terminated_length": 582.8386840820312,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.251895043731778,
+      "grad_norm": 0.14539699256420135,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 709397678.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.13752618432044983,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3790.0,
+      "completions/mean_length": 1107.640625,
+      "completions/mean_terminated_length": 627.6450805664062,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 11.261224489795918,
+      "grad_norm": 0.14058206975460052,
+      "learning_rate": 1e-06,
+      "loss": -0.0318,
+      "num_tokens": 709991780.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.11945343762636185,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 1205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3225.0,
+      "completions/mean_length": 902.318115234375,
+      "completions/mean_terminated_length": 519.0762329101562,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 11.270553935860057,
+      "grad_norm": 0.15452228486537933,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 710497977.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.13316510617733002,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3253.0,
+      "completions/mean_length": 898.708740234375,
+      "completions/mean_terminated_length": 602.3743896484375,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 11.279883381924199,
+      "grad_norm": 0.1408669352531433,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 711078052.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.149252250790596,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2679.0,
+      "completions/mean_length": 984.239990234375,
+      "completions/mean_terminated_length": 602.093994140625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.289212827988338,
+      "grad_norm": 0.13973675668239594,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 711651491.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1270350068807602,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3328.0,
+      "completions/mean_length": 916.49560546875,
+      "completions/mean_terminated_length": 557.0733032226562,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 11.298542274052478,
+      "grad_norm": 0.12469842284917831,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 712187623.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1112217977643013,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3896.0,
+      "completions/mean_length": 850.0089721679688,
+      "completions/mean_terminated_length": 540.489013671875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.307871720116617,
+      "grad_norm": 0.1457255333662033,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 712708999.0,
+      "reward": 0.7712053656578064,
+      "reward_std": 0.11295635998249054,
+      "rewards/verify_math_reward/mean": 0.7712053656578064,
+      "rewards/verify_math_reward/std": 0.42029133439064026,
+      "step": 1210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3227.0,
+      "completions/mean_length": 1164.90625,
+      "completions/mean_terminated_length": 640.394775390625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.317201166180759,
+      "grad_norm": 0.15248100459575653,
+      "learning_rate": 1e-06,
+      "loss": -0.0623,
+      "num_tokens": 713295915.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.1587570458650589,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 993.23779296875,
+      "completions/mean_terminated_length": 567.9860229492188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.326530612244898,
+      "grad_norm": 0.17671267688274384,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 713829992.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13767842948436737,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2544.0,
+      "completions/mean_length": 941.552490234375,
+      "completions/mean_terminated_length": 540.7987060546875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.335860058309038,
+      "grad_norm": 0.13897483050823212,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 714337255.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.09912622720003128,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2753.0,
+      "completions/mean_length": 1007.0714721679688,
+      "completions/mean_terminated_length": 556.7672729492188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 11.345189504373177,
+      "grad_norm": 0.1880517154932022,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 714860863.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.13831782341003418,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2321.0,
+      "completions/mean_length": 981.19091796875,
+      "completions/mean_terminated_length": 616.1134643554688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.354518950437317,
+      "grad_norm": 0.16923686861991882,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 715449442.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.15661627054214478,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3942.0,
+      "completions/mean_length": 1144.2467041015625,
+      "completions/mean_terminated_length": 611.4532470703125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 11.363848396501458,
+      "grad_norm": 0.15719284117221832,
+      "learning_rate": 1e-06,
+      "loss": -0.0258,
+      "num_tokens": 715995359.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.13406704366207123,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3627.0,
+      "completions/mean_length": 1046.896240234375,
+      "completions/mean_terminated_length": 575.3853149414062,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 11.373177842565598,
+      "grad_norm": 0.1701359897851944,
+      "learning_rate": 1e-06,
+      "loss": -0.0586,
+      "num_tokens": 716542106.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.14199630916118622,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2889.0,
+      "completions/mean_length": 984.2723388671875,
+      "completions/mean_terminated_length": 597.7465209960938,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 11.382507288629737,
+      "grad_norm": 0.1496564745903015,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 717113526.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.13106076419353485,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2849.0,
+      "completions/mean_length": 911.59716796875,
+      "completions/mean_terminated_length": 564.7809448242188,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 11.391836734693877,
+      "grad_norm": 0.16429300606250763,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 717659893.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1475936770439148,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3114.0,
+      "completions/mean_length": 969.0714721679688,
+      "completions/mean_terminated_length": 585.0626831054688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.401166180758018,
+      "grad_norm": 0.15202312171459198,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 718214677.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1448908895254135,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 1104.579345703125,
+      "completions/mean_terminated_length": 619.5888671875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.410495626822158,
+      "grad_norm": 0.1416786164045334,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 718774780.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12287048995494843,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2610.0,
+      "completions/mean_length": 966.2545166015625,
+      "completions/mean_terminated_length": 625.3910522460938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 11.419825072886297,
+      "grad_norm": 0.15622742474079132,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 719367488.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.15300628542900085,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3642.0,
+      "completions/mean_length": 1031.6373291015625,
+      "completions/mean_terminated_length": 668.198486328125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.429154518950437,
+      "grad_norm": 0.1766078770160675,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 719982819.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.15905943512916565,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2454.0,
+      "completions/mean_length": 873.4710083007812,
+      "completions/mean_terminated_length": 548.8427124023438,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 11.438483965014576,
+      "grad_norm": 0.1429998129606247,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 720513721.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.1049504205584526,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3157.0,
+      "completions/mean_length": 1134.4285888671875,
+      "completions/mean_terminated_length": 636.3285522460938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.447813411078718,
+      "grad_norm": 0.1509985327720642,
+      "learning_rate": 1e-06,
+      "loss": -0.0458,
+      "num_tokens": 721093745.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.131517231464386,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3144.0,
+      "completions/mean_length": 1034.74560546875,
+      "completions/mean_terminated_length": 592.9552612304688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 11.457142857142857,
+      "grad_norm": 0.14548541605472565,
+      "learning_rate": 1e-06,
+      "loss": -0.0839,
+      "num_tokens": 721634445.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1414317786693573,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3006.0,
+      "completions/mean_length": 994.5313110351562,
+      "completions/mean_terminated_length": 555.9796142578125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.466472303206997,
+      "grad_norm": 0.17421141266822815,
+      "learning_rate": 1e-06,
+      "loss": -0.0666,
+      "num_tokens": 722152897.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.15469878911972046,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3726.0,
+      "completions/mean_length": 1047.0234375,
+      "completions/mean_terminated_length": 589.0899047851562,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.475801749271136,
+      "grad_norm": 0.17102757096290588,
+      "learning_rate": 1e-06,
+      "loss": -0.0728,
+      "num_tokens": 722696398.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.16277816891670227,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2746.0,
+      "completions/mean_length": 990.255615234375,
+      "completions/mean_terminated_length": 546.5778198242188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 11.485131195335278,
+      "grad_norm": 0.14747671782970428,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 723196987.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.12471381574869156,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3971.0,
+      "completions/mean_length": 1067.454345703125,
+      "completions/mean_terminated_length": 621.5095825195312,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 11.494460641399417,
+      "grad_norm": 0.17116190493106842,
+      "learning_rate": 1e-06,
+      "loss": -0.0868,
+      "num_tokens": 723774242.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.1933586299419403,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3791.0,
+      "completions/mean_length": 1072.5570068359375,
+      "completions/mean_terminated_length": 600.5097045898438,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 11.503790087463557,
+      "grad_norm": 0.16753843426704407,
+      "learning_rate": 1e-06,
+      "loss": -0.085,
+      "num_tokens": 724332901.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1647641658782959,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3600.0,
+      "completions/mean_length": 923.2344360351562,
+      "completions/mean_terminated_length": 603.619140625,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 11.513119533527696,
+      "grad_norm": 0.14656352996826172,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 724915543.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.11866389214992523,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3952.0,
+      "completions/mean_length": 997.29248046875,
+      "completions/mean_terminated_length": 585.9595947265625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 11.522448979591836,
+      "grad_norm": 0.13994833827018738,
+      "learning_rate": 1e-06,
+      "loss": -0.059,
+      "num_tokens": 725461477.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.12918464839458466,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 1067.76123046875,
+      "completions/mean_terminated_length": 630.735595703125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 11.531778425655977,
+      "grad_norm": 0.14088860154151917,
+      "learning_rate": 1e-06,
+      "loss": -0.0723,
+      "num_tokens": 726046823.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13185352087020874,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1551339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3166.0,
+      "completions/mean_length": 1185.0234375,
+      "completions/mean_terminated_length": 650.51123046875,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 11.541107871720117,
+      "grad_norm": 0.15262410044670105,
+      "learning_rate": 1e-06,
+      "loss": -0.0804,
+      "num_tokens": 726627388.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.15916889905929565,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909069061279297,
+      "step": 1235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3667.0,
+      "completions/mean_length": 1134.5513916015625,
+      "completions/mean_terminated_length": 618.3355102539062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.550437317784256,
+      "grad_norm": 0.16433238983154297,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 727183410.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12538963556289673,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1674107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3244.0,
+      "completions/mean_length": 1191.3739013671875,
+      "completions/mean_terminated_length": 607.3338012695312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 11.559766763848396,
+      "grad_norm": 0.18279282748699188,
+      "learning_rate": 1e-06,
+      "loss": -0.0829,
+      "num_tokens": 727741529.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17021138966083527,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2878.0,
+      "completions/mean_length": 1037.607177734375,
+      "completions/mean_terminated_length": 644.71533203125,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 11.569096209912537,
+      "grad_norm": 0.1803968995809555,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 728341633.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1692771017551422,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 928.6016235351562,
+      "completions/mean_terminated_length": 583.6373901367188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.578425655976677,
+      "grad_norm": 0.11708416789770126,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 728900660.0,
+      "reward": 0.7566964626312256,
+      "reward_std": 0.09754250943660736,
+      "rewards/verify_math_reward/mean": 0.7566964030265808,
+      "rewards/verify_math_reward/std": 0.4293164908885956,
+      "step": 1239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2527.0,
+      "completions/mean_length": 1066.9654541015625,
+      "completions/mean_terminated_length": 562.1263427734375,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.587755102040816,
+      "grad_norm": 0.15569400787353516,
+      "learning_rate": 1e-06,
+      "loss": -0.0642,
+      "num_tokens": 729426725.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.13023591041564941,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2353.0,
+      "completions/mean_length": 1094.4129638671875,
+      "completions/mean_terminated_length": 585.0052490234375,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 11.597084548104956,
+      "grad_norm": 0.18812379240989685,
+      "learning_rate": 1e-06,
+      "loss": -0.0909,
+      "num_tokens": 729980007.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.16255316138267517,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 1241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3338.0,
+      "completions/mean_length": 1021.4263916015625,
+      "completions/mean_terminated_length": 626.4558715820312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.606413994169095,
+      "grad_norm": 0.17050611972808838,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 730579893.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.14578990638256073,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 1242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2892.0,
+      "completions/mean_length": 1010.458740234375,
+      "completions/mean_terminated_length": 609.6885375976562,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.615743440233237,
+      "grad_norm": 0.15167243778705597,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 731151936.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.11622254550457001,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2661.0,
+      "completions/mean_length": 921.7857666015625,
+      "completions/mean_terminated_length": 576.0792236328125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 11.625072886297376,
+      "grad_norm": 0.15372061729431152,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 731705616.0,
+      "reward": 0.7712053656578064,
+      "reward_std": 0.11080951988697052,
+      "rewards/verify_math_reward/mean": 0.7712053656578064,
+      "rewards/verify_math_reward/std": 0.42029133439064026,
+      "step": 1244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3713.0,
+      "completions/mean_length": 1012.03466796875,
+      "completions/mean_terminated_length": 607.0694580078125,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 11.634402332361516,
+      "grad_norm": 0.16829776763916016,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 732274087.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.15988247096538544,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3484.0,
+      "completions/mean_length": 1112.146240234375,
+      "completions/mean_terminated_length": 601.1856689453125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 11.643731778425655,
+      "grad_norm": 0.1765514463186264,
+      "learning_rate": 1e-06,
+      "loss": -0.1198,
+      "num_tokens": 732822338.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.17330214381217957,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3251.0,
+      "completions/mean_length": 1039.438720703125,
+      "completions/mean_terminated_length": 566.7744750976562,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.653061224489797,
+      "grad_norm": 0.16878652572631836,
+      "learning_rate": 1e-06,
+      "loss": -0.1062,
+      "num_tokens": 733351339.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.15319105982780457,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2482.0,
+      "completions/mean_length": 1099.396240234375,
+      "completions/mean_terminated_length": 581.6583862304688,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.662390670553936,
+      "grad_norm": 0.15502163767814636,
+      "learning_rate": 1e-06,
+      "loss": -0.0705,
+      "num_tokens": 733875838.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.11956290900707245,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 1128.11279296875,
+      "completions/mean_terminated_length": 606.2008056640625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.671720116618076,
+      "grad_norm": 0.16884633898735046,
+      "learning_rate": 1e-06,
+      "loss": -0.0851,
+      "num_tokens": 734422347.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.18445299565792084,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2906.0,
+      "completions/mean_length": 1043.91748046875,
+      "completions/mean_terminated_length": 590.0179443359375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.681049562682215,
+      "grad_norm": 0.1654636710882187,
+      "learning_rate": 1e-06,
+      "loss": -0.0715,
+      "num_tokens": 734974233.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1471799910068512,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3587.0,
+      "completions/mean_length": 1092.6395263671875,
+      "completions/mean_terminated_length": 663.5880126953125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.690379008746355,
+      "grad_norm": 0.1492314338684082,
+      "learning_rate": 1e-06,
+      "loss": -0.066,
+      "num_tokens": 735586478.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14943771064281464,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2584.0,
+      "completions/mean_length": 954.161865234375,
+      "completions/mean_terminated_length": 568.322021484375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.699708454810496,
+      "grad_norm": 0.14329566061496735,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 736136439.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.11712156236171722,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 1067.9163818359375,
+      "completions/mean_terminated_length": 630.9131469726562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.709037900874636,
+      "grad_norm": 0.1440056562423706,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 736717372.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.13084320724010468,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2638.0,
+      "completions/mean_length": 1112.9085693359375,
+      "completions/mean_terminated_length": 592.9200439453125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.718367346938775,
+      "grad_norm": 0.1666734665632248,
+      "learning_rate": 1e-06,
+      "loss": -0.0846,
+      "num_tokens": 737259362.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.15056565403938293,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1819196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 1244.3951416015625,
+      "completions/mean_terminated_length": 610.2728271484375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 11.727696793002915,
+      "grad_norm": 0.1752176135778427,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 737801804.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16213765740394592,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2908.0,
+      "completions/mean_length": 947.9475708007812,
+      "completions/mean_terminated_length": 592.0807495117188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 11.737026239067056,
+      "grad_norm": 0.14963215589523315,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 738370461.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.11727311462163925,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3767.0,
+      "completions/mean_length": 1003.6038208007812,
+      "completions/mean_terminated_length": 628.1814575195312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.746355685131196,
+      "grad_norm": 0.14419062435626984,
+      "learning_rate": 1e-06,
+      "loss": -0.0545,
+      "num_tokens": 738963226.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1432323157787323,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1662946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3549.0,
+      "completions/mean_length": 1175.9285888671875,
+      "completions/mean_terminated_length": 593.4779052734375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.755685131195335,
+      "grad_norm": 0.17012688517570496,
+      "learning_rate": 1e-06,
+      "loss": -0.0809,
+      "num_tokens": 739501490.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.15811441838741302,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 1258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1041.57373046875,
+      "completions/mean_terminated_length": 622.9467163085938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 11.765014577259475,
+      "grad_norm": 0.1758948713541031,
+      "learning_rate": 1e-06,
+      "loss": -0.0659,
+      "num_tokens": 740083804.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.18001748621463776,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2793.0,
+      "completions/mean_length": 877.2745971679688,
+      "completions/mean_terminated_length": 566.0391845703125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.774344023323614,
+      "grad_norm": 0.14424894750118256,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 740630498.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.11242461204528809,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2387.0,
+      "completions/mean_length": 936.068115234375,
+      "completions/mean_terminated_length": 521.1275024414062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.783673469387756,
+      "grad_norm": 0.15792350471019745,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 741126287.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.10100274533033371,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 1040.5982666015625,
+      "completions/mean_terminated_length": 549.8341674804688,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.793002915451895,
+      "grad_norm": 0.1770157814025879,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 741637063.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.14301617443561554,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 1029.35498046875,
+      "completions/mean_terminated_length": 648.4290771484375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.802332361516035,
+      "grad_norm": 0.14042982459068298,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 742239581.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.12543241679668427,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2887.0,
+      "completions/mean_length": 1012.4051513671875,
+      "completions/mean_terminated_length": 598.656982421875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.811661807580174,
+      "grad_norm": 0.1545601189136505,
+      "learning_rate": 1e-06,
+      "loss": -0.0788,
+      "num_tokens": 742799600.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.128467857837677,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3547.0,
+      "completions/mean_length": 1138.8170166015625,
+      "completions/mean_terminated_length": 632.4235229492188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.820991253644316,
+      "grad_norm": 0.16730423271656036,
+      "learning_rate": 1e-06,
+      "loss": -0.0943,
+      "num_tokens": 743372068.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.14766784012317657,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3845.0,
+      "completions/mean_length": 1004.2489013671875,
+      "completions/mean_terminated_length": 650.4664306640625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 11.830320699708455,
+      "grad_norm": 0.1589493453502655,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 743978083.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.16273538768291473,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 1031.3671875,
+      "completions/mean_terminated_length": 606.91357421875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 11.839650145772595,
+      "grad_norm": 0.16469897329807281,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 744548116.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12756884098052979,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 950.56591796875,
+      "completions/mean_terminated_length": 590.6405639648438,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.848979591836734,
+      "grad_norm": 0.1767946034669876,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 745126039.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.17900757491588593,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3578.0,
+      "completions/mean_length": 945.72216796875,
+      "completions/mean_terminated_length": 563.2728271484375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.858309037900874,
+      "grad_norm": 0.16459469497203827,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 745664062.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14586980640888214,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2285.0,
+      "completions/mean_length": 889.2210083007812,
+      "completions/mean_terminated_length": 600.5328369140625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 11.867638483965015,
+      "grad_norm": 0.18522396683692932,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 746249236.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.16179178655147552,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2763.0,
+      "completions/mean_length": 931.286865234375,
+      "completions/mean_terminated_length": 582.2664184570312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 11.876967930029155,
+      "grad_norm": 0.15078574419021606,
+      "learning_rate": 1e-06,
+      "loss": -0.0683,
+      "num_tokens": 746815525.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.12245932221412659,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3625.0,
+      "completions/mean_length": 953.3995971679688,
+      "completions/mean_terminated_length": 589.4370727539062,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 11.886297376093294,
+      "grad_norm": 0.16365188360214233,
+      "learning_rate": 1e-06,
+      "loss": -0.0768,
+      "num_tokens": 747383939.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.15781132876873016,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2704.0,
+      "completions/mean_length": 1130.805908203125,
+      "completions/mean_terminated_length": 627.5744018554688,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 11.895626822157434,
+      "grad_norm": 0.15552617609500885,
+      "learning_rate": 1e-06,
+      "loss": -0.0909,
+      "num_tokens": 747953341.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.13996753096580505,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 1273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 1100.610595703125,
+      "completions/mean_terminated_length": 655.142333984375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 11.904956268221575,
+      "grad_norm": 0.16665425896644592,
+      "learning_rate": 1e-06,
+      "loss": -0.0535,
+      "num_tokens": 748553680.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.15297240018844604,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 1183.44873046875,
+      "completions/mean_terminated_length": 666.7673950195312,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 11.914285714285715,
+      "grad_norm": 0.16371269524097443,
+      "learning_rate": 1e-06,
+      "loss": -0.0844,
+      "num_tokens": 749152266.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15608564019203186,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3141.0,
+      "completions/mean_length": 1021.65966796875,
+      "completions/mean_terminated_length": 595.8614501953125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 11.923615160349854,
+      "grad_norm": 0.18976180255413055,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 749712889.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17836888134479523,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2850.0,
+      "completions/mean_length": 947.0201416015625,
+      "completions/mean_terminated_length": 604.0618896484375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 11.932944606413994,
+      "grad_norm": 0.18226487934589386,
+      "learning_rate": 1e-06,
+      "loss": -0.0773,
+      "num_tokens": 750291443.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.17795519530773163,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2764.0,
+      "completions/mean_length": 1127.5770263671875,
+      "completions/mean_terminated_length": 650.78369140625,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 11.942274052478133,
+      "grad_norm": 0.1681506484746933,
+      "learning_rate": 1e-06,
+      "loss": -0.0914,
+      "num_tokens": 750877864.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.164840430021286,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 1278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3972.0,
+      "completions/mean_length": 1046.89404296875,
+      "completions/mean_terminated_length": 615.7465209960938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.951603498542275,
+      "grad_norm": 0.15831658244132996,
+      "learning_rate": 1e-06,
+      "loss": -0.06,
+      "num_tokens": 751442841.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1277204006910324,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3195.0,
+      "completions/mean_length": 899.732177734375,
+      "completions/mean_terminated_length": 582.0662841796875,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 11.960932944606414,
+      "grad_norm": 0.17508095502853394,
+      "learning_rate": 1e-06,
+      "loss": -0.0801,
+      "num_tokens": 752011009.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.16491824388504028,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2870.0,
+      "completions/mean_length": 947.3136596679688,
+      "completions/mean_terminated_length": 587.0161743164062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 11.970262390670554,
+      "grad_norm": 0.16519255936145782,
+      "learning_rate": 1e-06,
+      "loss": -0.07,
+      "num_tokens": 752575138.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.1510535031557083,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2909.0,
+      "completions/mean_length": 1011.6629638671875,
+      "completions/mean_terminated_length": 628.5394897460938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.979591836734693,
+      "grad_norm": 0.1419551968574524,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 753169612.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.141472727060318,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3548.0,
+      "completions/mean_length": 996.5859985351562,
+      "completions/mean_terminated_length": 633.31298828125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 11.988921282798835,
+      "grad_norm": 0.1388169378042221,
+      "learning_rate": 1e-06,
+      "loss": -0.0646,
+      "num_tokens": 753770721.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1377211958169937,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.13636363636363635,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2563.0,
+      "completions/mean_length": 1066.3409423828125,
+      "completions/mean_terminated_length": 587.9736938476562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 11.998250728862974,
+      "grad_norm": 0.15468640625476837,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 754336241.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14571574330329895,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 999.4319458007812,
+      "completions/mean_terminated_length": 561.5732421875,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.00932944606414,
+      "grad_norm": 0.16018709540367126,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 754864572.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1332090049982071,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 1285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3843.0,
+      "completions/mean_length": 1053.4554443359375,
+      "completions/mean_terminated_length": 596.48779296875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 12.018658892128279,
+      "grad_norm": 0.14922991394996643,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 755417316.0,
+      "reward": 0.6640625,
+      "reward_std": 0.12343642860651016,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2513.0,
+      "completions/mean_length": 981.5167846679688,
+      "completions/mean_terminated_length": 581.4193725585938,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 12.02798833819242,
+      "grad_norm": 0.17613713443279266,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 755970331.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.1424509584903717,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3031.0,
+      "completions/mean_length": 913.63623046875,
+      "completions/mean_terminated_length": 597.3521728515625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.03731778425656,
+      "grad_norm": 0.14524930715560913,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 756545493.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.1368108093738556,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3689.0,
+      "completions/mean_length": 906.9185791015625,
+      "completions/mean_terminated_length": 581.3419189453125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.0466472303207,
+      "grad_norm": 0.15215623378753662,
+      "learning_rate": 1e-06,
+      "loss": -0.0603,
+      "num_tokens": 757096060.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.13110284507274628,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3803.0,
+      "completions/mean_length": 1000.6964721679688,
+      "completions/mean_terminated_length": 598.6582641601562,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 12.055976676384839,
+      "grad_norm": 0.1543106883764267,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 757657388.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.13203828036785126,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3465.0,
+      "completions/mean_length": 944.0636596679688,
+      "completions/mean_terminated_length": 583.394287109375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.06530612244898,
+      "grad_norm": 0.14733773469924927,
+      "learning_rate": 1e-06,
+      "loss": -0.0334,
+      "num_tokens": 758217045.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11611196398735046,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2882.0,
+      "completions/mean_length": 986.3605346679688,
+      "completions/mean_terminated_length": 586.8853759765625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 12.07463556851312,
+      "grad_norm": 0.1351013332605362,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 758777568.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.12459687143564224,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3057.0,
+      "completions/mean_length": 1018.24560546875,
+      "completions/mean_terminated_length": 635.9397583007812,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 12.08396501457726,
+      "grad_norm": 0.15032874047756195,
+      "learning_rate": 1e-06,
+      "loss": -0.045,
+      "num_tokens": 759374668.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13437014818191528,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2206.0,
+      "completions/mean_length": 1071.5201416015625,
+      "completions/mean_terminated_length": 621.7256469726562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.093294460641399,
+      "grad_norm": 0.1823098212480545,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 759954062.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1744614690542221,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3477.0,
+      "completions/mean_length": 1049.22216796875,
+      "completions/mean_terminated_length": 631.6433715820312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 12.102623906705539,
+      "grad_norm": 0.1675415188074112,
+      "learning_rate": 1e-06,
+      "loss": -0.0632,
+      "num_tokens": 760544501.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1587563306093216,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3533.0,
+      "completions/mean_length": 987.1719360351562,
+      "completions/mean_terminated_length": 583.3770751953125,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.11195335276968,
+      "grad_norm": 0.13941673934459686,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 761090199.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.10934386402368546,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2820.0,
+      "completions/mean_length": 914.568115234375,
+      "completions/mean_terminated_length": 615.4591064453125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 12.12128279883382,
+      "grad_norm": 0.15313217043876648,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 761680364.0,
+      "reward": 0.7377232313156128,
+      "reward_std": 0.1338074505329132,
+      "rewards/verify_math_reward/mean": 0.7377232313156128,
+      "rewards/verify_math_reward/std": 0.4401180148124695,
+      "step": 1297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3182.0,
+      "completions/mean_length": 1076.3348388671875,
+      "completions/mean_terminated_length": 622.8035888671875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 12.130612244897959,
+      "grad_norm": 0.15633031725883484,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 762259064.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.11757691204547882,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3224.0,
+      "completions/mean_length": 823.0033569335938,
+      "completions/mean_terminated_length": 562.740966796875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 12.139941690962099,
+      "grad_norm": 0.18286950886249542,
+      "learning_rate": 1e-06,
+      "loss": -0.0631,
+      "num_tokens": 762811459.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.1469210684299469,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2416.0,
+      "completions/mean_length": 1119.755615234375,
+      "completions/mean_terminated_length": 632.7337646484375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 12.14927113702624,
+      "grad_norm": 0.16507063806056976,
+      "learning_rate": 1e-06,
+      "loss": -0.1039,
+      "num_tokens": 763398656.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.15698787569999695,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 856.9955444335938,
+      "completions/mean_terminated_length": 561.1060180664062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.15860058309038,
+      "grad_norm": 0.14617304503917694,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 763943852.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.11565802246332169,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 930.5491333007812,
+      "completions/mean_terminated_length": 590.135986328125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 12.167930029154519,
+      "grad_norm": 0.1530526876449585,
+      "learning_rate": 1e-06,
+      "loss": -0.055,
+      "num_tokens": 764511712.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.13087712228298187,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2997.0,
+      "completions/mean_length": 995.6484985351562,
+      "completions/mean_terminated_length": 561.7570190429688,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 12.177259475218658,
+      "grad_norm": 0.16424821317195892,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 765035965.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13508442044258118,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2650.0,
+      "completions/mean_length": 901.7020263671875,
+      "completions/mean_terminated_length": 531.7521362304688,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.186588921282798,
+      "grad_norm": 0.14962927997112274,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 765542642.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.0907084122300148,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3175.0,
+      "completions/mean_length": 986.279052734375,
+      "completions/mean_terminated_length": 639.0396728515625,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 12.19591836734694,
+      "grad_norm": 0.1443362981081009,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 766148404.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.11873988062143326,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2882.0,
+      "completions/mean_length": 820.3092041015625,
+      "completions/mean_terminated_length": 572.5678100585938,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 12.205247813411079,
+      "grad_norm": 0.15166939795017242,
+      "learning_rate": 1e-06,
+      "loss": -0.0266,
+      "num_tokens": 766711721.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.13778719305992126,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 1095.3795166015625,
+      "completions/mean_terminated_length": 595.2760620117188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 12.214577259475218,
+      "grad_norm": 0.1697177141904831,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 767257541.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.13575884699821472,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3567.0,
+      "completions/mean_length": 1081.71875,
+      "completions/mean_terminated_length": 620.0720825195312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.223906705539358,
+      "grad_norm": 0.1579607129096985,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 767825225.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13098590075969696,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 1048.03125,
+      "completions/mean_terminated_length": 612.6071166992188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.2332361516035,
+      "grad_norm": 0.1728459596633911,
+      "learning_rate": 1e-06,
+      "loss": -0.0487,
+      "num_tokens": 768392317.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.16349564492702484,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2244.0,
+      "completions/mean_length": 893.5881958007812,
+      "completions/mean_terminated_length": 601.0414428710938,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.242565597667639,
+      "grad_norm": 0.14819501340389252,
+      "learning_rate": 1e-06,
+      "loss": -0.0317,
+      "num_tokens": 768973044.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.1465405821800232,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3865.0,
+      "completions/mean_length": 918.0904541015625,
+      "completions/mean_terminated_length": 550.03857421875,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.251895043731778,
+      "grad_norm": 0.18584251403808594,
+      "learning_rate": 1e-06,
+      "loss": -0.0763,
+      "num_tokens": 769495069.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.16499200463294983,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2679.0,
+      "completions/mean_length": 1109.23779296875,
+      "completions/mean_terminated_length": 584.0065307617188,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 12.261224489795918,
+      "grad_norm": 0.16517263650894165,
+      "learning_rate": 1e-06,
+      "loss": -0.0918,
+      "num_tokens": 770032426.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.16525229811668396,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 1312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3460.0,
+      "completions/mean_length": 1016.3951416015625,
+      "completions/mean_terminated_length": 638.197998046875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.270553935860057,
+      "grad_norm": 0.14833539724349976,
+      "learning_rate": 1e-06,
+      "loss": -0.0656,
+      "num_tokens": 770627332.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.12700431048870087,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2367.0,
+      "completions/mean_length": 876.6596069335938,
+      "completions/mean_terminated_length": 565.36474609375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 12.279883381924199,
+      "grad_norm": 0.1626843512058258,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 771180267.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.13110394775867462,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 810.099365234375,
+      "completions/mean_terminated_length": 531.6331787109375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 12.289212827988338,
+      "grad_norm": 0.16345950961112976,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 771699612.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.13602055609226227,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3488.0,
+      "completions/mean_length": 973.94091796875,
+      "completions/mean_terminated_length": 563.9735107421875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 12.298542274052478,
+      "grad_norm": 0.14781834185123444,
+      "learning_rate": 1e-06,
+      "loss": -0.0631,
+      "num_tokens": 772238951.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.13182030618190765,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3104.0,
+      "completions/mean_length": 845.9085083007812,
+      "completions/mean_terminated_length": 612.6483154296875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.307871720116617,
+      "grad_norm": 0.1481163501739502,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 772838269.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.1413978636264801,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2480.0,
+      "completions/mean_length": 1088.271240234375,
+      "completions/mean_terminated_length": 627.6280517578125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 12.317201166180759,
+      "grad_norm": 0.1655196249485016,
+      "learning_rate": 1e-06,
+      "loss": -0.0757,
+      "num_tokens": 773425488.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15010850131511688,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 877.349365234375,
+      "completions/mean_terminated_length": 553.1117553710938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 12.326530612244898,
+      "grad_norm": 0.1632184386253357,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 773959009.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.12872818112373352,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 1046.8170166015625,
+      "completions/mean_terminated_length": 650.7692260742188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 12.335860058309038,
+      "grad_norm": 0.12957333028316498,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 774561469.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.0958935096859932,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 1166.2254638671875,
+      "completions/mean_terminated_length": 669.0052490234375,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.345189504373177,
+      "grad_norm": 0.18731240928173065,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 775158551.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.17438660562038422,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 1321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2411.0,
+      "completions/mean_length": 1006.2756958007812,
+      "completions/mean_terminated_length": 555.85546875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.354518950437317,
+      "grad_norm": 0.14855942130088806,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 775680038.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.10494930297136307,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2882.0,
+      "completions/mean_length": 996.2779541015625,
+      "completions/mean_terminated_length": 602.4767456054688,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 12.363848396501458,
+      "grad_norm": 0.1447145640850067,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 776246287.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.11712156236171722,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2814.0,
+      "completions/mean_length": 1053.1429443359375,
+      "completions/mean_terminated_length": 636.1015014648438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.373177842565598,
+      "grad_norm": 0.17528286576271057,
+      "learning_rate": 1e-06,
+      "loss": -0.0644,
+      "num_tokens": 776843631.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.17464621365070343,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 1324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3029.0,
+      "completions/mean_length": 1116.794677734375,
+      "completions/mean_terminated_length": 647.2041625976562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.382507288629737,
+      "grad_norm": 0.1563570499420166,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 777430359.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.13429346680641174,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3545.0,
+      "completions/mean_length": 1183.0982666015625,
+      "completions/mean_terminated_length": 679.822021484375,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.391836734693877,
+      "grad_norm": 0.15334337949752808,
+      "learning_rate": 1e-06,
+      "loss": -0.0786,
+      "num_tokens": 778042703.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.16206209361553192,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 1326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2700.0,
+      "completions/mean_length": 963.64404296875,
+      "completions/mean_terminated_length": 570.1318969726562,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.401166180758018,
+      "grad_norm": 0.13570497930049896,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 778575152.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12343572080135345,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 1327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2765.0,
+      "completions/mean_length": 945.27685546875,
+      "completions/mean_terminated_length": 589.1080932617188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.410495626822158,
+      "grad_norm": 0.171030193567276,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 779138576.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1475188136100769,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2268.0,
+      "completions/mean_length": 979.0547485351562,
+      "completions/mean_terminated_length": 542.8409423828125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.419825072886297,
+      "grad_norm": 0.16472549736499786,
+      "learning_rate": 1e-06,
+      "loss": -0.0565,
+      "num_tokens": 779655433.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.13527169823646545,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2762.0,
+      "completions/mean_length": 1003.1920166015625,
+      "completions/mean_terminated_length": 588.2075805664062,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 12.429154518950437,
+      "grad_norm": 0.19368857145309448,
+      "learning_rate": 1e-06,
+      "loss": -0.0818,
+      "num_tokens": 780221221.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15123644471168518,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2555.0,
+      "completions/mean_length": 977.9375610351562,
+      "completions/mean_terminated_length": 550.5888061523438,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 12.438483965014576,
+      "grad_norm": 0.16014425456523895,
+      "learning_rate": 1e-06,
+      "loss": -0.038,
+      "num_tokens": 780742637.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.1294117569923401,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2326.0,
+      "completions/mean_length": 784.0100708007812,
+      "completions/mean_terminated_length": 542.0562744140625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 12.447813411078718,
+      "grad_norm": 0.1632382571697235,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 781281278.0,
+      "reward": 0.7522321939468384,
+      "reward_std": 0.15375375747680664,
+      "rewards/verify_math_reward/mean": 0.7522321343421936,
+      "rewards/verify_math_reward/std": 0.4319573938846588,
+      "step": 1332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2669.0,
+      "completions/mean_length": 1023.6328735351562,
+      "completions/mean_terminated_length": 602.5469360351562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.457142857142857,
+      "grad_norm": 0.1574413776397705,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 781857085.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.12914256751537323,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3184.0,
+      "completions/mean_length": 1004.7042846679688,
+      "completions/mean_terminated_length": 589.9227905273438,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.466472303206997,
+      "grad_norm": 0.17971403896808624,
+      "learning_rate": 1e-06,
+      "loss": -0.0724,
+      "num_tokens": 782415188.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.15533748269081116,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 752.9642944335938,
+      "completions/mean_terminated_length": 542.7852783203125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 12.475801749271136,
+      "grad_norm": 0.15812382102012634,
+      "learning_rate": 1e-06,
+      "loss": -0.0347,
+      "num_tokens": 782953372.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.13958844542503357,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2359.0,
+      "completions/mean_length": 909.7053833007812,
+      "completions/mean_terminated_length": 584.4132690429688,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.485131195335278,
+      "grad_norm": 0.150274857878685,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 783523268.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.13583439588546753,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2436.0,
+      "completions/mean_length": 914.2902221679688,
+      "completions/mean_terminated_length": 567.767333984375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 12.494460641399417,
+      "grad_norm": 0.17220300436019897,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 784074376.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.14496758580207825,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663806796073914,
+      "step": 1337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2966.0,
+      "completions/mean_length": 978.8225708007812,
+      "completions/mean_terminated_length": 609.1198120117188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 12.503790087463557,
+      "grad_norm": 0.16410626471042633,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 784652057.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.14455640316009521,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3562.0,
+      "completions/mean_length": 1074.0179443359375,
+      "completions/mean_terminated_length": 629.0396728515625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 12.513119533527696,
+      "grad_norm": 0.1667211502790451,
+      "learning_rate": 1e-06,
+      "loss": -0.0372,
+      "num_tokens": 785244305.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.14628027379512787,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2260.0,
+      "completions/mean_length": 1019.26123046875,
+      "completions/mean_terminated_length": 619.63427734375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 12.522448979591836,
+      "grad_norm": 0.17799793183803558,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 785825643.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.15285544097423553,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2771.0,
+      "completions/mean_length": 1017.0926513671875,
+      "completions/mean_terminated_length": 595.1104125976562,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 12.531778425655977,
+      "grad_norm": 0.16019681096076965,
+      "learning_rate": 1e-06,
+      "loss": -0.063,
+      "num_tokens": 786377886.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1312127262353897,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2515.0,
+      "completions/mean_length": 988.1038208007812,
+      "completions/mean_terminated_length": 593.26416015625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 12.541107871720117,
+      "grad_norm": 0.14082224667072296,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 786938163.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12554006278514862,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 998.9777221679688,
+      "completions/mean_terminated_length": 614.278564453125,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 12.550437317784256,
+      "grad_norm": 0.15896563231945038,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 787510191.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.13740670680999756,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 873.7176513671875,
+      "completions/mean_terminated_length": 566.4584350585938,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.559766763848396,
+      "grad_norm": 0.1577504724264145,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 788054018.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.13793987035751343,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3851.0,
+      "completions/mean_length": 998.9297485351562,
+      "completions/mean_terminated_length": 596.6620483398438,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 12.569096209912537,
+      "grad_norm": 0.18820682168006897,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 788620579.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16078217327594757,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2542.0,
+      "completions/mean_length": 783.5156860351562,
+      "completions/mean_terminated_length": 554.2506103515625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.578425655976677,
+      "grad_norm": 0.1534918248653412,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 789179353.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.12538781762123108,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3036.0,
+      "completions/mean_length": 1004.1975708007812,
+      "completions/mean_terminated_length": 557.9987182617188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 12.587755102040816,
+      "grad_norm": 0.15490977466106415,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 789706594.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11840106546878815,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3798.0,
+      "completions/mean_length": 943.6663208007812,
+      "completions/mean_terminated_length": 578.5765991210938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 12.597084548104956,
+      "grad_norm": 0.13104921579360962,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 790259151.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.11178451776504517,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3620.0,
+      "completions/mean_length": 1013.0324096679688,
+      "completions/mean_terminated_length": 634.4223022460938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.606413994169095,
+      "grad_norm": 0.1768091917037964,
+      "learning_rate": 1e-06,
+      "loss": -0.056,
+      "num_tokens": 790863548.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1536777913570404,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2641.0,
+      "completions/mean_length": 927.7857666015625,
+      "completions/mean_terminated_length": 538.706787109375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 12.615743440233237,
+      "grad_norm": 0.16212619841098785,
+      "learning_rate": 1e-06,
+      "loss": -0.0422,
+      "num_tokens": 791386804.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14459103345870972,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2949.0,
+      "completions/mean_length": 1030.421875,
+      "completions/mean_terminated_length": 588.0076293945312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 12.625072886297376,
+      "grad_norm": 0.20744355022907257,
+      "learning_rate": 1e-06,
+      "loss": -0.0801,
+      "num_tokens": 791936710.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.18445341289043427,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 1351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3062.0,
+      "completions/mean_length": 1043.9754638671875,
+      "completions/mean_terminated_length": 590.0846557617188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.634402332361516,
+      "grad_norm": 0.15848352015018463,
+      "learning_rate": 1e-06,
+      "loss": -0.0934,
+      "num_tokens": 792484888.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1431235522031784,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3645.0,
+      "completions/mean_length": 997.1417846679688,
+      "completions/mean_terminated_length": 572.4251098632812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.643731778425655,
+      "grad_norm": 0.16984209418296814,
+      "learning_rate": 1e-06,
+      "loss": -0.047,
+      "num_tokens": 793029991.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.13767842948436737,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1860.0,
+      "completions/mean_length": 825.1239013671875,
+      "completions/mean_terminated_length": 500.0429382324219,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 12.653061224489797,
+      "grad_norm": 0.14401152729988098,
+      "learning_rate": 1e-06,
+      "loss": -0.0485,
+      "num_tokens": 793514862.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.09175968915224075,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705445528030396,
+      "step": 1354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2660.0,
+      "completions/mean_length": 887.7645263671875,
+      "completions/mean_terminated_length": 594.685791015625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 12.662390670553936,
+      "grad_norm": 0.1445140391588211,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 794096259.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.12234944105148315,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2784.0,
+      "completions/mean_length": 1125.9342041015625,
+      "completions/mean_terminated_length": 617.3346557617188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 12.671720116618076,
+      "grad_norm": 0.17599262297153473,
+      "learning_rate": 1e-06,
+      "loss": -0.0697,
+      "num_tokens": 794670192.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.14124631881713867,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4049.0,
+      "completions/mean_length": 1081.80810546875,
+      "completions/mean_terminated_length": 620.175048828125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 12.681049562682215,
+      "grad_norm": 0.15625596046447754,
+      "learning_rate": 1e-06,
+      "loss": -0.0775,
+      "num_tokens": 795238852.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.14744988083839417,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 896.3225708007812,
+      "completions/mean_terminated_length": 534.619873046875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.690379008746355,
+      "grad_norm": 0.1739022582769394,
+      "learning_rate": 1e-06,
+      "loss": -0.0355,
+      "num_tokens": 795755453.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.13154971599578857,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2699.0,
+      "completions/mean_length": 921.630615234375,
+      "completions/mean_terminated_length": 580.2583618164062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 12.699708454810496,
+      "grad_norm": 0.17853571474552155,
+      "learning_rate": 1e-06,
+      "loss": -0.0663,
+      "num_tokens": 796314938.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.17179258167743683,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705445528030396,
+      "step": 1359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2950.0,
+      "completions/mean_length": 961.7801513671875,
+      "completions/mean_terminated_length": 598.7882690429688,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 12.709037900874636,
+      "grad_norm": 0.1860802322626114,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 796879045.0,
+      "reward": 0.6640625,
+      "reward_std": 0.17615535855293274,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2350.0,
+      "completions/mean_length": 894.5357666015625,
+      "completions/mean_terminated_length": 593.5433959960938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 12.718367346938775,
+      "grad_norm": 0.15276645123958588,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 797446453.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.13309136033058167,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3274.0,
+      "completions/mean_length": 1128.1451416015625,
+      "completions/mean_terminated_length": 664.7767944335938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.727696793002915,
+      "grad_norm": 0.17742541432380676,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 798052919.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.15357013046741486,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 1362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2856.0,
+      "completions/mean_length": 1035.185302734375,
+      "completions/mean_terminated_length": 611.2604370117188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 12.737026239067056,
+      "grad_norm": 0.15881547331809998,
+      "learning_rate": 1e-06,
+      "loss": -0.0489,
+      "num_tokens": 798627301.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.15274415910243988,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485536336898804,
+      "step": 1363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3933.0,
+      "completions/mean_length": 975.9888916015625,
+      "completions/mean_terminated_length": 605.9500732421875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 12.746355685131196,
+      "grad_norm": 0.16645316779613495,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 799213939.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.13778719305992126,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 1364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2626.0,
+      "completions/mean_length": 923.2667846679688,
+      "completions/mean_terminated_length": 555.814453125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 12.755685131195335,
+      "grad_norm": 0.16511110961437225,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 799740338.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14533847570419312,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4016.0,
+      "completions/mean_length": 1069.1195068359375,
+      "completions/mean_terminated_length": 618.9679565429688,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 12.765014577259475,
+      "grad_norm": 0.16087523102760315,
+      "learning_rate": 1e-06,
+      "loss": -0.0535,
+      "num_tokens": 800313589.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15165898203849792,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1584821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3205.0,
+      "completions/mean_length": 1139.23779296875,
+      "completions/mean_terminated_length": 582.3938598632812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.774344023323614,
+      "grad_norm": 0.21401703357696533,
+      "learning_rate": 1e-06,
+      "loss": -0.0811,
+      "num_tokens": 800838802.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1496659368276596,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2582.0,
+      "completions/mean_length": 942.247802734375,
+      "completions/mean_terminated_length": 554.9448852539062,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 12.783673469387756,
+      "grad_norm": 0.17008671164512634,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 801367792.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.11486568301916122,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3100.0,
+      "completions/mean_length": 971.75341796875,
+      "completions/mean_terminated_length": 609.9165649414062,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 12.793002915451895,
+      "grad_norm": 0.15616938471794128,
+      "learning_rate": 1e-06,
+      "loss": -0.0448,
+      "num_tokens": 801959363.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.13380561769008636,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2847.0,
+      "completions/mean_length": 997.4520263671875,
+      "completions/mean_terminated_length": 581.6974487304688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.802332361516035,
+      "grad_norm": 0.15678907930850983,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 802509664.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.13478201627731323,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 1153.521240234375,
+      "completions/mean_terminated_length": 626.972412109375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 12.811661807580174,
+      "grad_norm": 0.17155136168003082,
+      "learning_rate": 1e-06,
+      "loss": -0.1146,
+      "num_tokens": 803089171.0,
+      "reward": 0.6171875,
+      "reward_std": 0.16134923696517944,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 1371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 1043.649658203125,
+      "completions/mean_terminated_length": 638.4703369140625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 12.820991253644316,
+      "grad_norm": 0.15405990183353424,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 803687601.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.13444501161575317,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3640.0,
+      "completions/mean_length": 1055.359375,
+      "completions/mean_terminated_length": 616.5440673828125,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 12.830320699708455,
+      "grad_norm": 0.1485147476196289,
+      "learning_rate": 1e-06,
+      "loss": -0.0515,
+      "num_tokens": 804267067.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.13500885665416718,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3295.0,
+      "completions/mean_length": 980.2645263671875,
+      "completions/mean_terminated_length": 588.8404541015625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.839650145772595,
+      "grad_norm": 0.1513684242963791,
+      "learning_rate": 1e-06,
+      "loss": -0.0642,
+      "num_tokens": 804822800.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.13185282051563263,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2991.0,
+      "completions/mean_length": 966.8582763671875,
+      "completions/mean_terminated_length": 533.4700927734375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 12.848979591836734,
+      "grad_norm": 0.175306037068367,
+      "learning_rate": 1e-06,
+      "loss": -0.0625,
+      "num_tokens": 805334625.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.12219788879156113,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4048.0,
+      "completions/mean_length": 944.0826416015625,
+      "completions/mean_terminated_length": 626.5675659179688,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 12.858309037900874,
+      "grad_norm": 0.1883779615163803,
+      "learning_rate": 1e-06,
+      "loss": -0.0553,
+      "num_tokens": 805932691.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16409297287464142,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2510.0,
+      "completions/mean_length": 1091.3348388671875,
+      "completions/mean_terminated_length": 648.9065551757812,
+      "completions/min_length": 201.0,
+      "completions/min_terminated_length": 201.0,
+      "epoch": 12.867638483965015,
+      "grad_norm": 0.1939994990825653,
+      "learning_rate": 1e-06,
+      "loss": -0.0448,
+      "num_tokens": 806524471.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.17096956074237823,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3295.0,
+      "completions/mean_length": 1127.0201416015625,
+      "completions/mean_terminated_length": 698.5465698242188,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.876967930029155,
+      "grad_norm": 0.15887637436389923,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 807174489.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.14590120315551758,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 1378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2641.0,
+      "completions/mean_length": 972.5670166015625,
+      "completions/mean_terminated_length": 606.4788208007812,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.886297376093294,
+      "grad_norm": 0.16199131309986115,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 807757877.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13767912983894348,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4094.0,
+      "completions/mean_length": 1061.1629638671875,
+      "completions/mean_terminated_length": 666.9785766601562,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.895626822157434,
+      "grad_norm": 0.15144431591033936,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 808373279.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1423000991344452,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4003.0,
+      "completions/mean_length": 1103.798095703125,
+      "completions/mean_terminated_length": 636.62841796875,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 12.904956268221575,
+      "grad_norm": 0.1728334277868271,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 808964178.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1537972241640091,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3250.0,
+      "completions/mean_length": 943.4844360351562,
+      "completions/mean_terminated_length": 587.113037109375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.914285714285715,
+      "grad_norm": 0.16759993135929108,
+      "learning_rate": 1e-06,
+      "loss": -0.066,
+      "num_tokens": 809517348.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.14699594676494598,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 899.9944458007812,
+      "completions/mean_terminated_length": 565.024658203125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 12.923615160349854,
+      "grad_norm": 0.15316635370254517,
+      "learning_rate": 1e-06,
+      "loss": -0.077,
+      "num_tokens": 810073471.0,
+      "reward": 0.7589285969734192,
+      "reward_std": 0.1394015997648239,
+      "rewards/verify_math_reward/mean": 0.7589285969734192,
+      "rewards/verify_math_reward/std": 0.4279724657535553,
+      "step": 1383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3765.0,
+      "completions/mean_length": 992.0592041015625,
+      "completions/mean_terminated_length": 593.3161010742188,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.932944606413994,
+      "grad_norm": 0.15738971531391144,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 810636988.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.14105269312858582,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3928.0,
+      "completions/mean_length": 1029.4598388671875,
+      "completions/mean_terminated_length": 609.1725463867188,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.942274052478133,
+      "grad_norm": 0.17590700089931488,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 811206224.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.15980690717697144,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3679.0,
+      "completions/mean_length": 1005.1551513671875,
+      "completions/mean_terminated_length": 629.921142578125,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 12.951603498542275,
+      "grad_norm": 0.17235314846038818,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 811795747.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15480685234069824,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2306.0,
+      "completions/mean_length": 989.07373046875,
+      "completions/mean_terminated_length": 540.6921997070312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.960932944606414,
+      "grad_norm": 0.15123394131660461,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 812315693.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.11370452493429184,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3801.0,
+      "completions/mean_length": 974.4051513671875,
+      "completions/mean_terminated_length": 586.6536865234375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 12.970262390670554,
+      "grad_norm": 0.19044129550457,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 812870472.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1327211558818817,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 1037.0592041015625,
+      "completions/mean_terminated_length": 573.106689453125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 12.979591836734693,
+      "grad_norm": 0.18398486077785492,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 813407565.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.13226650655269623,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3294.0,
+      "completions/mean_length": 1155.37841796875,
+      "completions/mean_terminated_length": 642.79296875,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 12.988921282798835,
+      "grad_norm": 0.14590129256248474,
+      "learning_rate": 1e-06,
+      "loss": -0.0106,
+      "num_tokens": 813986584.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.10521142929792404,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1335227272727273,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2960.0,
+      "completions/mean_length": 1141.0738525390625,
+      "completions/mean_terminated_length": 685.724609375,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 12.998250728862974,
+      "grad_norm": 0.14408764243125916,
+      "learning_rate": 1e-06,
+      "loss": -0.0364,
+      "num_tokens": 814566743.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.11077672243118286,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 1020.1239013671875,
+      "completions/mean_terminated_length": 598.5570678710938,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.00932944606414,
+      "grad_norm": 0.17730410397052765,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 815127054.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.15300559997558594,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2503.0,
+      "completions/mean_length": 1016.7667846679688,
+      "completions/mean_terminated_length": 612.4229736328125,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 13.018658892128279,
+      "grad_norm": 0.13917987048625946,
+      "learning_rate": 1e-06,
+      "loss": -0.0904,
+      "num_tokens": 815691461.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.14838533103466034,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 1146.7523193359375,
+      "completions/mean_terminated_length": 664.1480102539062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 13.02798833819242,
+      "grad_norm": 0.17217010259628296,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 816293383.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.16251108050346375,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 1394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2426.0,
+      "completions/mean_length": 1027.30029296875,
+      "completions/mean_terminated_length": 561.8676147460938,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 13.03731778425656,
+      "grad_norm": 0.17021389305591583,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 816818044.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.11768428236246109,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2936.0,
+      "completions/mean_length": 979.47998046875,
+      "completions/mean_terminated_length": 601.12890625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.0466472303207,
+      "grad_norm": 0.14810553193092346,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 817390386.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.13978277146816254,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3384.0,
+      "completions/mean_length": 907.607177734375,
+      "completions/mean_terminated_length": 573.4352416992188,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 13.055976676384839,
+      "grad_norm": 0.1687489151954651,
+      "learning_rate": 1e-06,
+      "loss": -0.0771,
+      "num_tokens": 817948394.0,
+      "reward": 0.7377232313156128,
+      "reward_std": 0.141063392162323,
+      "rewards/verify_math_reward/mean": 0.7377232313156128,
+      "rewards/verify_math_reward/std": 0.4401180148124695,
+      "step": 1397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3775.0,
+      "completions/mean_length": 881.33154296875,
+      "completions/mean_terminated_length": 561.8367919921875,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.06530612244898,
+      "grad_norm": 0.15694163739681244,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 818484179.0,
+      "reward": 0.7656250596046448,
+      "reward_std": 0.1230994164943695,
+      "rewards/verify_math_reward/mean": 0.765625,
+      "rewards/verify_math_reward/std": 0.4238441288471222,
+      "step": 1398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 1042.997802734375,
+      "completions/mean_terminated_length": 620.1549682617188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.07463556851312,
+      "grad_norm": 0.16730216145515442,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 819060665.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.1439918875694275,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3591.0,
+      "completions/mean_length": 1065.825927734375,
+      "completions/mean_terminated_length": 632.94384765625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.08396501457726,
+      "grad_norm": 0.14252914488315582,
+      "learning_rate": 1e-06,
+      "loss": -0.0569,
+      "num_tokens": 819653829.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12531296908855438,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2812.0,
+      "completions/mean_length": 1029.62060546875,
+      "completions/mean_terminated_length": 622.5790405273438,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 13.093294460641399,
+      "grad_norm": 0.1579921394586563,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 820228121.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.12433655560016632,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3508.0,
+      "completions/mean_length": 1014.5324096679688,
+      "completions/mean_terminated_length": 618.67626953125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.102623906705539,
+      "grad_norm": 0.16034074127674103,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 820811574.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.1167111024260521,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3382.0,
+      "completions/mean_length": 1077.075927734375,
+      "completions/mean_terminated_length": 592.1709594726562,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.11195335276968,
+      "grad_norm": 0.15379659831523895,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 821364090.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.12952163815498352,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 1103.0826416015625,
+      "completions/mean_terminated_length": 613.3324584960938,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.12128279883382,
+      "grad_norm": 0.18127885460853577,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 821927876.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1534927487373352,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1741071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3765.0,
+      "completions/mean_length": 1308.747802734375,
+      "completions/mean_terminated_length": 721.1648559570312,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 13.130612244897959,
+      "grad_norm": 0.15667860209941864,
+      "learning_rate": 1e-06,
+      "loss": -0.0814,
+      "num_tokens": 822557458.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.15409007668495178,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 1405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3071.0,
+      "completions/mean_length": 1049.6373291015625,
+      "completions/mean_terminated_length": 658.2908935546875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 13.139941690962099,
+      "grad_norm": 0.15307126939296722,
+      "learning_rate": 1e-06,
+      "loss": -0.0633,
+      "num_tokens": 823174285.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.15015265345573425,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3257.0,
+      "completions/mean_length": 1007.5379638671875,
+      "completions/mean_terminated_length": 588.6970825195312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 13.14927113702624,
+      "grad_norm": 0.16991931200027466,
+      "learning_rate": 1e-06,
+      "loss": -0.0854,
+      "num_tokens": 823719647.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1423753798007965,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3353.0,
+      "completions/mean_length": 1148.9453125,
+      "completions/mean_terminated_length": 639.768310546875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 13.15860058309038,
+      "grad_norm": 0.16819636523723602,
+      "learning_rate": 1e-06,
+      "loss": -0.04,
+      "num_tokens": 824302334.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1327543556690216,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2709.0,
+      "completions/mean_length": 1028.9207763671875,
+      "completions/mean_terminated_length": 586.2899169921875,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 13.167930029154519,
+      "grad_norm": 0.13427141308784485,
+      "learning_rate": 1e-06,
+      "loss": -0.0236,
+      "num_tokens": 824867991.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.08691229671239853,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3997.0,
+      "completions/mean_length": 855.1674194335938,
+      "completions/mean_terminated_length": 589.0120849609375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 13.177259475218658,
+      "grad_norm": 0.14154063165187836,
+      "learning_rate": 1e-06,
+      "loss": -0.0307,
+      "num_tokens": 825449893.0,
+      "reward": 0.7868303656578064,
+      "reward_std": 0.12185201048851013,
+      "rewards/verify_math_reward/mean": 0.7868303656578064,
+      "rewards/verify_math_reward/std": 0.4097752273082733,
+      "step": 1410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3054.0,
+      "completions/mean_length": 944.44873046875,
+      "completions/mean_terminated_length": 570.6691284179688,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 13.186588921282798,
+      "grad_norm": 0.17151287198066711,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 825991383.0,
+      "reward": 0.7566964626312256,
+      "reward_std": 0.1796049177646637,
+      "rewards/verify_math_reward/mean": 0.7566964030265808,
+      "rewards/verify_math_reward/std": 0.4293164908885956,
+      "step": 1411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3276.0,
+      "completions/mean_length": 1087.4754638671875,
+      "completions/mean_terminated_length": 657.6862182617188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.19591836734694,
+      "grad_norm": 0.17296727001667023,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 826601857.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.16462108492851257,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2910.0,
+      "completions/mean_length": 997.4810791015625,
+      "completions/mean_terminated_length": 586.1732177734375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 13.205247813411079,
+      "grad_norm": 0.16448399424552917,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 827154792.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.12509429454803467,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3051.0,
+      "completions/mean_length": 1113.55029296875,
+      "completions/mean_terminated_length": 602.830078125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 13.214577259475218,
+      "grad_norm": 0.16226400434970856,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 827704653.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.13891445100307465,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3549.0,
+      "completions/mean_length": 1144.03466796875,
+      "completions/mean_terminated_length": 615.7882080078125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.223906705539358,
+      "grad_norm": 0.17290173470973969,
+      "learning_rate": 1e-06,
+      "loss": -0.0697,
+      "num_tokens": 828269148.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1392175406217575,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2882.0,
+      "completions/mean_length": 984.1529541015625,
+      "completions/mean_terminated_length": 562.1406860351562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 13.2332361516035,
+      "grad_norm": 0.15680143237113953,
+      "learning_rate": 1e-06,
+      "loss": -0.0664,
+      "num_tokens": 828808541.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.11963889747858047,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3495.0,
+      "completions/mean_length": 1050.0023193359375,
+      "completions/mean_terminated_length": 658.7027587890625,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 13.242565597667639,
+      "grad_norm": 0.1522519737482071,
+      "learning_rate": 1e-06,
+      "loss": -0.0701,
+      "num_tokens": 829411791.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.14466266334056854,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1018.5535888671875,
+      "completions/mean_terminated_length": 662.136962890625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.251895043731778,
+      "grad_norm": 0.16142745316028595,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 830036711.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1527452915906906,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2828.0,
+      "completions/mean_length": 1015.529052734375,
+      "completions/mean_terminated_length": 675.7992553710938,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 13.261224489795918,
+      "grad_norm": 0.13795799016952515,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 830670905.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1266666203737259,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3457.0,
+      "completions/mean_length": 1000.4766235351562,
+      "completions/mean_terminated_length": 576.2169799804688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.270553935860057,
+      "grad_norm": 0.15413826704025269,
+      "learning_rate": 1e-06,
+      "loss": -0.0933,
+      "num_tokens": 831219844.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.1308746039867401,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 956.7756958007812,
+      "completions/mean_terminated_length": 571.2568969726562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 13.279883381924199,
+      "grad_norm": 0.16560636460781097,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 831756555.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.11678525805473328,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2800.0,
+      "completions/mean_length": 964.3594360351562,
+      "completions/mean_terminated_length": 601.666259765625,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 13.289212827988338,
+      "grad_norm": 0.15646150708198547,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 832331765.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.15879730880260468,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2770.0,
+      "completions/mean_length": 917.2756958007812,
+      "completions/mean_terminated_length": 618.4212646484375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 13.298542274052478,
+      "grad_norm": 0.14893360435962677,
+      "learning_rate": 1e-06,
+      "loss": -0.0359,
+      "num_tokens": 832927580.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.1252797544002533,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 1110.5123291015625,
+      "completions/mean_terminated_length": 635.4605712890625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.307871720116617,
+      "grad_norm": 0.1834036409854889,
+      "learning_rate": 1e-06,
+      "loss": -0.0647,
+      "num_tokens": 833512215.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.15146607160568237,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3907.0,
+      "completions/mean_length": 1120.1741943359375,
+      "completions/mean_terminated_length": 637.7120361328125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 13.317201166180759,
+      "grad_norm": 0.16921481490135193,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 834084115.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.16146548092365265,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3087.0,
+      "completions/mean_length": 1055.59375,
+      "completions/mean_terminated_length": 638.8883056640625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.326530612244898,
+      "grad_norm": 0.14250235259532928,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 834672135.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.1195308193564415,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3801.0,
+      "completions/mean_length": 1217.7388916015625,
+      "completions/mean_terminated_length": 671.1367797851562,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 13.335860058309038,
+      "grad_norm": 0.1670420616865158,
+      "learning_rate": 1e-06,
+      "loss": -0.1058,
+      "num_tokens": 835264365.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.155109241604805,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296735644340515,
+      "step": 1427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3048.0,
+      "completions/mean_length": 1066.810302734375,
+      "completions/mean_terminated_length": 634.06884765625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 13.345189504373177,
+      "grad_norm": 0.16828158497810364,
+      "learning_rate": 1e-06,
+      "loss": -0.0657,
+      "num_tokens": 835849755.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.142863929271698,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2771.0,
+      "completions/mean_length": 951.6685791015625,
+      "completions/mean_terminated_length": 574.3487548828125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 13.354518950437317,
+      "grad_norm": 0.15304379165172577,
+      "learning_rate": 1e-06,
+      "loss": -0.0651,
+      "num_tokens": 836391170.0,
+      "reward": 0.7756696939468384,
+      "reward_std": 0.10494860261678696,
+      "rewards/verify_math_reward/mean": 0.7756696343421936,
+      "rewards/verify_math_reward/std": 0.41737356781959534,
+      "step": 1429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 1015.2444458007812,
+      "completions/mean_terminated_length": 615.0958251953125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.363848396501458,
+      "grad_norm": 0.16295866668224335,
+      "learning_rate": 1e-06,
+      "loss": -0.0293,
+      "num_tokens": 836959005.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.133317768573761,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2946.0,
+      "completions/mean_length": 922.7824096679688,
+      "completions/mean_terminated_length": 568.4528198242188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.373177842565598,
+      "grad_norm": 0.15209509432315826,
+      "learning_rate": 1e-06,
+      "loss": -0.0646,
+      "num_tokens": 837512274.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.12869791686534882,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3202.0,
+      "completions/mean_length": 1049.3582763671875,
+      "completions/mean_terminated_length": 649.294189453125,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.382507288629737,
+      "grad_norm": 0.11591311544179916,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 838118523.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.10926789045333862,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2802.0,
+      "completions/mean_length": 1029.0,
+      "completions/mean_terminated_length": 613.0697021484375,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 13.391836734693877,
+      "grad_norm": 0.14781732857227325,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 838696707.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.13621236383914948,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 993.5201416015625,
+      "completions/mean_terminated_length": 599.3685302734375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.401166180758018,
+      "grad_norm": 0.14631949365139008,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 839265581.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.11963889747858047,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 985.9710083007812,
+      "completions/mean_terminated_length": 625.7808227539062,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 13.410495626822158,
+      "grad_norm": 0.1488763839006424,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 839847291.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.1312882900238037,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 1044.7288818359375,
+      "completions/mean_terminated_length": 622.1257934570312,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.419825072886297,
+      "grad_norm": 0.15852481126785278,
+      "learning_rate": 1e-06,
+      "loss": -0.0832,
+      "num_tokens": 840435592.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.13872967660427094,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763102173805237,
+      "step": 1436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3144.0,
+      "completions/mean_length": 1010.3594360351562,
+      "completions/mean_terminated_length": 670.0595092773438,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 13.429154518950437,
+      "grad_norm": 0.1600950062274933,
+      "learning_rate": 1e-06,
+      "loss": -0.0787,
+      "num_tokens": 841063146.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1607832908630371,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2799.0,
+      "completions/mean_length": 963.05810546875,
+      "completions/mean_terminated_length": 613.225830078125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.438483965014576,
+      "grad_norm": 0.1528957635164261,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 841648974.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.12230778485536575,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1841517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3588.0,
+      "completions/mean_length": 1295.3895263671875,
+      "completions/mean_terminated_length": 663.2407836914062,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.447813411078718,
+      "grad_norm": 0.18343259394168854,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 842229339.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1523655205965042,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3159.0,
+      "completions/mean_length": 1078.43310546875,
+      "completions/mean_terminated_length": 656.1272583007812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.457142857142857,
+      "grad_norm": 0.15937013924121857,
+      "learning_rate": 1e-06,
+      "loss": -0.0705,
+      "num_tokens": 842828407.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1368100941181183,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3625.0,
+      "completions/mean_length": 1174.8270263671875,
+      "completions/mean_terminated_length": 661.1299438476562,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 13.466472303206997,
+      "grad_norm": 0.14537642896175385,
+      "learning_rate": 1e-06,
+      "loss": -0.0878,
+      "num_tokens": 843423892.0,
+      "reward": 0.65625,
+      "reward_std": 0.11283829808235168,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1126.46435546875,
+      "completions/mean_terminated_length": 671.6705322265625,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 13.475801749271136,
+      "grad_norm": 0.13487359881401062,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 844032516.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.10716354846954346,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 1031.4598388671875,
+      "completions/mean_terminated_length": 624.6624755859375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.485131195335278,
+      "grad_norm": 0.16721223294734955,
+      "learning_rate": 1e-06,
+      "loss": -0.0757,
+      "num_tokens": 844626440.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1381341814994812,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2995.0,
+      "completions/mean_length": 1031.7020263671875,
+      "completions/mean_terminated_length": 642.4012451171875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.494460641399417,
+      "grad_norm": 0.1554444581270218,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 845225237.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.14045608043670654,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 1072.3092041015625,
+      "completions/mean_terminated_length": 644.7554321289062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.503790087463557,
+      "grad_norm": 0.13712087273597717,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 845822314.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.09818120300769806,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 1154.4320068359375,
+      "completions/mean_terminated_length": 655.210205078125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.513119533527696,
+      "grad_norm": 0.15192073583602905,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 846408069.0,
+      "reward": 0.6328125,
+      "reward_std": 0.126701220870018,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1540178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3258.0,
+      "completions/mean_length": 1176.661865234375,
+      "completions/mean_terminated_length": 645.1728515625,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.522448979591836,
+      "grad_norm": 0.17441591620445251,
+      "learning_rate": 1e-06,
+      "loss": -0.0833,
+      "num_tokens": 846999054.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.134780615568161,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1696428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3028.0,
+      "completions/mean_length": 1196.786865234375,
+      "completions/mean_terminated_length": 604.4744873046875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.531778425655977,
+      "grad_norm": 0.16436070203781128,
+      "learning_rate": 1e-06,
+      "loss": -0.073,
+      "num_tokens": 847529783.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.11603710055351257,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3672.0,
+      "completions/mean_length": 961.1964721679688,
+      "completions/mean_terminated_length": 636.9063720703125,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 13.541107871720117,
+      "grad_norm": 0.16785281896591187,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 848136631.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13970720767974854,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3163.0,
+      "completions/mean_length": 1086.58935546875,
+      "completions/mean_terminated_length": 621.2164916992188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 13.550437317784256,
+      "grad_norm": 0.15177418291568756,
+      "learning_rate": 1e-06,
+      "loss": -0.0672,
+      "num_tokens": 848719183.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.12257696688175201,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2932.0,
+      "completions/mean_length": 1105.665283203125,
+      "completions/mean_terminated_length": 643.2422485351562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 13.559766763848396,
+      "grad_norm": 0.16427406668663025,
+      "learning_rate": 1e-06,
+      "loss": -0.093,
+      "num_tokens": 849298603.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.1504141092300415,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2985.0,
+      "completions/mean_length": 1098.6707763671875,
+      "completions/mean_terminated_length": 617.2344360351562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 13.569096209912537,
+      "grad_norm": 0.15991352498531342,
+      "learning_rate": 1e-06,
+      "loss": -0.0188,
+      "num_tokens": 849858340.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12204564362764359,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3240.0,
+      "completions/mean_length": 984.9989013671875,
+      "completions/mean_terminated_length": 629.013671875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 13.578425655976677,
+      "grad_norm": 0.1567736268043518,
+      "learning_rate": 1e-06,
+      "loss": -0.0654,
+      "num_tokens": 850450315.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.16096805036067963,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3973.0,
+      "completions/mean_length": 1160.5491943359375,
+      "completions/mean_terminated_length": 644.3411865234375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 13.587755102040816,
+      "grad_norm": 0.17545689642429352,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 851034815.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.17017818987369537,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3393.0,
+      "completions/mean_length": 1112.888427734375,
+      "completions/mean_terminated_length": 647.1380615234375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.597084548104956,
+      "grad_norm": 0.14614875614643097,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 851632619.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.142819344997406,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 1167.3382568359375,
+      "completions/mean_terminated_length": 652.3241577148438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.606413994169095,
+      "grad_norm": 0.1602410078048706,
+      "learning_rate": 1e-06,
+      "loss": -0.0858,
+      "num_tokens": 852226066.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15454654395580292,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1540178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3457.0,
+      "completions/mean_length": 1190.6171875,
+      "completions/mean_terminated_length": 661.6688842773438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 13.615743440233237,
+      "grad_norm": 0.16519398987293243,
+      "learning_rate": 1e-06,
+      "loss": -0.0839,
+      "num_tokens": 852814107.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.16150008141994476,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3444.0,
+      "completions/mean_length": 883.60498046875,
+      "completions/mean_terminated_length": 585.8707275390625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.625072886297376,
+      "grad_norm": 0.13896900415420532,
+      "learning_rate": 1e-06,
+      "loss": -0.0679,
+      "num_tokens": 853383617.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.1244862899184227,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1662946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3897.0,
+      "completions/mean_length": 1274.8013916015625,
+      "completions/mean_terminated_length": 712.072265625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 13.634402332361516,
+      "grad_norm": 0.1437322199344635,
+      "learning_rate": 1e-06,
+      "loss": -0.1042,
+      "num_tokens": 854011367.0,
+      "reward": 0.6640625,
+      "reward_std": 0.14687690138816833,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1640625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 1254.2467041015625,
+      "completions/mean_terminated_length": 696.5194091796875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 13.643731778425655,
+      "grad_norm": 0.15712018311023712,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 854627884.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1254630982875824,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3077.0,
+      "completions/mean_length": 1101.5614013671875,
+      "completions/mean_terminated_length": 704.069580078125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.653061224489797,
+      "grad_norm": 0.16194351017475128,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 855265315.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.1452290266752243,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3717.0,
+      "completions/mean_length": 1066.774658203125,
+      "completions/mean_terminated_length": 647.224853515625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.662390670553936,
+      "grad_norm": 0.15248115360736847,
+      "learning_rate": 1e-06,
+      "loss": -0.0998,
+      "num_tokens": 855866009.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.17502740025520325,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1808035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2933.0,
+      "completions/mean_length": 1301.790283203125,
+      "completions/mean_terminated_length": 685.08447265625,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 13.671720116618076,
+      "grad_norm": 0.1724405586719513,
+      "learning_rate": 1e-06,
+      "loss": -0.108,
+      "num_tokens": 856456301.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1612718552350998,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3559.0,
+      "completions/mean_length": 1219.5234375,
+      "completions/mean_terminated_length": 682.3271484375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.681049562682215,
+      "grad_norm": 0.17135068774223328,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 857056146.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14188753068447113,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 1464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3272.0,
+      "completions/mean_length": 1029.54248046875,
+      "completions/mean_terminated_length": 644.3090209960938,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 13.690379008746355,
+      "grad_norm": 0.18565014004707336,
+      "learning_rate": 1e-06,
+      "loss": -0.0923,
+      "num_tokens": 857665456.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.195464089512825,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3641.0,
+      "completions/mean_length": 1109.1373291015625,
+      "completions/mean_terminated_length": 615.8582763671875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 13.699708454810496,
+      "grad_norm": 0.1436578333377838,
+      "learning_rate": 1e-06,
+      "loss": -0.0424,
+      "num_tokens": 858217419.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.11712157726287842,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931530952453613,
+      "step": 1466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3830.0,
+      "completions/mean_length": 1113.279052734375,
+      "completions/mean_terminated_length": 674.0819702148438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.709037900874636,
+      "grad_norm": 0.1680949181318283,
+      "learning_rate": 1e-06,
+      "loss": -0.0769,
+      "num_tokens": 858827861.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16319003701210022,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3761.0,
+      "completions/mean_length": 1127.1507568359375,
+      "completions/mean_terminated_length": 618.759521484375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 13.718367346938775,
+      "grad_norm": 0.16500741243362427,
+      "learning_rate": 1e-06,
+      "loss": -0.0526,
+      "num_tokens": 859402732.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.12486536800861359,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2987.0,
+      "completions/mean_length": 1211.954345703125,
+      "completions/mean_terminated_length": 740.0194702148438,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.727696793002915,
+      "grad_norm": 0.16611486673355103,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 860063155.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1650354564189911,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3826.0,
+      "completions/mean_length": 1116.453125,
+      "completions/mean_terminated_length": 668.9473876953125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 13.737026239067056,
+      "grad_norm": 0.13615849614143372,
+      "learning_rate": 1e-06,
+      "loss": -0.0675,
+      "num_tokens": 860663977.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.13440224528312683,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 1056.774658203125,
+      "completions/mean_terminated_length": 627.0242309570312,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 13.746355685131196,
+      "grad_norm": 0.18000447750091553,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 861244527.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.15563170611858368,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3203.0,
+      "completions/mean_length": 1155.7913818359375,
+      "completions/mean_terminated_length": 687.9443969726562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 13.755685131195335,
+      "grad_norm": 0.1400819569826126,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 861875052.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.13218912482261658,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3928.0,
+      "completions/mean_length": 1268.798095703125,
+      "completions/mean_terminated_length": 682.0202026367188,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 13.765014577259475,
+      "grad_norm": 0.15747207403182983,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 862465103.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.14181266725063324,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3793.0,
+      "completions/mean_length": 1195.829345703125,
+      "completions/mean_terminated_length": 654.2079467773438,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.774344023323614,
+      "grad_norm": 0.17201298475265503,
+      "learning_rate": 1e-06,
+      "loss": -0.0648,
+      "num_tokens": 863056934.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14034800231456757,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4030.0,
+      "completions/mean_length": 1254.54248046875,
+      "completions/mean_terminated_length": 741.657470703125,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 13.783673469387756,
+      "grad_norm": 0.14561475813388824,
+      "learning_rate": 1e-06,
+      "loss": -0.0767,
+      "num_tokens": 863713596.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.15244106948375702,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 1475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2693.0,
+      "completions/mean_length": 1020.22998046875,
+      "completions/mean_terminated_length": 594.2337646484375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 13.793002915451895,
+      "grad_norm": 0.14293834567070007,
+      "learning_rate": 1e-06,
+      "loss": -0.0823,
+      "num_tokens": 864277786.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1345556080341339,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1863839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 1327.759033203125,
+      "completions/mean_terminated_length": 693.607666015625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 13.802332361516035,
+      "grad_norm": 0.1671881228685379,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 864878738.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1285017728805542,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 1477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3433.0,
+      "completions/mean_length": 1096.251220703125,
+      "completions/mean_terminated_length": 641.2763671875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.811661807580174,
+      "grad_norm": 0.16302862763404846,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 865456091.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.1344122290611267,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 1478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3938.0,
+      "completions/mean_length": 1222.8929443359375,
+      "completions/mean_terminated_length": 686.3258666992188,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 13.820991253644316,
+      "grad_norm": 0.1538170427083969,
+      "learning_rate": 1e-06,
+      "loss": -0.0712,
+      "num_tokens": 866061803.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.14086836576461792,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 1122.040283203125,
+      "completions/mean_terminated_length": 603.6435546875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.830320699708455,
+      "grad_norm": 0.18746376037597656,
+      "learning_rate": 1e-06,
+      "loss": -0.108,
+      "num_tokens": 866606791.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.10562513023614883,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3653.0,
+      "completions/mean_length": 1001.7232666015625,
+      "completions/mean_terminated_length": 656.2084350585938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.839650145772595,
+      "grad_norm": 0.13892732560634613,
+      "learning_rate": 1e-06,
+      "loss": -0.0658,
+      "num_tokens": 867218487.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.12707959115505219,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2444196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4038.0,
+      "completions/mean_length": 1583.6663818359375,
+      "completions/mean_terminated_length": 770.9616088867188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.848979591836734,
+      "grad_norm": 0.1427098512649536,
+      "learning_rate": 1e-06,
+      "loss": -0.0763,
+      "num_tokens": 867840212.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.11298984289169312,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 1482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3875.0,
+      "completions/mean_length": 1114.67529296875,
+      "completions/mean_terminated_length": 658.075927734375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 13.858309037900874,
+      "grad_norm": 0.16994047164916992,
+      "learning_rate": 1e-06,
+      "loss": -0.0451,
+      "num_tokens": 868444633.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14820027351379395,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1618303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2932.0,
+      "completions/mean_length": 1167.53125,
+      "completions/mean_terminated_length": 602.114501953125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.867638483965015,
+      "grad_norm": 0.15329888463020325,
+      "learning_rate": 1e-06,
+      "loss": -0.1178,
+      "num_tokens": 868986389.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1310618817806244,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 1032.5491943359375,
+      "completions/mean_terminated_length": 599.3732299804688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 13.876967930029155,
+      "grad_norm": 0.1547268033027649,
+      "learning_rate": 1e-06,
+      "loss": -0.0597,
+      "num_tokens": 869538297.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.13613680005073547,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1930803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3757.0,
+      "completions/mean_length": 1314.49560546875,
+      "completions/mean_terminated_length": 648.9349975585938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 13.886297376093294,
+      "grad_norm": 0.16535474359989166,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 870094389.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.11802379786968231,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 1063.477783203125,
+      "completions/mean_terminated_length": 616.947509765625,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.895626822157434,
+      "grad_norm": 0.1738092452287674,
+      "learning_rate": 1e-06,
+      "loss": -0.0681,
+      "num_tokens": 870665593.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.14515121281147003,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3243.0,
+      "completions/mean_length": 964.1116333007812,
+      "completions/mean_terminated_length": 610.072021484375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 13.904956268221575,
+      "grad_norm": 0.17861664295196533,
+      "learning_rate": 1e-06,
+      "loss": -0.0621,
+      "num_tokens": 871234437.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.10803297907114029,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3292.0,
+      "completions/mean_length": 1137.7098388671875,
+      "completions/mean_terminated_length": 622.0445556640625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.914285714285715,
+      "grad_norm": 0.17084911465644836,
+      "learning_rate": 1e-06,
+      "loss": -0.1002,
+      "num_tokens": 871803969.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.15390713512897491,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 1489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1696428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 1193.786865234375,
+      "completions/mean_terminated_length": 600.861572265625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 13.923615160349854,
+      "grad_norm": 0.16532692313194275,
+      "learning_rate": 1e-06,
+      "loss": -0.0845,
+      "num_tokens": 872339410.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.13080044090747833,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2919.0,
+      "completions/mean_length": 1206.5491943359375,
+      "completions/mean_terminated_length": 671.465576171875,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 13.932944606413994,
+      "grad_norm": 0.1595967411994934,
+      "learning_rate": 1e-06,
+      "loss": -0.0833,
+      "num_tokens": 872934286.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1573658436536789,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3025.0,
+      "completions/mean_length": 1162.65185546875,
+      "completions/mean_terminated_length": 651.334228515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.942274052478133,
+      "grad_norm": 0.17703810334205627,
+      "learning_rate": 1e-06,
+      "loss": -0.083,
+      "num_tokens": 873520422.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.13038857281208038,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2937.0,
+      "completions/mean_length": 973.6842041015625,
+      "completions/mean_terminated_length": 625.0384521484375,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.951603498542275,
+      "grad_norm": 0.1360289752483368,
+      "learning_rate": 1e-06,
+      "loss": -0.0457,
+      "num_tokens": 874111507.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.10179509967565536,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 1146.157470703125,
+      "completions/mean_terminated_length": 711.8015747070312,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 13.960932944606414,
+      "grad_norm": 0.1361832320690155,
+      "learning_rate": 1e-06,
+      "loss": -0.0827,
+      "num_tokens": 874763688.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1318553388118744,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3439.0,
+      "completions/mean_length": 1221.90185546875,
+      "completions/mean_terminated_length": 676.09033203125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 13.970262390670554,
+      "grad_norm": 0.15795740485191345,
+      "learning_rate": 1e-06,
+      "loss": -0.0838,
+      "num_tokens": 875353872.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.13685175776481628,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 1052.6484375,
+      "completions/mean_terminated_length": 613.44189453125,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 13.979591836734693,
+      "grad_norm": 0.13383625447750092,
+      "learning_rate": 1e-06,
+      "loss": -0.0295,
+      "num_tokens": 875919397.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.09979882091283798,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3822.0,
+      "completions/mean_length": 1228.857177734375,
+      "completions/mean_terminated_length": 724.6614379882812,
+      "completions/min_length": 192.0,
+      "completions/min_terminated_length": 192.0,
+      "epoch": 13.988921282798835,
+      "grad_norm": 0.15809251368045807,
+      "learning_rate": 1e-06,
+      "loss": -0.0791,
+      "num_tokens": 876564637.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.15582603216171265,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 1497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12784090909090906,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3002.0,
+      "completions/mean_length": 1121.2471923828125,
+      "completions/mean_terminated_length": 685.2084350585938,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 13.998250728862974,
+      "grad_norm": 0.18763110041618347,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 877167928.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.12001937627792358,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3320.0,
+      "completions/mean_length": 1155.9989013671875,
+      "completions/mean_terminated_length": 643.5216674804688,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 14.00932944606414,
+      "grad_norm": 0.14190790057182312,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 877746847.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.12399843335151672,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3132.0,
+      "completions/mean_length": 998.3917846679688,
+      "completions/mean_terminated_length": 643.9390258789062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 14.018658892128279,
+      "grad_norm": 0.15186084806919098,
+      "learning_rate": 1e-06,
+      "loss": -0.0681,
+      "num_tokens": 878360262.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.13180933892726898,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3048.0,
+      "completions/mean_length": 1165.5457763671875,
+      "completions/mean_terminated_length": 708.0167846679688,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 14.02798833819242,
+      "grad_norm": 0.14011088013648987,
+      "learning_rate": 1e-06,
+      "loss": -0.0238,
+      "num_tokens": 879007503.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.10960489511489868,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 1501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3400.0,
+      "completions/mean_length": 1183.9185791015625,
+      "completions/mean_terminated_length": 671.8201904296875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.03731778425656,
+      "grad_norm": 0.17413397133350372,
+      "learning_rate": 1e-06,
+      "loss": -0.1176,
+      "num_tokens": 879600558.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.17036226391792297,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2363.0,
+      "completions/mean_length": 938.8683471679688,
+      "completions/mean_terminated_length": 633.5887451171875,
+      "completions/min_length": 192.0,
+      "completions/min_terminated_length": 192.0,
+      "epoch": 14.0466472303207,
+      "grad_norm": 0.15621769428253174,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 880208280.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.14350402355194092,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3159.0,
+      "completions/mean_length": 1037.560302734375,
+      "completions/mean_terminated_length": 644.6624145507812,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.055976676384839,
+      "grad_norm": 0.12551946938037872,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 880805302.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.1083688735961914,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4058.0,
+      "completions/mean_length": 1039.7366943359375,
+      "completions/mean_terminated_length": 672.9849853515625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.06530612244898,
+      "grad_norm": 0.149945929646492,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 881431130.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.15067441761493683,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3811.0,
+      "completions/mean_length": 1150.9498291015625,
+      "completions/mean_terminated_length": 651.1370849609375,
+      "completions/min_length": 203.0,
+      "completions/min_terminated_length": 203.0,
+      "epoch": 14.07463556851312,
+      "grad_norm": 0.15435577929019928,
+      "learning_rate": 1e-06,
+      "loss": -0.0657,
+      "num_tokens": 882024669.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.12741729617118835,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1752232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3842.0,
+      "completions/mean_length": 1268.344970703125,
+      "completions/mean_terminated_length": 667.6116333007812,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 14.08396501457726,
+      "grad_norm": 0.18073588609695435,
+      "learning_rate": 1e-06,
+      "loss": -0.1257,
+      "num_tokens": 882606210.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15326520800590515,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 1084.6060791015625,
+      "completions/mean_terminated_length": 623.4015502929688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 14.093294460641399,
+      "grad_norm": 0.18910661339759827,
+      "learning_rate": 1e-06,
+      "loss": -0.07,
+      "num_tokens": 883178497.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.15064053237438202,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3268.0,
+      "completions/mean_length": 1090.8426513671875,
+      "completions/mean_terminated_length": 630.5933227539062,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 14.102623906705539,
+      "grad_norm": 0.13664594292640686,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 883759900.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.1169707253575325,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483014941215515,
+      "step": 1509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2645.0,
+      "completions/mean_length": 953.68310546875,
+      "completions/mean_terminated_length": 632.8806762695312,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.11195335276968,
+      "grad_norm": 0.13045363128185272,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 884356664.0,
+      "reward": 0.7600446939468384,
+      "reward_std": 0.12692874670028687,
+      "rewards/verify_math_reward/mean": 0.7600446343421936,
+      "rewards/verify_math_reward/std": 0.42729446291923523,
+      "step": 1510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1607142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3490.0,
+      "completions/mean_length": 1236.2410888671875,
+      "completions/mean_terminated_length": 688.6276245117188,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 14.12128279883382,
+      "grad_norm": 0.13698236644268036,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 884958064.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11568940430879593,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3509.0,
+      "completions/mean_length": 842.9788208007812,
+      "completions/mean_terminated_length": 596.9519653320312,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 14.130612244897959,
+      "grad_norm": 0.15260770916938782,
+      "learning_rate": 1e-06,
+      "loss": -0.0272,
+      "num_tokens": 885535645.0,
+      "reward": 0.7611607313156128,
+      "reward_std": 0.13162529468536377,
+      "rewards/verify_math_reward/mean": 0.7611607313156128,
+      "rewards/verify_math_reward/std": 0.4266124963760376,
+      "step": 1512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3809.0,
+      "completions/mean_length": 996.4989013671875,
+      "completions/mean_terminated_length": 667.4160766601562,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 14.139941690962099,
+      "grad_norm": 0.15160422027111053,
+      "learning_rate": 1e-06,
+      "loss": -0.0562,
+      "num_tokens": 886170100.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.148830384016037,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 1182.021240234375,
+      "completions/mean_terminated_length": 700.7789306640625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.14927113702624,
+      "grad_norm": 0.17777971923351288,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 886803167.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15315786004066467,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 1243.0614013671875,
+      "completions/mean_terminated_length": 732.5355834960938,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 14.15860058309038,
+      "grad_norm": 0.1419702023267746,
+      "learning_rate": 1e-06,
+      "loss": -0.0693,
+      "num_tokens": 887450334.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.12464035302400589,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2721.0,
+      "completions/mean_length": 1073.8270263671875,
+      "completions/mean_terminated_length": 615.451171875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 14.167930029154519,
+      "grad_norm": 0.1759144365787506,
+      "learning_rate": 1e-06,
+      "loss": -0.0858,
+      "num_tokens": 888018419.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.12035568058490753,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 989.396240234375,
+      "completions/mean_terminated_length": 638.2149047851562,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 14.177259475218658,
+      "grad_norm": 0.16178756952285767,
+      "learning_rate": 1e-06,
+      "loss": -0.0988,
+      "num_tokens": 888620374.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.15398018062114716,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4038.0,
+      "completions/mean_length": 1195.029052734375,
+      "completions/mean_terminated_length": 675.9078979492188,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 14.186588921282798,
+      "grad_norm": 0.14347553253173828,
+      "learning_rate": 1e-06,
+      "loss": -0.0778,
+      "num_tokens": 889219504.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.12535391747951508,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1439732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4055.0,
+      "completions/mean_length": 1126.6507568359375,
+      "completions/mean_terminated_length": 627.2424926757812,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 14.19591836734694,
+      "grad_norm": 0.1469012051820755,
+      "learning_rate": 1e-06,
+      "loss": -0.0764,
+      "num_tokens": 889793591.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.1195308193564415,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3181.0,
+      "completions/mean_length": 923.2589721679688,
+      "completions/mean_terminated_length": 620.7237548828125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 14.205247813411079,
+      "grad_norm": 0.16731294989585876,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 890390655.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.1554141491651535,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890368938446045,
+      "step": 1520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3113.0,
+      "completions/mean_length": 1113.1217041015625,
+      "completions/mean_terminated_length": 625.0142822265625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.214577259475218,
+      "grad_norm": 0.15868867933750153,
+      "learning_rate": 1e-06,
+      "loss": -0.0827,
+      "num_tokens": 890957252.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14395050704479218,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3600.0,
+      "completions/mean_length": 1179.649658203125,
+      "completions/mean_terminated_length": 711.22021484375,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 14.223906705539358,
+      "grad_norm": 0.1729939728975296,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 891587850.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1776525229215622,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3311.0,
+      "completions/mean_length": 1153.7623291015625,
+      "completions/mean_terminated_length": 724.8427124023438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 14.2332361516035,
+      "grad_norm": 0.15857946872711182,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 892242973.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.14527249336242676,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3138.0,
+      "completions/mean_length": 1093.036865234375,
+      "completions/mean_terminated_length": 668.4140014648438,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.242565597667639,
+      "grad_norm": 0.14814192056655884,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 892856134.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.1378631889820099,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3368.0,
+      "completions/mean_length": 1127.97216796875,
+      "completions/mean_terminated_length": 655.6986083984375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 14.251895043731778,
+      "grad_norm": 0.16072885692119598,
+      "learning_rate": 1e-06,
+      "loss": -0.0832,
+      "num_tokens": 893463869.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1269722282886505,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3451.0,
+      "completions/mean_length": 1105.708740234375,
+      "completions/mean_terminated_length": 656.5892333984375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 14.261224489795918,
+      "grad_norm": 0.17252424359321594,
+      "learning_rate": 1e-06,
+      "loss": -0.0955,
+      "num_tokens": 894065592.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.16604548692703247,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3182.0,
+      "completions/mean_length": 1119.80810546875,
+      "completions/mean_terminated_length": 681.5723266601562,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 14.270553935860057,
+      "grad_norm": 0.18007849156856537,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 894695716.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.18216247856616974,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1964285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 1374.8717041015625,
+      "completions/mean_terminated_length": 709.7069702148438,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.279883381924199,
+      "grad_norm": 0.17875495553016663,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 895299417.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.14327509701251984,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 1528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 1173.2879638671875,
+      "completions/mean_terminated_length": 712.6021118164062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 14.289212827988338,
+      "grad_norm": 0.16526354849338531,
+      "learning_rate": 1e-06,
+      "loss": -0.0797,
+      "num_tokens": 895931691.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15210406482219696,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3692.0,
+      "completions/mean_length": 903.489990234375,
+      "completions/mean_terminated_length": 641.3031616210938,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 14.298542274052478,
+      "grad_norm": 0.13230258226394653,
+      "learning_rate": 1e-06,
+      "loss": -0.0823,
+      "num_tokens": 896535258.0,
+      "reward": 0.7912946939468384,
+      "reward_std": 0.11968054622411728,
+      "rewards/verify_math_reward/mean": 0.7912946343421936,
+      "rewards/verify_math_reward/std": 0.4066103398799896,
+      "step": 1530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4001.0,
+      "completions/mean_length": 1059.4888916015625,
+      "completions/mean_terminated_length": 652.0582275390625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.307871720116617,
+      "grad_norm": 0.1585511863231659,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 897137888.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.12990324199199677,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 1089.6082763671875,
+      "completions/mean_terminated_length": 681.8973388671875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 14.317201166180759,
+      "grad_norm": 0.16274017095565796,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 897769249.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14387424290180206,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 1075.634033203125,
+      "completions/mean_terminated_length": 635.3248291015625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 14.326530612244898,
+      "grad_norm": 0.1630510687828064,
+      "learning_rate": 1e-06,
+      "loss": -0.0736,
+      "num_tokens": 898346137.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14353612065315247,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3887.0,
+      "completions/mean_length": 1200.6082763671875,
+      "completions/mean_terminated_length": 722.4356079101562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 14.335860058309038,
+      "grad_norm": 0.1703139692544937,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 898990034.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16251856088638306,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 1122.22998046875,
+      "completions/mean_terminated_length": 684.350830078125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 14.345189504373177,
+      "grad_norm": 0.13809487223625183,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 899615632.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1373000591993332,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3517.0,
+      "completions/mean_length": 1062.8538818359375,
+      "completions/mean_terminated_length": 625.1200561523438,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 14.354518950437317,
+      "grad_norm": 0.1659601330757141,
+      "learning_rate": 1e-06,
+      "loss": -0.1104,
+      "num_tokens": 900188037.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.1627788543701172,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3795.0,
+      "completions/mean_length": 1118.3482666015625,
+      "completions/mean_terminated_length": 748.476806640625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 14.363848396501458,
+      "grad_norm": 0.13885265588760376,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 900883805.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.14304757118225098,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4037.0,
+      "completions/mean_length": 1039.6351318359375,
+      "completions/mean_terminated_length": 677.144775390625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 14.373177842565598,
+      "grad_norm": 0.17506875097751617,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 901506646.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.17821483314037323,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2675.0,
+      "completions/mean_length": 1021.0592041015625,
+      "completions/mean_terminated_length": 656.3657836914062,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 14.382507288629737,
+      "grad_norm": 0.16278286278247833,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 902116971.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.16228215396404266,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3287.0,
+      "completions/mean_length": 986.5826416015625,
+      "completions/mean_terminated_length": 582.7112426757812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 14.391836734693877,
+      "grad_norm": 0.16569572687149048,
+      "learning_rate": 1e-06,
+      "loss": -0.0727,
+      "num_tokens": 902661661.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13737532496452332,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 1540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2450.0,
+      "completions/mean_length": 1127.771240234375,
+      "completions/mean_terminated_length": 725.2357177734375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.401166180758018,
+      "grad_norm": 0.15166299045085907,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 903328824.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1588732749223709,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 1541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3465.0,
+      "completions/mean_length": 988.3069458007812,
+      "completions/mean_terminated_length": 671.0393676757812,
+      "completions/min_length": 203.0,
+      "completions/min_terminated_length": 203.0,
+      "epoch": 14.410495626822158,
+      "grad_norm": 0.16228637099266052,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 903955059.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.1727273166179657,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3215.0,
+      "completions/mean_length": 1054.4732666015625,
+      "completions/mean_terminated_length": 668.0653686523438,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 14.419825072886297,
+      "grad_norm": 0.14531028270721436,
+      "learning_rate": 1e-06,
+      "loss": -0.0505,
+      "num_tokens": 904567835.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.12779638171195984,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 1543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1640625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3032.0,
+      "completions/mean_length": 1205.90185546875,
+      "completions/mean_terminated_length": 638.686279296875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 14.429154518950437,
+      "grad_norm": 0.1915040910243988,
+      "learning_rate": 1e-06,
+      "loss": -0.0711,
+      "num_tokens": 905148339.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.14297199249267578,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 1096.154052734375,
+      "completions/mean_terminated_length": 645.5994873046875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.438483965014576,
+      "grad_norm": 0.15866118669509888,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 905740325.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.13865482807159424,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3115.0,
+      "completions/mean_length": 1175.4810791015625,
+      "completions/mean_terminated_length": 675.3660278320312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 14.447813411078718,
+      "grad_norm": 0.17744548618793488,
+      "learning_rate": 1e-06,
+      "loss": -0.0906,
+      "num_tokens": 906339860.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.17513547837734222,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3579.0,
+      "completions/mean_length": 1018.7835083007812,
+      "completions/mean_terminated_length": 636.5445556640625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.457142857142857,
+      "grad_norm": 0.1561674028635025,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 906941258.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1356835663318634,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3219.0,
+      "completions/mean_length": 1135.1998291015625,
+      "completions/mean_terminated_length": 703.5741577148438,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 14.466472303206997,
+      "grad_norm": 0.16115762293338776,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 907593909.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.12843577563762665,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2937.0,
+      "completions/mean_length": 1016.700927734375,
+      "completions/mean_terminated_length": 625.4943237304688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 14.475801749271136,
+      "grad_norm": 0.1825391948223114,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 908172457.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15710480511188507,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3544.0,
+      "completions/mean_length": 941.62841796875,
+      "completions/mean_terminated_length": 640.8447875976562,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 14.485131195335278,
+      "grad_norm": 0.15126000344753265,
+      "learning_rate": 1e-06,
+      "loss": -0.0232,
+      "num_tokens": 908795748.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.11952900886535645,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3508.0,
+      "completions/mean_length": 988.8750610351562,
+      "completions/mean_terminated_length": 663.220703125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 14.494460641399417,
+      "grad_norm": 0.13762199878692627,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 909418764.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.12403164058923721,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3610.0,
+      "completions/mean_length": 1139.841552734375,
+      "completions/mean_terminated_length": 647.1484375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.503790087463557,
+      "grad_norm": 0.13642458617687225,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 910009790.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.09299751371145248,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3898.0,
+      "completions/mean_length": 1104.102783203125,
+      "completions/mean_terminated_length": 659.1538696289062,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 14.513119533527696,
+      "grad_norm": 0.16526970267295837,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 910612594.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.14060692489147186,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2662.0,
+      "completions/mean_length": 1108.985595703125,
+      "completions/mean_terminated_length": 638.1641235351562,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.522448979591836,
+      "grad_norm": 0.1656293272972107,
+      "learning_rate": 1e-06,
+      "loss": -0.1282,
+      "num_tokens": 911196997.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.1597309112548828,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4039.0,
+      "completions/mean_length": 1031.0123291015625,
+      "completions/mean_terminated_length": 688.7680053710938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 14.531778425655977,
+      "grad_norm": 0.1355527937412262,
+      "learning_rate": 1e-06,
+      "loss": -0.0304,
+      "num_tokens": 911850672.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.09915942698717117,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 1136.9420166015625,
+      "completions/mean_terminated_length": 692.5134887695312,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.541107871720117,
+      "grad_norm": 0.15699976682662964,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 912485484.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.13098448514938354,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3762.0,
+      "completions/mean_length": 922.0748291015625,
+      "completions/mean_terminated_length": 627.9061279296875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.550437317784256,
+      "grad_norm": 0.18139240145683289,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 913086815.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.15416815876960754,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3797.0,
+      "completions/mean_length": 838.9319458007812,
+      "completions/mean_terminated_length": 584.1672973632812,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 14.559766763848396,
+      "grad_norm": 0.1686929315328598,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 913651666.0,
+      "reward": 0.7589285969734192,
+      "reward_std": 0.1356828659772873,
+      "rewards/verify_math_reward/mean": 0.7589285969734192,
+      "rewards/verify_math_reward/std": 0.4279724657535553,
+      "step": 1558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2949.0,
+      "completions/mean_length": 924.357177734375,
+      "completions/mean_terminated_length": 600.5608520507812,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 14.569096209912537,
+      "grad_norm": 0.1644112467765808,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 914230282.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.1318553388118744,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2802.0,
+      "completions/mean_length": 1193.614990234375,
+      "completions/mean_terminated_length": 709.8841552734375,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 14.578425655976677,
+      "grad_norm": 0.14718376100063324,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 914863641.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.12399844080209732,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2966.0,
+      "completions/mean_length": 920.216552734375,
+      "completions/mean_terminated_length": 583.0346069335938,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.587755102040816,
+      "grad_norm": 0.1438400149345398,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 915423219.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.10675237327814102,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3831.0,
+      "completions/mean_length": 959.8906860351562,
+      "completions/mean_terminated_length": 648.2036743164062,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 14.597084548104956,
+      "grad_norm": 0.1563788652420044,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 916045481.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.133991077542305,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3585.0,
+      "completions/mean_length": 930.41748046875,
+      "completions/mean_terminated_length": 615.8012084960938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 14.606413994169095,
+      "grad_norm": 0.13547132909297943,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 916632679.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.11783905327320099,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3101.0,
+      "completions/mean_length": 1052.4554443359375,
+      "completions/mean_terminated_length": 695.730712890625,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 14.615743440233237,
+      "grad_norm": 0.14040714502334595,
+      "learning_rate": 1e-06,
+      "loss": -0.0616,
+      "num_tokens": 917280111.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.13177725672721863,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3343.0,
+      "completions/mean_length": 962.3460083007812,
+      "completions/mean_terminated_length": 629.6370849609375,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.625072886297376,
+      "grad_norm": 0.1533210426568985,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 917878677.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.13764451444149017,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3241.0,
+      "completions/mean_length": 949.6094360351562,
+      "completions/mean_terminated_length": 619.8396606445312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.634402332361516,
+      "grad_norm": 0.1622307449579239,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 918466215.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12463782727718353,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530588984489441,
+      "step": 1566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2442.0,
+      "completions/mean_length": 819.0960083007812,
+      "completions/mean_terminated_length": 583.9114379882812,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 14.643731778425655,
+      "grad_norm": 0.16707095503807068,
+      "learning_rate": 1e-06,
+      "loss": -0.027,
+      "num_tokens": 919050437.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.1252797544002533,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 974.5535888671875,
+      "completions/mean_terminated_length": 681.0842895507812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.653061224489797,
+      "grad_norm": 0.1345309019088745,
+      "learning_rate": 1e-06,
+      "loss": -0.042,
+      "num_tokens": 919690853.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.13357669115066528,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3878.0,
+      "completions/mean_length": 1104.671875,
+      "completions/mean_terminated_length": 703.3037719726562,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.662390670553936,
+      "grad_norm": 0.16132068634033203,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 920347439.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.12508542835712433,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3737.0,
+      "completions/mean_length": 1070.46435546875,
+      "completions/mean_terminated_length": 647.0432739257812,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 14.671720116618076,
+      "grad_norm": 0.154660165309906,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 920943095.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.11558134853839874,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 982.372802734375,
+      "completions/mean_terminated_length": 647.5327758789062,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 14.681049562682215,
+      "grad_norm": 0.16680721938610077,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 921559237.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1314416527748108,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3876.0,
+      "completions/mean_length": 999.083740234375,
+      "completions/mean_terminated_length": 605.6389770507812,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.690379008746355,
+      "grad_norm": 0.1560639590024948,
+      "learning_rate": 1e-06,
+      "loss": -0.0547,
+      "num_tokens": 922138216.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.10878115892410278,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 1218.380615234375,
+      "completions/mean_terminated_length": 730.0117797851562,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 14.699708454810496,
+      "grad_norm": 0.17366640269756317,
+      "learning_rate": 1e-06,
+      "loss": -0.0811,
+      "num_tokens": 922788645.0,
+      "reward": 0.578125,
+      "reward_std": 0.1615314483642578,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 1573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3735.0,
+      "completions/mean_length": 954.8125610351562,
+      "completions/mean_terminated_length": 663.6780395507812,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 14.709037900874636,
+      "grad_norm": 0.17071594297885895,
+      "learning_rate": 1e-06,
+      "loss": -0.0512,
+      "num_tokens": 923420597.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.1054396778345108,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3705.0,
+      "completions/mean_length": 948.7109985351562,
+      "completions/mean_terminated_length": 601.6121826171875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 14.718367346938775,
+      "grad_norm": 0.168731227517128,
+      "learning_rate": 1e-06,
+      "loss": -0.0193,
+      "num_tokens": 923987674.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.13177795708179474,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4053.0,
+      "completions/mean_length": 1063.0513916015625,
+      "completions/mean_terminated_length": 673.4281616210938,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 14.727696793002915,
+      "grad_norm": 0.16611315310001373,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 924629064.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1350441575050354,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3143.0,
+      "completions/mean_length": 951.5301513671875,
+      "completions/mean_terminated_length": 630.5079956054688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.737026239067056,
+      "grad_norm": 0.13521364331245422,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 925240995.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1194516196846962,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931530952453613,
+      "step": 1577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3079.0,
+      "completions/mean_length": 771.6194458007812,
+      "completions/mean_terminated_length": 628.42724609375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 14.746355685131196,
+      "grad_norm": 0.15980949997901917,
+      "learning_rate": 1e-06,
+      "loss": -0.023,
+      "num_tokens": 925861366.0,
+      "reward": 0.7745535969734192,
+      "reward_std": 0.16322465240955353,
+      "rewards/verify_math_reward/mean": 0.7745535969734192,
+      "rewards/verify_math_reward/std": 0.41810935735702515,
+      "step": 1578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2827.0,
+      "completions/mean_length": 876.5402221679688,
+      "completions/mean_terminated_length": 628.8894653320312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 14.755685131195335,
+      "grad_norm": 0.1481754332780838,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 926479690.0,
+      "reward": 0.7678571939468384,
+      "reward_std": 0.13087712228298187,
+      "rewards/verify_math_reward/mean": 0.7678571343421936,
+      "rewards/verify_math_reward/std": 0.422435462474823,
+      "step": 1579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2881.0,
+      "completions/mean_length": 963.833740234375,
+      "completions/mean_terminated_length": 635.5548706054688,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 14.765014577259475,
+      "grad_norm": 0.16474878787994385,
+      "learning_rate": 1e-06,
+      "loss": -0.0523,
+      "num_tokens": 927085917.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.14373226463794708,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 1159.3326416015625,
+      "completions/mean_terminated_length": 722.5974731445312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.774344023323614,
+      "grad_norm": 0.15768881142139435,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 927751079.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1441766321659088,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 1581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 1042.9029541015625,
+      "completions/mean_terminated_length": 667.9611206054688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 14.783673469387756,
+      "grad_norm": 0.15043064951896667,
+      "learning_rate": 1e-06,
+      "loss": -0.0093,
+      "num_tokens": 928376480.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.1129891499876976,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3446.0,
+      "completions/mean_length": 995.8225708007812,
+      "completions/mean_terminated_length": 610.7315063476562,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.793002915451895,
+      "grad_norm": 0.1480284184217453,
+      "learning_rate": 1e-06,
+      "loss": -0.0543,
+      "num_tokens": 928948073.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.1117856353521347,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705445528030396,
+      "step": 1583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2481.0,
+      "completions/mean_length": 1005.3292846679688,
+      "completions/mean_terminated_length": 647.3810424804688,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 14.802332361516035,
+      "grad_norm": 0.15579748153686523,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 929553904.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.14489158987998962,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3216.0,
+      "completions/mean_length": 1137.7991943359375,
+      "completions/mean_terminated_length": 710.8812255859375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 14.811661807580174,
+      "grad_norm": 0.15973977744579315,
+      "learning_rate": 1e-06,
+      "loss": -0.047,
+      "num_tokens": 930206516.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15939390659332275,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3993.0,
+      "completions/mean_length": 1041.3717041015625,
+      "completions/mean_terminated_length": 670.534423828125,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 14.820991253644316,
+      "grad_norm": 0.14964067935943604,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 930834929.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.14079168438911438,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3547.0,
+      "completions/mean_length": 1185.08935546875,
+      "completions/mean_terminated_length": 717.5336303710938,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 14.830320699708455,
+      "grad_norm": 0.17296187579631805,
+      "learning_rate": 1e-06,
+      "loss": -0.0627,
+      "num_tokens": 931474041.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.14951257407665253,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3146.0,
+      "completions/mean_length": 911.0558471679688,
+      "completions/mean_terminated_length": 607.3569946289062,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 14.839650145772595,
+      "grad_norm": 0.17618399858474731,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 932063403.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.14778690040111542,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 1179.4632568359375,
+      "completions/mean_terminated_length": 737.1092529296875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.848979591836734,
+      "grad_norm": 0.1581123024225235,
+      "learning_rate": 1e-06,
+      "loss": -0.0961,
+      "num_tokens": 932725682.0,
+      "reward": 0.65625,
+      "reward_std": 0.1491014063358307,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3432.0,
+      "completions/mean_length": 1119.5592041015625,
+      "completions/mean_terminated_length": 703.0089111328125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 14.858309037900874,
+      "grad_norm": 0.14995414018630981,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 933371031.0,
+      "reward": 0.640625,
+      "reward_std": 0.1327543705701828,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 1590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3279.0,
+      "completions/mean_length": 1029.571533203125,
+      "completions/mean_terminated_length": 661.5999755859375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 14.867638483965015,
+      "grad_norm": 0.13666093349456787,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 933988527.0,
+      "reward": 0.7377232313156128,
+      "reward_std": 0.126776784658432,
+      "rewards/verify_math_reward/mean": 0.7377232313156128,
+      "rewards/verify_math_reward/std": 0.4401180148124695,
+      "step": 1591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 893.700927734375,
+      "completions/mean_terminated_length": 588.3472290039062,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 14.876967930029155,
+      "grad_norm": 0.17856274545192719,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 934557627.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.12192869931459427,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3577.0,
+      "completions/mean_length": 1117.649658203125,
+      "completions/mean_terminated_length": 696.5070190429688,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.886297376093294,
+      "grad_norm": 0.17614515125751495,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 935200617.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1531924605369568,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4033.0,
+      "completions/mean_length": 1109.4442138671875,
+      "completions/mean_terminated_length": 620.7350463867188,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 14.895626822157434,
+      "grad_norm": 0.12018298357725143,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 935770863.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.09777005016803741,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3482.0,
+      "completions/mean_length": 1059.3616943359375,
+      "completions/mean_terminated_length": 669.2644653320312,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.904956268221575,
+      "grad_norm": 0.13828334212303162,
+      "learning_rate": 1e-06,
+      "loss": -0.0612,
+      "num_tokens": 936392891.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1239563599228859,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 1595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3029.0,
+      "completions/mean_length": 999.1529541015625,
+      "completions/mean_terminated_length": 712.1280517578125,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 14.914285714285715,
+      "grad_norm": 0.1584785431623459,
+      "learning_rate": 1e-06,
+      "loss": -0.038,
+      "num_tokens": 937062532.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.16597090661525726,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2936.0,
+      "completions/mean_length": 1004.482177734375,
+      "completions/mean_terminated_length": 629.1664428710938,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 14.923615160349854,
+      "grad_norm": 0.19859588146209717,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 937646916.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.1315924972295761,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 1086.69873046875,
+      "completions/mean_terminated_length": 682.9190063476562,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 14.932944606413994,
+      "grad_norm": 0.13819001615047455,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 938270406.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.12241724878549576,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3063.0,
+      "completions/mean_length": 1041.5692138671875,
+      "completions/mean_terminated_length": 631.7341918945312,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 14.942274052478133,
+      "grad_norm": 0.15569481253623962,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 938861948.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.11073214560747147,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.46100425720214844,
+      "step": 1599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1741071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3242.0,
+      "completions/mean_length": 1301.2779541015625,
+      "completions/mean_terminated_length": 712.1203002929688,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 14.951603498542275,
+      "grad_norm": 0.14823003113269806,
+      "learning_rate": 1e-06,
+      "loss": -0.0556,
+      "num_tokens": 939489317.0,
+      "reward": 0.59375,
+      "reward_std": 0.12166837602853775,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 1600
+    },
+    {
+      "epoch": 14.951603498542275,
+      "step": 1600,
+      "total_flos": 0.0,
+      "train_loss": -0.039273733161653585,
+      "train_runtime": 125060.3323,
+      "train_samples_per_second": 11.463,
+      "train_steps_per_second": 0.013
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 939489317,
+  "num_train_epochs": 15,
+  "save_steps": 160,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}